智能机器人正在重塑我们的宇宙。在新泽西的Robert Wood Johnson大学医院,AI辅助机器人通过扫描建筑物的每一寸空间,寻找有害细菌和病毒,并使用精确剂量的杀菌紫外线对其进行消毒,为医生和患者带来了新的安全水平。
在农业领域,由无人机驱动的机器臂扫描各种类型的水果和蔬菜,并确定它们何时完美地成熟可供采摘。
空间情报系统AI Flyways接管了航班调度员可能因突然极端天气、燃料短缺、机械问题或其他紧急情况而必须进行最后一刻飞行路径更改的具有挑战性、常常令人紧张的任务。它能够优化解决方案,更加安全,节省时间,效益高。
但是,先不要考虑这些成就:机器人能否做到完美无瑕地转笔?
NVIDIA研究团队开发了一个能够做到这一点的机器人。尽管这个任务令人印象深刻——一些专家称人类可能需要数个月甚至一年或更长时间才能掌握包括Devil's Sonic,、Backaround、Corkscrew和Bust X2等具有挑战性的指法花式。但NVIDIA项目的重点在于,这项转笔的壮举是通过AI生成的指令教给机器人的。
在一篇名为“Eureka: Human-Level Reward Design via Coding Large Language Models”的论文中,研究人员描述了一种“进化优化的奖励代码”,其中机器人通过AI生成的指令学习复杂的精细操作动作。
它承诺在我们的未来带来更加高效的问题解决,更先进的物理操控和越来越智能的机器。
该团队开发了一种应用于GPT-4的算法Eureka,为LLM学习先进的运动功能建立了奖励系统。这些任务在由NVIDIA开发的名为Isaac Gym的物理模拟应用程序中执行。
83%通过Eureka训练的机器人在试验中优于人类设计的指令。转笔的任务是在Eureka算法上进行训练的29项复杂技能之一。
“Eureka的多才多艺和实质性的性能提升表明,将大型语言模型与进化算法结合起来的简单原则是一种通用且可扩展的奖励设计方法,这种洞察力可能适用于困难且开放的搜索问题,”NVIDIA的AI研究高级总监、Eureka论文作者Anima Anandkumar表示。
Isaac Gym在三维环境中模拟物理活动。大规模并行的训练会比人类或早期计算系统更快地生成大量的操控可能解决方案。研究人员表示,这种方法可以将训练速度提高1000倍。
人类操纵工作者的反馈可以纳入训练算法。研究人员表示,在特别具有挑战性的任务中,它将作为一个“强大的副驾驶员”。
Eureka通过编译每个训练会话的进展统计数据,并调整代码以持续改善结果。
根据微软研究公司的首席研究工程师Shital Shah的说法,“自我改进的正反馈循环也许就在不远的将来,它将使我们能够超越人类的训练数据和能力。”