Alter3:GPT-4驱动的人形机器人

2024年06月25日 由 daydream 发表 105 0

东京大学和Alternative Machine的研究人员联手开发了一款新型人形机器人系统,该系统能够直接将人类发出的自然语言命令转化为机器人的实际行动。这款名为Alter3的机器人特别设计用来利用大型语言模型(LLM),如GPT-4,中蕴含的庞大知识库来执行复杂任务,比如自拍或模拟成为鬼怪。


微信截图_20240625104227


这是将基础模型的强大功能与机器人技术相结合的研究领域取得的最新突破。尽管目前这样的系统尚未发展成为可扩展的商业解决方案,但近年来它们对机器人研究的发展起到了积极的推动作用,并展现出了巨大的潜力。


LLM如何操控机器人


Alter3以GPT-4作为其后端模型。该模型接收以自然语言描述的行动或机器人需要响应的情境指令。


LLM通过“代理框架”来规划机器人实现目标所需执行的一系列行动。在第一阶段,模型扮演策划者的角色,确定执行所需动作所需的步骤。


微信截图_20240625104248


随后,行动计划被传递给编码代理,该代理生成机器人执行每个步骤所需的指令。由于GPT-4并未针对Alter3的编程指令进行专门训练,研究人员利用其在上下文中的学习能力来适应机器人的API。这意味着在提示中包含了一个指令列表和一组示例,这些示例展示了如何使用每个指令。然后,模型将每个步骤映射到一个或多个API指令,并将这些指令发送给机器人执行。


“在LLM出现之前,我们需要按照一定顺序控制所有的43个轴来模仿人的姿势或假装执行如倒茶或下棋等行为,”研究人员写道。“得益于LLM,我们现在摆脱了重复劳动的束缚。”


从人类反馈中学习


语言并不是描述物理姿态的最精确媒介。因此,模型生成的行动序列可能无法完全在机器人上产生所需的行为。


为了支持修正,研究人员添加了一项功能,允许人类提供反馈,如“再抬高一点手臂”。这些指令被发送到另一个GPT-4代理,该代理对代码进行推理,做出必要的调整,并将行动序列返回给机器人。经过优化的行动方案和代码被存储在数据库中供将来使用。


微信截图_20240625104305


研究人员在多个不同任务上测试了Alter3,包括日常活动如自拍和喝茶,以及模仿行为如假装成鬼怪或蛇。他们还测试了模型对需要精心规划行动的场景的响应能力。


“LLM的训练包含了广泛的运动语言表示。GPT-4可以准确地将这些表示映射到Alter3的身体上,”研究人员写道。


GPT-4关于人类行为和动作的广泛知识使得为类人机器人(如Alter3)创造更逼真的行为计划成为可能。研究人员的实验表明,他们还能够让机器人在行动上模仿诸如尴尬和喜悦等情绪。


“即使文本中没有明确表达情感表达,LLM也能推断出适当的情感,并在Alter3的物理响应中反映出来,”研究人员写道。


更先进的模型


在机器人研究中,基础模型的使用正逐渐变得流行。例如,估值高达26亿美元的Figure公司在其背后使用OpenAI模型来理解人类指令并在现实世界中执行操作。随着多模态成为基础模型的常态,机器人系统将更好地配备推理其环境并选择其行动的能力。


Alter3属于一类项目,这些项目使用现成的基础模型作为机器人控制系统中的推理和规划模块。Alter3并未使用GPT-4的微调版本,研究人员指出,该代码可用于其他类人机器人。


其他项目,如RT-2-X和OpenVLA,使用专门设计的基础模型来直接生成机器人指令。这些模型往往产生更稳定的结果,并推广到更多任务和环境中。但它们也需要一定的技术技能,并且创建成本较高。


这些项目中经常被忽视的一点是,创建能够执行基本任务(如抓取物体、保持平衡和移动)的机器人的基础挑战。“在那些模型尚未涉及的更低层次上,还有很多其他工作要做,”AI和机器人研究科学家Chris Paxton在今年早些时候接受采访时表示。“而这些工作是非常具有挑战性的。在很多方面,这是因为相关数据并不充足。”

文章来源:https://venturebeat.com/ai/alter3-is-the-latest-gpt-4-powered-humanoid-robot/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消