麻省理工学院本周展示了一种新的机器人训练模型。不同于传统的使用特定数据集来教导机器人新任务的方法,该方法采用大量信息进行训练,类似于训练大型语言模型(LLM)的方式。
研究者指出,模仿学习——即通过观察个体执行任务来学习——在遇到小挑战时可能失效。这些挑战包括光照变化、不同的环境设置或新出现的障碍物等。在这种情况下,由于缺乏足够的数据支持,机器人难以适应新情况。
为了解决这一问题,研究团队借鉴了像GPT-4这样的大型语言模型的数据密集型解决问题方式。然而,与语言领域的数据全部为句子不同,机器人领域面临着数据异质性的挑战。因此,需要一种不同的架构来实现类似的预训练效果。
为此,研究团队开发了一种名为异构预训练变换器(HPT)的新架构,该架构能够整合来自不同传感器和环境的信息。利用变换器技术,可以将这些数据整合到训练模型中,且变换器越大,输出效果越好。
用户可以通过输入机器人的设计、配置以及所需完成的任务来使用此模型。
卡内基梅隆大学副教授David Held对这项研究的目标进行了描述,即开发出一种通用的机器人“大脑”,可以无需额外训练直接下载使用。尽管目前仍处于早期阶段,但研究团队希望通过扩大规模能带来机器人政策上的突破,就像大型语言模型所经历的那样。
这项研究部分由丰田研究所资助。去年,在TechCrunch Disrupt活动中,丰田研究所展示了其夜间训练机器人技术。最近,该研究所还与波士顿动力公司达成了里程碑式的合作,旨在将其机器人学习研究成果与波士顿动力公司的硬件相结合。