您的日常待办事项可能相当简单直白:洗碗、买菜和其他琐碎的事务。您不太可能会写下“捡起第一个脏盘子”或“用海绵洗那个盘子”,因为这些家务中的每一个小步骤感觉都很直观。虽然我们可以常规地完成每个步骤而不需多想,但机器人却需要一个更详细安排的复杂计划。
MIT的人工智能实验室(Improbable AI Lab),这是计算机科学与人工智能实验室(CSAIL)内部的一个小组,为这些机器提供了帮助,他们提出了一种新的多模态框架:用于层次规划的组合基础模型(HiP),它能够开发出详细、可行的计划,并结合了三种不同的基础模型的专业知识。就像OpenAI的GPT-4,即构建了ChatGPT和Bing Chat的基础模型一样,这些基础模型经过了大量数据的训练,用于如生成图像、文本翻译和机器人技术。
该研究论文发表在预印本服务器arXiv上。
不同于RT2和其他训练有素的多模态模型,它们训练在配对的视觉、语言和行动数据上,HiP使用三种不同的基础模型,每种都训练在不同的数据模态上。每个基础模型捕捉决策过程的不同部分,然后在决策时刻一起工作。HiP消除了获取配对的视觉、语言和行动数据的需求,这些数据很难获得。HiP也使推理过程更加透明。
对于人类来说,被认为是日常家务的事情可能对于机器人而言是一个“长期目标”——一项涉及首先完成许多小步骤的总体目标——需要足够的数据来规划、理解和执行目标。尽管计算机视觉研究人员试图为这个问题构建单一的基础模型,但将语言、视觉和行动数据配对是昂贵的。相反,HiP代表了一种不同的、多模态的方案:一个廉价地将语言、物理和环境智能整合进机器人的三重套装。
NVIDIA的人工智能研究员吉姆·范(Jim Fan)说,他没有参与这篇论文的研究工作。“基础模型不必是单一的。”他说。“这项工作将具身代理规划的复杂任务分解为三个组成模型:语言推理器、视觉世界模型和行动规划器。它使一个困难的决策问题变得更易处理和透明。”
研究团队相信,他们的系统可以帮助这些机器完成家务,例如放好一本书或将一碗放入洗碗机。此外,HiP还可以协助执行多步骤的建筑和制造任务,如按特定顺序堆放和放置不同材料。
对HiP的评估
CSAIL团队对HiP在三个操纵任务上的敏锐性进行了测试,其性能超越了可比框架。该系统通过开发适应新信息的智能计划进行推理。
首先,研究人员要求它将不同颜色的积木堆放在彼此上方,然后将其他积木放在附近。难点在于:一些正确的颜色不在场,所以机器人不得不将白色积木放入一个颜料碗内进行涂色。与如Transformer BC和Action Diffuser等最先进的任务规划系统相比,HiP常常能准确地调整其计划,按需要堆放和放置每个方块。
另一个测试是:在一个棕色盒子内安排物品,如糖果和锤子,同时忽略其他物品。它需要移动的一些物品是脏的,所以HiP调整其计划先将它们放入清洗箱中,然后再放入棕色容器。在第三个示范中,机器人能够忽略不必要的物品来完成厨房的子目标,如打开微波炉、清理水壶,并打开灯。一些提示的步骤已经完成,所以机器人适应性地跳过了这些指示。
三叉分层结构
HiP的三叉规划过程作为层次,能够对其组件中的每一个进行预训练,包括机器人学之外的数据集。在这个层次结构的底部是一个大型语言模型(LLM),它开始通过捕捉所有需要的符号信息并制定一个抽象的任务计划。模型运用互联网上找到的常识知识,将其目标分解为子目标。例如,“泡一杯茶” 变成了“用水填满一个壶”,“煮沸这个壶”,以及接下来所需的行动。
“我们只是想利用现有的预训练模型,并让它们成功地互相连接。”MIT电子工程与计算机科学系(EECS)的博士生、CSAIL成员安拉格·阿贾伊(Anurag Ajay)说。“我们没有推动一个模型做所有事,而是结合了多个利用不同互联网数据模态的模型。当配合使用时,它们有助于机器人决策,并且可能有助于家庭、工厂和建筑工地的任务。”
这些模型还需要某种形式的“眼睛”来理解它们正在操作的环境,并正确执行每个子目标。团队使用了一个大型视频扩散模型来增强LLM完成的初步规划,该模型从互联网上的影片收集关于世界的几何和物理信息。进而,视频模型生成一个观察轨迹计划,细化LLM的概述以纳入新的物理知识。
这个称为迭代细化的过程,允许HiP对其想法进行推理,在每个阶段接收反馈以生成更实际的概述。反馈的流程类似于写文章,作者可能会将草稿发送给编辑,并且在加入修订后,出版商会审查最后的变更并定稿。
在这种情况下,层次结构的顶端是一个以自我为中心的行动模型,或者说是一系列的第一人称图像,根据周围环境推断应该采取哪些行动。在此阶段,视频模型的观察计划被映射到机器人可看见的空间上,帮助机器决定如何执行长期目标内的每项任务。如果机器人使用HiP来泡茶,这意味着它会精确地映射出壶、水槽和其他关键视觉元素的位置,并开始完成每个子目标。
然而,这项多模态工作受制于缺乏高质量的视频基础模型。一旦高质量模型可用,它们可以与HiP的小规模视频模型接口,以进一步增强视觉序列预测和机器人动作生成。一个更高质量的版本也会减少视频模型当前的数据需求。
话虽如此,CSAIL团队的方法总体上只使用了少量的数据。此外,HiP的训练成本低廉,并且展示了使用现成的基础模型来完成长期任务的潜力。
“阿努拉格所展示的是,我们如何可以将在不同任务和数据模态上训练的模型组合成机器人规划模型的概念证明。将来,HiP可以通过预训练模型来增强,这些模型能够处理触感和声音,以做出更好的计划。”MIT助理教授、EECS系和低概率人工智能实验室主任普尔基特·阿格拉瓦尔(Pulkit Agrawal)说。该小组还在考虑将HiP应用于解决现实世界中的长期机器人任务。