谷歌DeepMind最近宣布了机器人转换器2(RT-2),这是一个用于控制机器人的视觉语言动作(VLA)AI模型。RT-2使用微调的LLM来输出运动控制命令。它可以执行训练数据中未明确包含的任务,并在新的技能评估中对基准模型的改进达到3倍。
DeepMind训练了两个RT-2的变体,分别基于两个不同的视觉LLM基础模型:一个基于PaLM-E的12B参数版本,另一个基于PaLI-X的55B参数版本。LLM在通用视觉语言数据集和机器人特定数据的混合上进行共同微调。该模型学会输出机器人运动命令的向量,将其视为一串整数:实际上,这是模型学习的一种新语言。最终模型能够接收机器人工作空间的图像和用户命令,如“捡起即将从桌子上掉下来的包”,然后生成执行任务的运动命令。DeepMind表示:
“RT-2不仅展示了人工智能如何迅速地推动机器人技术的发展,还为更通用的机器人带来了巨大的潜力。虽然在人类中心环境中创建有用的机器人仍然需要大量工作,但RT-2向我们展示了即将实现的令人兴奋的机器人未来。”
谷歌机器人和DeepMind已经发布了几个使用LLM来控制机器人的系统。在2022年,谷歌的SayCan使用LLM为机器人生成高级行动计划,以及Code-as-Policies系统使用LLM生成执行机器人控制的Python代码。这些系统都使用纯文本LLM来处理用户输入,而视觉组件由单独的机器人模块处理。今年早些时候,谷歌的PaLM-E系统处理来自机器人传感器的多模态输入数据,并输出一系列高级行动步骤。
RT-2是RT-1的升级版本。RT系列的关键思想是训练模型直接输出机器人命令,与以前的方法相比,不再输出更高级的运动抽象。RT-2和RT-1都接收图像和任务的文本描述作为输入。然而,RT-1使用了一系列不同的视觉模块来生成输入LLM的视觉标记,而RT-2则使用一个单一的视觉语言模型,如PaLM-E。
DeepMind对RT-2进行了6000多次的试验评估。研究人员特别关注其新颖能力:即执行不在机器人特定训练数据中的任务,而是从其视觉语言预训练中归纳出来的任务。团队将RT-2在符号理解、推理和人类识别三个任务类别上进行了测试。与基准模型相比,RT-2取得了“超过3倍的平均成功率”。但该模型并未获得机器人训练数据中未包含的任何物理技能。
在Hacker News对该工作的讨论中,一位用户评论道:
“看起来这项工作(以及许多机器人学习的工作)仍然局限于位置/速度控制,而不是阻抗控制。这实质上是输出去哪里,可以由闭环控制器或开环运动规划器处理。这似乎大大降低了数据需求,但似乎是我们能够完成的任务的一种基本限制。机器人操纵之所以困难,是因为我们需要考虑不仅是世界上正在发生的事情,还要考虑我们的交互如何改变它以及我们需要如何对此做出反应。”
尽管RT-2还没有开源,但RT-1的代码和数据已经开放。