谷歌DeepMind发布基于LLM的RT-2：实现视觉语言行动控制

2023年10月18日由 daydream 发表 572 0

谷歌DeepMind最近宣布了机器人转换器2（RT-2），这是一个用于控制机器人的视觉语言动作（VLA）AI模型。RT-2使用微调的LLM来输出运动控制命令。它可以执行训练数据中未明确包含的任务，并在新的技能评估中对基准模型的改进达到3倍。

微信截图_20231018105105

DeepMind训练了两个RT-2的变体，分别基于两个不同的视觉LLM基础模型：一个基于PaLM-E的12B参数版本，另一个基于PaLI-X的55B参数版本。LLM在通用视觉语言数据集和机器人特定数据的混合上进行共同微调。该模型学会输出机器人运动命令的向量，将其视为一串整数：实际上，这是模型学习的一种新语言。最终模型能够接收机器人工作空间的图像和用户命令，如“捡起即将从桌子上掉下来的包”，然后生成执行任务的运动命令。DeepMind表示：

“RT-2不仅展示了人工智能如何迅速地推动机器人技术的发展，还为更通用的机器人带来了巨大的潜力。虽然在人类中心环境中创建有用的机器人仍然需要大量工作，但RT-2向我们展示了即将实现的令人兴奋的机器人未来。”

谷歌机器人和DeepMind已经发布了几个使用LLM来控制机器人的系统。在2022年，谷歌的SayCan使用LLM为机器人生成高级行动计划，以及Code-as-Policies系统使用LLM生成执行机器人控制的Python代码。这些系统都使用纯文本LLM来处理用户输入，而视觉组件由单独的机器人模块处理。今年早些时候，谷歌的PaLM-E系统处理来自机器人传感器的多模态输入数据，并输出一系列高级行动步骤。

RT-2是RT-1的升级版本。RT系列的关键思想是训练模型直接输出机器人命令，与以前的方法相比，不再输出更高级的运动抽象。RT-2和RT-1都接收图像和任务的文本描述作为输入。然而，RT-1使用了一系列不同的视觉模块来生成输入LLM的视觉标记，而RT-2则使用一个单一的视觉语言模型，如PaLM-E。

DeepMind对RT-2进行了6000多次的试验评估。研究人员特别关注其新颖能力：即执行不在机器人特定训练数据中的任务，而是从其视觉语言预训练中归纳出来的任务。团队将RT-2在符号理解、推理和人类识别三个任务类别上进行了测试。与基准模型相比，RT-2取得了“超过3倍的平均成功率”。但该模型并未获得机器人训练数据中未包含的任何物理技能。

在Hacker News对该工作的讨论中，一位用户评论道：

“看起来这项工作（以及许多机器人学习的工作）仍然局限于位置/速度控制，而不是阻抗控制。这实质上是输出去哪里，可以由闭环控制器或开环运动规划器处理。这似乎大大降低了数据需求，但似乎是我们能够完成的任务的一种基本限制。机器人操纵之所以困难，是因为我们需要考虑不仅是世界上正在发生的事情，还要考虑我们的交互如何改变它以及我们需要如何对此做出反应。”

尽管RT-2还没有开源，但RT-1的代码和数据已经开放。

文章来源：https://www.infoq.com/news/2023/10/deepmind-robot-transformer/

标签：

谷歌 DeepMind LLM

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇文心大模型4.0正式发布，李彦宏：综合水平与GPT-4相比毫不逊色

下一篇 Stardog推出LLM驱动的对话层Voicebox，简化企业数据访问

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来