Google通过RT-2在机器人技术方面实现了飞跃
2023年08月02日 由 Susan 发表
729239
0
Google DeepMind推出了其Robotics Transformer模型1的继任者RT-2,这是一个基于Transformer的模型,经过从Web中的文本和图像进行训练,使其能够直接生成机器人动作。
与聊天机器人不同,机器人面临现实世界中的挑战,需要在物理环境和复杂任务中做出反应。然而,RT-2是朝着创建更有能力和有用的机器人迈出的重要一步,解决了以前使用耗时昂贵的训练方法所面临的挑战。类似于语言模型从Web数据中学习以理解一般概念,RT-2利用Web数据来指导和引导机器人行为。
这是一个推进视觉-语言模型(VLMs)能力的进展,VLMs将图像作为输入并生成文本。它基于PaLI-X和PaLM-E等模型,并将它们改进为RT-2的基础。为了实现机器人控制,RT-2将动作表示为输出中的标记,类似于语言标记,使得可以使用标准的自然语言分词器处理动作。这种方法使得模型可以输出机器人动作并有效地控制机器人的行为。
测试和能力
DeepMind对RT-2模型进行了定性和定量实验,使用了超过6000个机器人试验。定义了三类技能:符号理解、推理和人类识别,这需要结合来自Web规模的数据和机器人的经验。
RT-2展示了新出现的机器人技能,这些技能在机器人数据中并不存在,这要归功于来自Web预训练的知识转移。例如,通过利用来自大量Web数据集的知识,RT-2可以理解识别垃圾并将其丢弃等概念,而无需特定的训练。它甚至可以掌握抽象概念,认识到某些物体在使用后会成为垃圾。
RT-2通过将复杂推理与机器人动作结合在一个模型中,简化了机器人指令的过程。它可以执行任务,即使没有明确为其进行训练。RT-2将语言和视觉训练数据的知识转移到机器人动作中的能力展示了其在处理各种任务时的多功能性和有效性。
与先前的基线模型如RT-1和VC-1相比,它在泛化性能方面显示了超过3倍的改进。RT-2在机器人数据中看到的原始任务表现保持不变,并在以前未见过的场景中显著改善了性能,展示了大规模预训练的好处。此外,RT-2在仅对视觉进行预训练的基线模型上表现出色,表明其在处理新情况方面具有更优异的性能。
谷歌通过将其语言模型LLM PaLM应用于机器人,开发出了称为PaLM-SayCan的系统,使机器人变得更智能。然而,在一次现场演示中,这个新机器人出现了一些问题。《纽约时报》目睹了机器人错误地识别汽水的味道,并误将水果识别为白色。
其他竞争者
尽管谷歌DeepMind在机器人技术方面取得了一些进展,但波士顿动力也在加强其努力,并是主要竞争对手之一。波士顿动力在机器人技术方面取得了重大突破,发布了Spot等机器人,并提升了其人形机器人Atlas的能力。
Atlas现在能够在不平坦的地形上导航、从网络瘫痪中恢复、执行各种任务。这些改进是通过增强抓取和操作能力以及采用新的控制算法实现的,使得Atlas能够根据不同条件进行改进和适应,达到顶尖水平甚至更高。
这个机器人有28个液压驱动的关节和多种传感器,如激光雷达和摄像头,它们共同使机器人具备了灵活性和对周围环境的理解。波士顿动力致力于开发先进的机器人技术,包括Spot和Handle,旨在创建能够执行各种活动的多功能机器人。
与此同时,像马斯克的特斯拉公司致力于开发Optimus等项目,但项目仍在进行中,目前看起来并不起眼。
另一方面,OpenAI曾经设有一个机器人部门,他们开发了一只能够解决魔方的机械臂。然而,该公司于2021年关闭了这个部门。但是,OpenAI现在决定重新进入机器人领域,并投资于一家名为1x的挪威初创公司。
在2021年,谷歌DeepMind在基于视觉的机器人操作方面取得了进展,该技术使机器人能够理解其周围环境和物体。
与此同时,微软似乎将注意力集中在开发ChatGPT上,将其能力扩展到机械臂、无人机和家庭助理机器人。该公司的人工智能实验室项目部正在尝试将人工智能和机器人结合起来,利用拥有嵌入式视觉和高分辨率力控的协作机器人Paul-E来自动化各种任务。然而,与谷歌DeepMind相比,微软在机器人技术研究方面的工作并不如此广泛。
谷歌DeepMind深入研究将语言模型与机器结合的方法,这可能会对关于对AGI来说具体化的重要性的辩论产生影响。
总的来说,机器人技术领域竞争激烈,各家公司在不同的方法和技术上投资,推动机器人能力的扩展。
来源:https://analyticsindiamag.com/google-takes-leap-forward-in-robotics-with-rt-2/