机器人开发商Figure在社交媒体上发布了一段视频,展示了其首款仿人机器人与OpenAI的生成式人工智能进行实时对话的场景,引起了广泛的关注。
Figure在推特上兴奋地表示:“借助OpenAI的技术,Figure 01现在已经可以与人们进行完整的对话了。”这凸显了该机器人在即时理解和应对人类互动方面的能力。
该公司解释说,与OpenAI的最新合作为其机器人带来了高水平的视觉和语言智能,使机器人能够进行“快速、低级别、灵巧的动作”。
在这段视频中,Figure 01与其创始人的高级人工智能工程师Corey Lynch进行了互动。Lynch要求机器人在一个临时搭建的厨房中完成了一系列任务,包括识别苹果、盘子和杯子。
当Lynch让机器人给他一些吃的时,Figure 01迅速识别出苹果作为食物。接着,Lynch又要求Figure 01将垃圾收集到篮子里,并同时向它提问,展示了机器人出色的多任务处理能力。
在推特上,Lynch对Figure 01项目进行了更详细的解释。他写道:“我们的机器人能够描述其视觉体验,规划未来的行动,反思其记忆,并口头解释其推理过程。”
据Lynch介绍,他们将机器人摄像头拍摄到的图像和通过内置麦克风捕捉到的语音转化为文本,然后输入到OpenAI训练的大型多模态模型中。多模态人工智能是指能够理解和生成不同类型数据(如文本和图像)的人工智能。
Lynch强调,Figure 01的行为是通过学习获得的,以正常速度运行,并且没有远程控制。“该模型会处理整个对话历史,包括过去的图像,以得出语言回应,这些回应通过文本转语音的方式传达给人类。”Lynch说,“同一个模型还负责决定在机器人上运行哪种学习到的闭环行为来执行给定命令,将特定的神经网络权重加载到GPU上并执行策略。”
Lynch解释说,Figure 01被设计成能够简洁地描述周围环境,并且可以在决策时应用“常识”,比如推断盘子应该放在架子上。它还可以解析模糊的陈述,比如饥饿,并将其转化为行动,比如提供一个苹果,同时解释其行动。
Figure 01在推特上的首次亮相引发了热烈的反响,许多人对它的能力印象深刻,甚至有人将其视为人工智能发展道路上的重要里程碑。
对于人工智能开发人员和研究人员来说,Lynch还分享了一些技术细节。他说:“所有行为都是由神经网络视觉运动转换器策略驱动的,直接将像素映射到动作上。这些网络以10赫兹的频率接收机器人身上的图像,并以200赫兹的频率生成24-DOF动作(手腕姿势和手指关节角度)。”
Figure 01的首次亮相极具影响力,正值政策制定者和全球领导人努力解决人工智能工具向主流领域扩散的问题之际。虽然大多数讨论都集中在大型语言模型上,如OpenAI的ChatGPT、谷歌的Gemini和Anthropic的Claude AI,但开发人员也在寻找将人工智能与仿人机器人实体相结合的方法。
目前,Figure AI和OpenAI尚未对Decrypt的置评请求做出回应。
加州大学伯克利分校工业工程教授Ken Goldberg之前告诉Decrypt:“一个是实用主义目标,这就是埃隆·马斯克和其他人正在追求的。现在正在进行的大量工作——为什么人们会投资像Figure这样的公司——是因为希望这些机器人能够正常工作并兼容,”他说,特别是在太空探索领域。
除了Figure之外,还有其他公司也在努力将AI与机器人技术相结合,比如Hanson Robotics,该公司于2016年推出了其Desdemona AI机器人。
Figure AI的高级人工智能工程师Corey Lynch在推特上表示:“即使在几年前,我也会认为与仿人机器人进行完整的对话,同时机器人规划和执行其完全学会的行为,会是我们需要等待几十年才能看到的事情。显然,很多事情已经发生了改变。”