让机器人更好地掌握未知世界

2023年11月03日 由 samoyed 发表 241 0

受到人类处理陌生物体的能力的启发,麻省理工学院计算机科学与人工智能实验室(CSAIL)的一个团队设计了面向机器人操纵的特征领域(F3RM)系统,该系统将2D图像与基本模型特征结合到3D场景中,帮助机器人识别和抓取附近的物体。F3RM能够解释人类提供的问句,使得该方法在包含数千个物体的真实世界环境中(如仓库和家庭)非常有用。


using-language-to-give


F3RM为机器人提供了理解自然语言的能力,帮助机器人操纵物体。因此,机器人能够理解人类较不具体的请求,并完成所需的任务。例如,如果用户要求机器人“拿一个杯子”,机器人可以找到并抓取最符合描述的物体。


学习“通过观察来了解‘物品在哪里’”


这种方法可以帮助机器人在必然杂乱和不可预测的大型配送中心中挑选物品。在这些仓库中,机器人通常会收到存货描述,然后需要识别这些存货。机器人必须将提供的文本与物品匹配,无论包装的变化如何,以确保客户的订单正确送出。


例如,大型在线零售商的配送中心可能包含数百万个物品,其中许多物品机器人以前从未遇到过。为了在如此大规模的环境中操作,机器人需要理解不同物品的几何和语义信息,其中一些物品在狭小空间中。通过F3RM的先进空间和语义感知能力,机器人可以更有效地定位物体,将其放入容器中,然后发送至包装区域。最终,这将帮助工厂工人更高效地处理客户的订单。


Yang表示:“关于F3RM经常让人惊讶的一点是,同样的系统也适用于房间和建筑物规模,并可以用于构建机器人学习和大型地图的仿真环境。但在进一步扩展这项工作之前,我们希望首先加快系统的运行速度。这样,我们可以将这种类型的表示用于更动态的机器人控制任务,希望能够实时使用,以便处理更加动态的任务的机器人可以用它来进行感知。”


麻省理工学院团队指出,F3RM对不同场景的理解能力使其在城市和家庭环境中非常有用。例如,该方法可以帮助个人化机器人识别和拿起特定物品。该系统帮助机器人在物理和感知层面上理解周围环境。


麻省理工学院电气工程和计算机科学副教授、CSAIL首席研究员和本文的高级作者Phillip Isola表示:“视觉感知的问题可以由David Marr定义为通过观察来了解‘物品在哪里’。最近的基础模型在了解‘物品是什么’方面非常出色;它们可以识别成千上万种物体类别,并提供图像的详细文本描述。同时,辐射场在表示场景中的位置方面也取得了很好的结果。这两种方法的结合可以创建一个关于物品在3D空间中位置的表示,我们的工作表明,这种组合对于需要在3D中操纵物体的机器人任务尤其有用。”


创建“数字孪生”


F3RM通过在自拍杆上放置的相机拍摄照片来了解周围环境。这个固定的相机以不同的姿势拍摄50幅图像,从而构建出神经辐射场(NeRF),这是一种通过2D图像构建3D场景的深度学习方法。这些RGB照片的拼贴在形式上创建了周围环境的“数字孪生”,形成了一个360度附近的表示。


除了高度详细的神经辐射场,F3RM还构建了一个特征场,以增强几何与语义信息的结合。该系统使用CLIP,这是一个在数亿张图像上训练的视觉基础模型,可以高效地学习视觉概念。通过重构自拍杆拍摄的图像的2D CLIP特征,F3RM将这些2D特征有效地提升到3D表示。


保持开放性


经过几次演示后,机器人将其对几何和语义的理解应用于抓取以前从未遇到过的物体。一旦用户提交文本查询,机器人将在可能的抓取方式中搜索,以识别最有可能成功拿起用户请求的物体的方式。每个潜在的选项都根据其与提示的相关性、与机器人已经训练过的示范的相似性以及是否会导致任何碰撞来评分。然后选择并执行最高分的抓取方式。


为了展示该系统执行人类命令的能力,研究人员要求机器人拿起迪士尼电影《超能陆战队》中的角色Baymax。虽然F3RM从未直接训练过拿起这个卡通超级英雄的玩具,但机器人利用其基础模型的空间感知和视觉语言特征来决定选择哪个物体以及如何拿取它。


F3RM还使用户可以以不同的语言详细程度指定他们希望机器人处理的物体。例如,如果有一个金属杯子和一个玻璃杯子,用户可以要求机器人拿“玻璃杯”。如果机器人看到两个玻璃杯,其中一个装着咖啡,另一个装着果汁,用户可以要求机器人拿“装着咖啡的玻璃杯”。嵌入在特征场中的基础模型特征使得这种开放式的理解成为可能。


麻省理工学院博士生、CSAIL成员和共同作者William Shen表示:“如果我向一个人展示如何通过杯子口抓住杯子,他们可以轻松地将这种知识转移到类似几何形状的物体上,例如碗、量杯,甚至是胶带卷。对于机器人来说,实现这种适应性是非常具有挑战性的。F3RM将几何理解与在互联网规模的数据上训练的基础模型的语义相结合,使这种激进的从少数演示中实现的普遍化成为可能。”


文章来源:https://techxplore.com/news/2023-11-language-robots-grasp-open-ended-world.html
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消