AI支持的新系统使人与机器人更加无缝地交流

2023年11月07日 由 camellia 发表 294 0

下图这个黑黄相间的机器人,看起来像一只大狗,站在那里等待指示。当他们来的时候,指令不是用代码,而是用简单的英语:“去木桌那两次,但不要去书架前的木桌。”


4

四条金属腿呼呼地动了起来。机器人从它站在房间里的地方走到附近的书架,然后,在短暂的停顿后,拖着脚走到指定的木桌前,然后离开并返回第二次访问以满足命令。


直到最近,像这样的导航机器人几乎不可能完成这样的练习。目前大多数导航机器人的软件都不能可靠地从英语或任何日常语言转换成机器人能够理解和执行的数学语言。


当软件必须根据复杂或表达性的方向进行逻辑跳跃时(例如在木桌之前先去书架),这变得更加困难,因为传统上这需要对数千小时的数据进行训练,以便它知道机器人在遇到特定类型的命令时应该做什么。


然而,在人工智能上运行的所谓大型语言模型的进步正在改变这一点。赋予机器人新的理解和推理能力不仅有助于实现这种实验,而且让计算机科学家们兴奋地将这种成功转移到实验室以外的环境,如人们的家庭和世界各地的主要城镇。


在过去的一年里,布朗大学人类到机器人实验室的研究人员一直在研究一个具有这种潜力的系统,并在一篇新论文中分享了它,该论文将于11月8日在亚特兰大举行的机器人学习会议上发表。


科学家们表示,这项研究标志着人类和机器人之间更加无缝的交流做出了重要贡献,因为有时人类自然交流的复杂方式在向机器人表达时通常会带来问题,经常导致不正确的行动或长时间的规划滞后。


“在论文中,我们特别考虑了在环境中移动的移动机器人,”布朗大学的计算机科学教授、新研究的高级作者斯蒂芬妮·特莱克斯说。“我们希望找到一种方法,将人们可能对机器人说的复杂、具体和抽象的英语指令——比如沿着普罗维登斯的塞尔街走,在咖啡店等我,但要避开简历和去银行的第一站——与机器人的行为联系起来。”


这篇论文描述了该团队的新系统和软件如何通过使用人工智能语言模型(类似于为ChatGPT等聊天机器人提供动力的模型)来设计一种创新的方法,将指令划分和分解,以消除对训练数据的需求。


它还解释了该软件如何为导航机器人提供强大的基础工具,该工具不仅能够接受自然语言命令和生成行为,还能够根据简单语言指令的上下文以及它们所说的机器人可以或不可以做什么以及以什么顺序来计算机器人可能需要进行的逻辑跳跃。


“在未来,这可以应用于移动机器人在我们的城市中移动,无论是无人机,自动驾驶汽车还是运送包裹的地面车辆,”Tellex说。“任何时候你需要和机器人说话,告诉它做事情,你都可以这样做,并给它非常丰富、详细、精确的指令。”


Tellex表示,新系统具有理解表达性和丰富语言的能力,代表了迄今为止发布的最强大的路线指引语言理解系统之一,因为它基本上可以在机器人中开始工作,而不需要训练数据。


传统上,如果开发人员希望机器人在波士顿规划并完成路线,例如,他们必须收集人们在城市中发出指示的不同例子——例如“穿过波士顿公共区,但要避开蛙池”——所以系统知道这意味着什么,并可以计算给机器人。如果他们想让机器人在纽约市导航,他们必须从头再来一遍。


研究人员在该系统中发现的新的复杂程度意味着它可以在任何新的环境中运行,而无需长时间的训练过程。相反,它只需要环境的详细地图。


布朗大学Tellex实验室的博士后研究员Ankit Shah说:“我们基本上是从语言到机器人进行的动作。


为了测试该系统,研究人员使用OpenStreetMap在21个城市对软件进行了模拟。仿真表明,该系统在80%的时间内是准确的。这个数字比其他类似的系统要准确得多,研究人员说,这些系统只有大约20%的时间是准确的,并且只能计算简单的航点导航,例如从A点到B点。这样的系统也无法考虑约束,例如需要避开某个区域,或者在前往 A 点或 B 点之前必须前往另一个位置。


除了模拟之外,研究人员还使用波士顿动力公司Spot机器人在布朗大学校园的室内测试了他们的系统。总的来说,该项目增加了Tellex在布朗实验室的高影响力工作的历史,其中包括使机器人更好地遵循口头指令的研究,一种提高机器人获取物体能力的算法,以及帮助机器人产生类似人类笔触的软件。


从语言到行动


该研究的主要作者Jason Xinyu是布朗大学计算机科学博士生,与Tellex合作,他说,名为Lang2LTL的新软件的成功在于它的工作方式。为了证明这一点,他举了一个例子,一个用户告诉无人机去主街上的“商店”,但必须先去“银行”。


他解释说,首先,这两个地点被撤出。然后,语言模型开始将这些抽象位置与模型知道在机器人环境中的特定位置进行匹配。它还会分析位置上可用的元数据,例如它们的地址或它们的商店类型,以帮助系统做出决策。


在这种情况下,附近有几家商店,但主街上只有一家,因此系统知道“商店”是沃尔玛,“银行”是大通银行。然后,语言模型完成将命令转换为线性时态逻辑的过程,线性时态逻辑是表示这些命令的数学代码和符号。然后,系统会获取现在映射的位置,并将它们插入到它一直在创建的公式中,告诉机器人去A点,但只在B点之后。


“从本质上讲,我们的系统使用其模块化系统设计和在互联网规模数据上预先训练的大型语言模型来处理更复杂的方向和基于线性的自然语言命令,这些命令具有以前机器人系统无法理解的不同类型的约束,”Xinyu说。“以前的系统无法处理这个问题,因为它们被设计为基本上一次完成这个过程的方式所阻碍。


研究人员已经在考虑该项目的下一步发展。


他们计划在11月在项目网站上发布基于OpenStreetMaps的模拟,用户可以自己测试该系统。网络浏览器的演示将允许用户输入自然语言命令,指示模拟中的无人机执行导航命令,让研究人员研究他们的软件如何进行微调。不久之后,该团队希望为软件添加对象操作功能。


“这项工作是我们未来可以做的许多工作的基础,”Xinyu说。


文章来源:https://techxplore.com/news/2023-11-powered-ai-human-to-robot-communication-seamless.html
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消