机器人理想情况下应该能够以灵活的方式与用户和周围的物体进行交互,而不是始终坚持相同的回应和动作。最近,一种名为zero-shot目标导航(ZSON)的机器人方法得到了关注。
ZSON涉及开发先进的计算技术,使机器人代理能够在未知环境中导航,与以前未见过的物体进行交互,并对各种提示做出回应。虽然其中一些技术取得了有希望的结果,但它们通常只能让机器人定位于通用类别的物体,而不能利用自然语言处理来理解用户的提示并定位具体的物体。
密歇根大学的一支研究团队最近着手开发一种新方法,以增强机器人在开放世界环境中探索并以个性化方式导航的能力。他们在arXiv预印版服务器上发表的一篇论文中介绍了他们提出的框架,该框架利用大型语言模型(LLM)使机器人能够更好地回应用户的请求,例如定位附近特定的物体。
“现有的ZSON作品主要集中在遵循个别指令以找到通用物体类别上,忽视了自然语言交互的利用以及识别用户特定物体的复杂性。”Yinpei Dai,Run Peng及其同事在论文中写道。“为了解决这些限制,我们引入了zero-shot互动个性化目标导航(ZIPON),机器人需要在与用户对话的同时导航到个性化的目标物体。”
在论文中,Dai,Peng及其合作伙伴首先介绍了一项新任务,他们称之为ZIPON。这个任务是ZSON的一种广义形式,即准确地回应个性化提示并定位特定的目标物体。
如果传统的ZSON是指定位附近的床或椅子,那么ZIPON更进一步,要求机器人识别特定人的床、从亚马逊购买的椅子等等。研究人员随后试图开发一个能够有效解决这个问题的计算框架。
“为了解决ZIPON问题,我们提出了一种新的框架,名为开放世界互动个性化导航(ORION),它使用大型语言模型(LLM)进行序列决策来操作感知、导航和通信的不同模块。”Dai,Peng及其同事在论文中写道。
这个研究团队开发的新框架有六个关键模块:控制模块、语义地图模块、开放词汇检测模块、探索模块、记忆模块和交互模块。控制模块使机器人能够在周围移动,语义地图模块索引自然语言,开放词汇检测模块允许机器人根据语言描述来检测物体。
然后机器人使用探索模块在周围环境中搜索物体,同时在记忆模块中存储从用户那里接收到的重要信息和反馈。最后,交互模块允许机器人与用户对话,通过口头回应他们的请求。
Dai,Peng及其同事在模拟和实际实验中评估了他们提出的框架,使用了带有两只手臂的移动轮式机器人TIAGo。他们的研究结果是有希望的,因为他们的框架成功地提高了机器人在尝试定位特定附近物体时利用用户反馈的能力。
“实验结果表明,能够利用用户反馈的交互式代理的性能明显改善。”Dai,Peng及其同事解释道。“然而,对于所有方法来说,在任务完成、导航和交互的效率之间取得良好的平衡仍然具有挑战。我们进一步研究了不同形式用户反馈对代理性能的影响。”
虽然ORION框架显示出提高未知环境中个性化机器人导航能力的潜力,但该团队发现同时确保机器人完成任务、顺利导航未知环境和与用户良好互动极具挑战性。未来,这项研究可以为完成ZIPON任务的新模型的开发提供指导,从而解决团队提出的框架所报告的一些缺点。
“这项工作只是我们在个性化导航中探索LLM的初步尝试,存在一些限制。”Dai,Peng及其同事在论文中写道。“例如,它没有处理更广泛的目标类型,如图像目标,并且没有解决在实际世界中与用户的多模态交互。我们未来的努力将在这些方面展开,以提高机器人在人类世界中的适应性和多功能性。”