谷歌DeepMind机器人技术突破:精准导航与复杂任务执行

2024年07月12日 由 daydream 发表 138 0

在最新出炉的研究论文中,谷歌DeepMind的机器人研发团队惊艳亮相,他们展示了如何利用Gemini 1.5 Pro的强大长上下文窗口功能,训练机器人实现精准导航与复杂任务执行,这一成果标志着AI辅助机器人技术迈出了历史性的一大步。


微信截图_20240712103757


Gemini 1.5 Pro的长上下文窗口技术,如同为AI模型装备了超级记忆,使其能够轻松驾驭远超前代的信息洪流。这一特性让机器人不仅能够“过目不忘”,还能深刻理解周围环境,展现出前所未有的适应性和灵活性。DeepMind团队巧妙地将此优势应用于实践,让机器人如同人类一般“观看”地点视频导览,进行学习。


这一“长上下文窗口”如同为AI开启了知识的大门,使其能够一次性吸纳并解析海量信息,彻底改变了机器人学习与环境交互的游戏规则。


他们的实践路径清晰而高效:


  • 研究人员精心录制了办公室、家庭等场所的详尽导览视频。
  • Gemini 1.5 Pro驱动的机器人化身“学霸”,仔细观看这些视频资料。
  • 通过学习,机器人不仅掌握了空间布局、物品位置等关键信息,还深刻理解了环境的精髓。
  • 当接收到具体指令时,机器人便能凭借对视频的“深刻记忆”,自如穿梭于各个角落。


想象一下,如果你向这样的机器人展示一部手机并询问充电位置,它会立刻根据记忆中的视频场景,指引你直奔电源插座而去。


微信截图_20240712103819


在面积高达9000平方英尺的广阔区域内,这些Gemini驱动的机器人展现出了惊人的表现,成功完成了超过50种不同指令的90%任务,标志着机器人在复杂空间导航能力上的巨大飞跃。其应用前景令人遐想连篇,从辅助老年人生活到提升职场效率,无所不能。


更令人振奋的是,这些机器人不仅限于导航,DeepMind团队还初步展示了它们执行多步骤任务的能力。比如,面对桌上的空汽水罐和询问库存的指令,机器人能够自主规划并执行一系列复杂操作:前往冰箱检查、返回并报告结果,展现出超越简单导航的深度理解与规划智慧。


当然,前路并非坦途。目前,系统处理每个指令仍需10至30秒,对于实际应用而言尚显迟缓。此外,所有测试均在受控环境中进行,尚未直面真实世界的复杂多变。


但DeepMind团队并未满足于此,他们正全力加速系统优化,力求提升响应速度并增强应对复杂任务的能力。随着技术的不断精进,我们有理由相信,未来或将迎来一群几乎能够像人类一样理解世界、自由穿梭于各处的智能机器人。

文章来源:https://www.maginative.com/article/google-is-using-gemini-ai-to-make-robots-smarter-navigators/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消