谷歌DeepMind机器人技术突破：精准导航与复杂任务执行

2024年07月12日由 daydream 发表 218 0

在最新出炉的研究论文中，谷歌DeepMind的机器人研发团队惊艳亮相，他们展示了如何利用Gemini 1.5 Pro的强大长上下文窗口功能，训练机器人实现精准导航与复杂任务执行，这一成果标志着AI辅助机器人技术迈出了历史性的一大步。

微信截图_20240712103757

Gemini 1.5 Pro的长上下文窗口技术，如同为AI模型装备了超级记忆，使其能够轻松驾驭远超前代的信息洪流。这一特性让机器人不仅能够“过目不忘”，还能深刻理解周围环境，展现出前所未有的适应性和灵活性。DeepMind团队巧妙地将此优势应用于实践，让机器人如同人类一般“观看”地点视频导览，进行学习。

这一“长上下文窗口”如同为AI开启了知识的大门，使其能够一次性吸纳并解析海量信息，彻底改变了机器人学习与环境交互的游戏规则。

他们的实践路径清晰而高效：

研究人员精心录制了办公室、家庭等场所的详尽导览视频。
Gemini 1.5 Pro驱动的机器人化身“学霸”，仔细观看这些视频资料。
通过学习，机器人不仅掌握了空间布局、物品位置等关键信息，还深刻理解了环境的精髓。
当接收到具体指令时，机器人便能凭借对视频的“深刻记忆”，自如穿梭于各个角落。

想象一下，如果你向这样的机器人展示一部手机并询问充电位置，它会立刻根据记忆中的视频场景，指引你直奔电源插座而去。

微信截图_20240712103819

在面积高达9000平方英尺的广阔区域内，这些Gemini驱动的机器人展现出了惊人的表现，成功完成了超过50种不同指令的90%任务，标志着机器人在复杂空间导航能力上的巨大飞跃。其应用前景令人遐想连篇，从辅助老年人生活到提升职场效率，无所不能。

更令人振奋的是，这些机器人不仅限于导航，DeepMind团队还初步展示了它们执行多步骤任务的能力。比如，面对桌上的空汽水罐和询问库存的指令，机器人能够自主规划并执行一系列复杂操作：前往冰箱检查、返回并报告结果，展现出超越简单导航的深度理解与规划智慧。

当然，前路并非坦途。目前，系统处理每个指令仍需10至30秒，对于实际应用而言尚显迟缓。此外，所有测试均在受控环境中进行，尚未直面真实世界的复杂多变。

但DeepMind团队并未满足于此，他们正全力加速系统优化，力求提升响应速度并增强应对复杂任务的能力。随着技术的不断精进，我们有理由相信，未来或将迎来一群几乎能够像人类一样理解世界、自由穿梭于各处的智能机器人。

文章来源：https://www.maginative.com/article/google-is-using-gemini-ai-to-make-robots-smarter-navigators/

标签：

谷歌 DeepMind 机器人

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇三星今年将推出升级版语音助手Bixby 配备自家大模型

下一篇夸克升级“超级搜索框”，全新一站式AI服务重塑信息获取体验

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来