机器人可以从机器梦中学习吗？

2024年11月20日由 neo 发表 244 0

对于机器人学家而言，有一个尤为突出的挑战：实现泛化，即创造出能够适应任何环境或条件的机器。自20世纪70年代以来，这一领域已从编写复杂程序，发展到利用深度学习技术，让机器人直接从人类行为中学习。然而，至今仍存在一个关键瓶颈：数据质量。为了改进这一点，机器人需要面对能够挑战其能力极限的场景，在其掌握的极限条件下进行操作。传统上，这一过程需要人类的监督，操作员需仔细设置挑战以扩展机器人的能力。但随着机器人变得越来越复杂，这种依赖人工的方法遭遇了扩展难题：高质量训练数据的需求远远超出了人类所能提供的范围。

MITNews-LucidSim

现在，MIT计算机科学与人工智能实验室（CSAIL）的一组研究人员开发了一种创新的机器人训练方法，该方法能显著加速可适应、智能机器在现实环境中的部署。这个新系统名为“LucidSim”，它结合了生成式AI和物理模拟器的最新进展，能够创建多样化且逼真的虚拟训练环境。在这些虚拟环境中，机器人无需任何现实世界的数据，就能达到困难任务的专家级表现。

LucidSim通过将物理模拟与生成式AI模型相结合，解决了机器人技术中一个长期存在的挑战：将模拟中学到的技能转移到现实世界中。“机器人学习中的一个基本挑战始终是‘模拟到实境的差距’——即模拟训练环境与复杂、不可预测的现实世界之间的差异，”LucidSim的首席研究人员、MIT CSAIL的博士后Ge Yang解释道，“以前的方法通常依赖深度传感器来简化问题，但忽略了现实世界的关键复杂性。”

LucidSim是一个多管齐下的系统，融合了多种技术。其核心使用大型语言模型生成各种结构化的环境描述，这些描述随后通过生成模型转换成图像。为了确保这些图像反映真实世界的物理特性，一个基础的物理模拟器被用来指导生成过程。

LucidSim的灵感来自一个意想不到的地方：在一次位于马萨诸塞州剑桥市的Beantown Taqueria小吃店外的谈话中。“我们原本想教会配备视觉的机器人如何利用人类反馈来改进，但随后意识到，我们一开始就没有采用纯粹的基于视觉的策略，”LucidSim的共同第一作者、MIT电气工程和计算机科学（EECS）本科生Alan Yu说，“我们边走边讨论，然后在小吃店外停下来聊了大约半小时，灵感就在那时闪现了。”

为了生成逼真的数据，团队从模拟场景中提取深度图（提供几何信息）和语义遮罩（标记图像的不同部分），以此来生成逼真的图像。然而，他们很快发现，在严格控制图像内容构成的情况下，模型会生成相似提示的相似图像。因此，他们设计了一种方法，从ChatGPT获取多样化的文本提示。但这种方法仅生成单一图像。为了制作短视频作为机器人的“体验”，科学家们合成了一些图像技巧，创造出了名为“Dreams In Motion”的新技术。该系统计算每个像素在帧之间的移动，将单个生成的图像变形为一个短、多帧的视频。Dreams In Motion通过考虑场景的3D几何结构和机器人视角的相对变化来实现这一功能。

“我们超越了2017年开发的域随机化方法，该方法对环境中的对象应用随机颜色和图案，至今仍被认为是最佳选择，”Yu表示，“虽然这种技术生成了多样化的数据，但缺乏真实性。LucidSim则同时解决了多样性和真实性问题。令人兴奋的是，即便在训练过程中没有见过现实世界，机器人也能在现实环境中识别和导航障碍。”

团队对在四足运动、跑酷以及其他领域应用LucidSim的潜力感到特别兴奋，例如移动操作任务，这类任务需要处理开放区域内的对象，同时颜色感知也很关键。“如今，这些机器人仍然从现实世界中的演示中学习，”Yang表示，“尽管收集演示很容易，但将现实世界的机器人远程操作设置扩展到数千种技能是具有挑战性的，因为人类必须物理设置每个场景。我们希望通过将数据收集转移到虚拟环境中来简化这一过程，从而在质上实现更高的可扩展性。”

团队将LucidSim与另一种情况进行了比较：专家教师为机器人演示技能。结果令人惊讶：由专家训练的机器人成绩不佳，仅有15%的成功率——即使将专家训练数据量增加四倍，效果也几乎没有变化。但当机器人通过LucidSim收集自己的训练数据时，情况发生了巨大变化。仅仅将数据集大小增加一倍，就将成功率提升到了88%。“而且，给我们的机器人提供更多数据会单调地提高其性能——最终，学生成为了专家，”Yang说。

斯坦福大学电气工程助理教授Shuran Song（未参与此研究）表示：“机器人学中‘模拟到实境转移’的一个主要挑战是实现模拟环境中的视觉真实性。LucidSim框架通过使用生成模型为任何模拟创建多样化、高度逼真的视觉数据，提供了一种优雅的解决方案。这项工作可能显著加速由虚拟环境训练的机器人在现实任务中的部署。”

从剑桥的街头到机器人学研究的前沿，LucidSim正在为新一代智能、适应性机器铺平道路——这些机器将学会在未曾涉足的复杂世界中导航。Yu和Yang与四位CSAIL同事共同撰写了这篇论文：MIT机械工程博士后Ran Choi、MIT EECS本科生Yajvan Ravan、MIT机械和海洋工程Samuel C. Collins教授John Leonard，以及MIT EECS副教授Phillip Isola。他们的工作得到了Packard Fellowship、Sloan Research Fellowship、海军研究办公室、新加坡国防科技局、亚马逊、MIT林肯实验室和美国国家科学基金会人工智能与基础相互作用研究所的部分支持。研究人员在11月初的机器人学习会议（CoRL）上展示了他们的工作。

文章来源：https://news.mit.edu/2024/can-robots-learn-machine-dreams-1119

标签：

机器人

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 U-Net应用：从空中图像绘制建筑物足迹

下一篇通过注意力机制优化提升Transformer模型效率

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来