机器人技术初创公司1X Technologies近日宣布了一项创新成果——一种新型生成模型,该模型显著提升了在仿真环境中训练机器人系统的效率。该模型直接针对机器人领域的一个重要挑战,即构建能够预测世界如何响应机器人动作的“世界模型”。
鉴于直接在物理环境中训练机器人的高昂成本和潜在风险,研究人员通常利用模拟环境来训练控制模型,然后再部署到现实世界。然而,模拟环境与真实环境之间的差异导致了诸多挑战,被称为“模拟到现实差距”。
为了缩小这一差距,1X Technologies的新模型通过直接从机器人收集的原始传感器数据进行训练,学会了模拟现实世界。通过分析数千小时的视频和来自公司自有人形机器人EVE在执行各种家庭及办公室移动操作任务时收集的执行器数据,该模型能够基于当前的世界观察预测机器人采取特定动作后的结果。
这种学习到的世界模型特别适用于模拟物体交互。据1X Technologies分享的视频显示,该模型能够成功预测机器人抓取盒子的视频序列,并模拟包括刚体、物体掉落效果、部分可观察性、可变形物体(如窗帘、衣物)以及铰接物体(如门、抽屉、椅子)在内的复杂对象交互。
尽管该模型展示了显著潜力,但环境变化仍是一个挑战。随着机器人操作环境的变化,生成模型也需要更新。不过,由于该模型是完全通过学习得到的模拟器,研究人员认为,通过提供来自真实世界的新鲜数据,可以更容易地修正模型,而无需手动调整物理模拟器。
1X Technologies的新系统受到包括OpenAI Sora和Runway在内的创新项目的启发,这些项目展示了通过适当的训练数据和技术,生成模型可以学习世界模型并在时间上保持一致性。然而,与这些主要生成视频内容的模型不同,1X的模型属于能够在生成过程中响应动作的交互式生成系统,为训练机器人控制模型和强化学习系统开辟了新的可能性。
不过,该生成模型也面临一些挑战,如偶尔生成不现实的情况,如物体在悬停时未预测到其掉落,或在连续帧中物体突然消失。为应对这些挑战,持续收集更多数据和训练更优化的模型是重要方向。
此外,1X Technologies通过发布其模型和权重,并计划举办竞赛以奖励改进模型的贡献者,鼓励社区参与该项目的发展。公司表示,他们正在积极探索多种世界建模和视频生成方法,以进一步提升模型的性能和实用性。