谷歌DeepMind联合大学开发UniSim模型，打造逼真AI系统训练模拟器

2023年10月18日由 daydream 发表 628 0

谷歌DeepMind与UC Berkeley、MIT和University of Alberta的研究人员合作开发了一种新的机器学习模型，用于创建逼真的模拟环境，用于训练各种类型的AI系统。

微信截图_20231018105244

研究人员写道：“生成模型的下一个里程碑是对人类、机器人和其他交互代理的行动做出逼真的反应。”这正是他们希望通过UniSim实现的，UniSim是一种生成式AI系统，可以创建一个“现实世界互动”的通用模拟器。

尽管UniSim目前还处于早期阶段，但它显示了实现这一里程碑的第一步。UniSim可能是需要复杂现实世界互动的领域（如机器人技术和自动驾驶车辆）的宝贵资产。

UniSim是什么？

UniSim是一种生成模型，可以模拟人类与代理之间以及代理与世界之间的互动。它可以模拟高级指令（如“打开抽屉”）和低级控制（如“按x，y移动”）的视觉效果。然后，这些模拟数据可以作为其他模型的训练示例，这些模型需要从现实世界中收集数据。

研究人员写道：“我们计划在条件视频生成框架中结合多种数据，包括互联网文本-图像对、导航、操纵、人类活动、机器人以及模拟和渲染的运动丰富数据。”研究人员表示，UniSim可以成功地融合其训练数据中所包含的大量知识，并且可以在其训练示例之外进行推广，“通过对静态场景和物体进行细粒度运动控制实现丰富的交互。”

UniSim模拟逼真经验的能力具有深远的影响。它可以用于训练低级控制策略、视频字幕模型和其他需要高质量和一致的视觉数据的机器学习模型。

整合多样的数据源

微信截图_20231018105314

UniSim使用从模拟引擎、真实世界机器人数据、人类活动视频和图像描述对中收集的数据集进行训练。然而，不同的数据格式多样性给模型的训练带来了巨大挑战。

研究人员写道：“由于不同数据集由不同的工业或研究社区为不同任务而策划，信息分歧是自然而然的，难以克服，给构建一个旨在捕捉我们所生活世界逼真体验的真实世界模拟器带来了困难。”

这些数据集已被以不同方式标记，并服务于不同的目的。例如，配对的文本-图像数据提供了丰富的场景和物体，但缺乏动作。视频字幕和问答数据提供了高级活动描述，但在低级动作细节上缺乏细节。人类活动数据丰富了人类行为，但缺乏机械运动，而机器人数据虽然丰富了机器人行动，但数量有限。

为了解决这个挑战，研究人员首先将所有不同的数据集转换为统一的格式。他们采用变压器模型，这是用于大型语言模型的深度学习架构，从文本描述和非视觉模态（如运动控制和相机角度）创建嵌入。他们训练了扩散模型来编码描绘动作的视觉观察。然后，他们将扩散模型与嵌入条件连接起来，连接观察、动作和结果。

一旦训练完成，UniSim可以生成各种逼真的视频，包括人们的动作和环境导航。

它还可以进行长时程模拟，例如机器人手执行一系列多个动作的情景。生成的示例表明，在这些长时程模拟中，UniSim成功地保留了场景和其中包含的对象的结构。

此外，UniSim还可以生成“随机环境转换”，例如揭示布或毛巾下的不同物体。这种能力在计算机视觉应用中模拟对比事实和不同场景时特别有用。

弥合模拟与现实的差距

UniSim从文本描述生成逼真的视频的能力是令人瞩目的，但它的真正价值在于与强化学习环境的集成。在这里，UniSim可以模拟各种应用场景的结果，例如机器人技术，实现对模型和代理的离线训练，无需进行真实世界的训练。

研究人员强调了这种方法的好处：“将UniSim用作训练的环境具有一些优势，包括无限的环境访问（通过可并行化的视频服务器）、类似于真实世界的观测结果（通过真实感的扩散输出）和灵活的时间控制频率（通过跨低级机器人控制和高级文本动作的时间延伸动作）。”

仿真环境是强化学习的重要组成部分。然而，UniSim的高视觉质量可以帮助减小模拟学习和现实世界学习之间的差距，这是一个常被称为“模拟到实际差距”的挑战。

研究人员表示，通过UniSim训练的模型可以“以zero-shot的方式在真实机器人环境中推广，实现了弥合具体学习中模拟与实际之间差距的一步”。

UniSim的应用

像UniSim这样的真实世界模拟器具有许多潜在的应用，从可控内容创建到游戏和电影，到将模拟环境中训练的具身化代理直接部署到真实世界。UniSim还可以补充DeepMind最近的RT-X模型等视觉语言模型（VLM）的进展。

VLM代理需要大量的真实世界数据，特别是在执行复杂的多步任务时。研究人员证明，UniSim可以为VLM策略生成大量的训练数据。

研究人员指出：“我们使用UniSim来训练高级视觉-语言规划器和低级强化学习策略，这些策略在纯粹的学习到的真实世界模拟器中进行训练后展示了zero-shot的真实世界迁移。”这种方法也适用于其他类型的模型，如视频字幕模型，这些模型在UniSim的模拟体验训练中可以获得好处。UniSim还可以模拟罕见事件，这在机器人和自动驾驶汽车应用中特别有用，因为数据收集可能既昂贵又有风险。

虽然论文没有提供有关训练UniSim的成本的确切数据，但研究人员承认“UniSim与其他现代基础模型一样，需要大量的计算资源来进行训练。尽管存在这个劣势，但我们希望UniSim能够引起广泛的兴趣，以改进机器智能并应用于实际世界模拟器的学习中”。

文章来源：https://venturebeat.com/ai/deepmind-unisim-simulates-reality-to-train-robots-game-characters/

标签：

谷歌 UniSim AI

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇科学家通过对抗性持续学习提升声音病理检测

下一篇研究人员称新的AI工具可以使未来的疫苗“防变异”

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来