Google DeepMind发布Genie 2：单图生成可玩3D环境

2024年12月05日由 daydream 发表 582 0

近日，Google DeepMind推出了名为Genie 2的基础AI模型，该模型能够将单张图片转换成可玩的3D环境。

微信截图_20241205110536

Genie 2的主要功能包括：

从单张图片生成可互动的3D世界，持续可玩时间可达一分钟。
展现出物理效果、光照和NPC（非玩家角色）行为等高级功能。
成功整合了DeepMind的SIMA代理，使其能在Genie 2生成的世界中运作。

在AI世界构建领域，Google DeepMind正面临日益激烈的竞争。Genie 2的发布被视为在机器人训练和更强大AI系统构建方面的关键技术。其他类似项目包括Fei-Fei Li的World Labs和以色列初创公司Decart的Oasis。与Oasis在分辨率和场景布局保持上的困难相比，Genie 2能够保持场景一致性并准确记忆屏幕外的元素，同时在空间记忆方面与World Labs的能力相当，并增添了更复杂的交互功能。

Genie 2创建的3D环境丰富多样，用户可与NPC、物体物理效果和复杂环境效果（如重力和碰撞）进行互动。该模型不仅限于视觉模拟，还展示了复杂的角色动画、逼真的光照和反射，以及物理力的模拟，增添了新的真实感。

在AI训练方面，DeepMind将Genie 2与SIMA代理整合，使其能够根据生成的环境指令进行探索、互动和执行任务，如开门或地形导航。AI训练常因缺乏多样化和丰富的环境而受阻，而Genie 2被视为克服这些挑战的基础工具，为开发更通用的AI代理提供了多种训练场景。

Genie 2的技术结合了大规模视频数据和自回归潜在扩散模型，能够从简单的输入（如古埃及场景或科幻景观）中创建这些环境。这种快速原型制作可能改变设计师、研究人员和开发人员创建和与虚拟世界互动的方式。

对于AI研究而言，环境记忆是一个挑战，而Genie 2能够记住元素并保持其位置，即使它们离开用户视线，从而解决了生成3D空间一致性的关键问题。Google将Genie 2定位为研究和原型制作工具，使其能够快速创建丰富的环境，更容易评估未经训练的AI在各种情况下的表现。

这一发布与Google在生成式AI和沉浸式技术方面的广泛推动相一致，旨在模糊数字与物理世界之间的界限。Genie 2的未来发展可能会使AI代理在处理现实世界挑战时表现出前所未有的复杂性。

简而言之，Google的Genie 2是向使虚拟世界不仅具有沉浸感，而且具有互动性和实用性迈出的重要一步，无论是对AI训练还是创意体验原型制作都大有裨益。这是将想象融入现实的重要一步，并可能重塑人们与AI及其居住的虚拟空间的互动方式。

文章来源：https://www.maginative.com/article/google-deepmind-unveils-genie-2-an-ai-that-generates-playable-3d-worlds/

标签：

Google Genie 2 AI模型

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 ChatGPT周活跃用户突破3亿 Siri集成在即

下一篇 Poolside与AWS合作推出定制化AI编码辅助工具

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来