Google DeepMind发布Genie 2:单图生成可玩3D环境

2024年12月05日 由 daydream 发表 582 0

近日,Google DeepMind推出了名为Genie 2的基础AI模型,该模型能够将单张图片转换成可玩的3D环境。


微信截图_20241205110536


Genie 2的主要功能包括:


  • 从单张图片生成可互动的3D世界,持续可玩时间可达一分钟。
  • 展现出物理效果、光照和NPC(非玩家角色)行为等高级功能。
  • 成功整合了DeepMind的SIMA代理,使其能在Genie 2生成的世界中运作。


在AI世界构建领域,Google DeepMind正面临日益激烈的竞争。Genie 2的发布被视为在机器人训练和更强大AI系统构建方面的关键技术。其他类似项目包括Fei-Fei Li的World Labs和以色列初创公司Decart的Oasis。与Oasis在分辨率和场景布局保持上的困难相比,Genie 2能够保持场景一致性并准确记忆屏幕外的元素,同时在空间记忆方面与World Labs的能力相当,并增添了更复杂的交互功能。




Genie 2创建的3D环境丰富多样,用户可与NPC、物体物理效果和复杂环境效果(如重力和碰撞)进行互动。该模型不仅限于视觉模拟,还展示了复杂的角色动画、逼真的光照和反射,以及物理力的模拟,增添了新的真实感。


在AI训练方面,DeepMind将Genie 2与SIMA代理整合,使其能够根据生成的环境指令进行探索、互动和执行任务,如开门或地形导航。AI训练常因缺乏多样化和丰富的环境而受阻,而Genie 2被视为克服这些挑战的基础工具,为开发更通用的AI代理提供了多种训练场景。


Genie 2的技术结合了大规模视频数据和自回归潜在扩散模型,能够从简单的输入(如古埃及场景或科幻景观)中创建这些环境。这种快速原型制作可能改变设计师、研究人员和开发人员创建和与虚拟世界互动的方式。


对于AI研究而言,环境记忆是一个挑战,而Genie 2能够记住元素并保持其位置,即使它们离开用户视线,从而解决了生成3D空间一致性的关键问题。Google将Genie 2定位为研究和原型制作工具,使其能够快速创建丰富的环境,更容易评估未经训练的AI在各种情况下的表现。


这一发布与Google在生成式AI和沉浸式技术方面的广泛推动相一致,旨在模糊数字与物理世界之间的界限。Genie 2的未来发展可能会使AI代理在处理现实世界挑战时表现出前所未有的复杂性。


简而言之,Google的Genie 2是向使虚拟世界不仅具有沉浸感,而且具有互动性和实用性迈出的重要一步,无论是对AI训练还是创意体验原型制作都大有裨益。这是将想象融入现实的重要一步,并可能重塑人们与AI及其居住的虚拟空间的互动方式。

文章来源:https://www.maginative.com/article/google-deepmind-unveils-genie-2-an-ai-that-generates-playable-3d-worlds/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消