近日,Google DeepMind推出了名为Genie 2的基础AI模型,该模型能够将单张图片转换成可玩的3D环境。
Genie 2的主要功能包括:
在AI世界构建领域,Google DeepMind正面临日益激烈的竞争。Genie 2的发布被视为在机器人训练和更强大AI系统构建方面的关键技术。其他类似项目包括Fei-Fei Li的World Labs和以色列初创公司Decart的Oasis。与Oasis在分辨率和场景布局保持上的困难相比,Genie 2能够保持场景一致性并准确记忆屏幕外的元素,同时在空间记忆方面与World Labs的能力相当,并增添了更复杂的交互功能。
Genie 2创建的3D环境丰富多样,用户可与NPC、物体物理效果和复杂环境效果(如重力和碰撞)进行互动。该模型不仅限于视觉模拟,还展示了复杂的角色动画、逼真的光照和反射,以及物理力的模拟,增添了新的真实感。
在AI训练方面,DeepMind将Genie 2与SIMA代理整合,使其能够根据生成的环境指令进行探索、互动和执行任务,如开门或地形导航。AI训练常因缺乏多样化和丰富的环境而受阻,而Genie 2被视为克服这些挑战的基础工具,为开发更通用的AI代理提供了多种训练场景。
Genie 2的技术结合了大规模视频数据和自回归潜在扩散模型,能够从简单的输入(如古埃及场景或科幻景观)中创建这些环境。这种快速原型制作可能改变设计师、研究人员和开发人员创建和与虚拟世界互动的方式。
对于AI研究而言,环境记忆是一个挑战,而Genie 2能够记住元素并保持其位置,即使它们离开用户视线,从而解决了生成3D空间一致性的关键问题。Google将Genie 2定位为研究和原型制作工具,使其能够快速创建丰富的环境,更容易评估未经训练的AI在各种情况下的表现。
这一发布与Google在生成式AI和沉浸式技术方面的广泛推动相一致,旨在模糊数字与物理世界之间的界限。Genie 2的未来发展可能会使AI代理在处理现实世界挑战时表现出前所未有的复杂性。
简而言之,Google的Genie 2是向使虚拟世界不仅具有沉浸感,而且具有互动性和实用性迈出的重要一步,无论是对AI训练还是创意体验原型制作都大有裨益。这是将想象融入现实的重要一步,并可能重塑人们与AI及其居住的虚拟空间的互动方式。