谷歌DeepMind:Genie可以从文本和图像生成互动游戏

2024年03月06日 由 alex 发表 238 0

生成式人工智能的研究速度可谓一日千里。即便如此,时不时还是会有一些论文挑战我们的想象力,让我们不知道生成式人工智能还能走多远。上周,谷歌 DeepMind 发布了 Genie,这是一个能够从文本和图像生成交互式游戏环境的模型。


如果我们认为使用Sora等模型生成视频令人印象深刻,那么想象一下在这些视频中推断出交互动作。想象一下,互联网上的大量视频可以作为模型的训练场,不仅可以生成新的图像和视频,还可以生成整个互动环境。这就是谷歌 DeepMind 通过 Genie 实现的愿景,这是一种开创性的生成式人工智能方法。通过对互联网上超过 20 万小时的公开游戏视频进行训练,Genie 可以根据简单的文本或图像提示创建互动环境。Genie它能够通过学习到的潜在动作空间进行逐帧控制,尽管它是在没有具体动作或文本注释的情况下进行训练的。


架构

Genie 的架构从视频生成技术的最新进展中汲取灵感,将时空(ST)转换器作为基本组件纳入其所有模型部分。该系统首先处理一系列视频帧,利用独特的视频标记器将其分解为离散的标记,然后通过因果动作模型确定帧与帧之间发生的动作。这些元素被整合到一个动态模型中,该模型可预测序列中的下一帧,从而生成交互式体验。


以下视频展示了 Genie 生成的一些游戏,以说明问题:


14


Genie设计的一个重要方面是集成了 ST 变换器,可以对视频数据进行细致入微的处理,在模型复杂性和计算效率之间取得平衡。这些转换器的独特之处在于,与传统方法相比,它们在空间和时间维度上都采用了更有针对性和更高效的关注机制。这种方法使 Genie 能够在正确的时间关注正确的细节,从而有助于生成连贯且与上下文相关的视频序列。


Genie内部

Genie 系统由三个主要部分组成:潜在动作模型、视频标记器和动态模型。整个过程从视频标记器开始,它将原始视频帧转换成模型可以理解的结构化格式。接下来,潜在动作模型将解释帧与帧之间发生的动作。这些组件与动态模型协同工作,根据过去的数据和推断出的动作预测未来的帧。这个两阶段的训练过程从视频标记器开始,然后是潜在动作模型和动态模型的联合训练,确保 Genie 能够精确地生成交互式视频。


谷歌 DeepMind 开发了一种方法,使视频生成具有交互性和可控性,重点是潜在动作的概念。潜在动作模型(LAM)是这一方法的关键组成部分,它可以根据前一帧中识别出的动作预测未来的视频帧。谷歌 DeepMind 意识到从互联网视频中获取动作标签是一项挑战,因为这些视频很少有注释,而且标注成本高昂,因此谷歌 DeepMind 选择了无监督学习策略。这种策略使潜在动作模型能够在没有直接指令的情况下推断出视频帧之间发生的动作,并通过视频标记器将这些洞察力转换为离散标记。然后,动态模型会利用这些信息来预测下一帧,从而促进两阶段的训练方案,即首先集中训练视频标记器,然后再联合训练潜在动作模型和动态模型。


15


潜动作模型设计巧妙,可控制视频生成。它通过分析帧序列来识别潜在动作,而无需明确标记。这一过程包括两个阶段:编码,即模型评估过去和即将出现的帧以确定动作;解码,即根据这些动作预测后续帧。通过采用基于 VQ-VAE 的方法,该模型将动作的可能性限制在一个简洁的集合中,确保每个动作都能捕捉到视频序列中的重要变化。这些动作在训练过程中至关重要,但在实际使用过程中会被用户输入所取代,从而实现定制化交互。


16


视频标记器的训练与这种编码解码机制类似,可有效地将视频数据转换为可操作的潜在空间。模型架构的这一方面是动态模型的基础,动态模型根据定义的动作解释和预测环境序列,并对下一帧进行预测。


17


在实际操作中,用户通过从一组预定义选项中选择一个起始帧和一个动作来启动交互式视频生成。动态模型对输入进行处理,生成下一帧序列,用户通过自己的选择不断引导叙事的展开。这种交互式循环使用户能够动态地塑造自己的视频体验。


18


训练Genie

这个复杂系统的训练数据是从大量互联网视频中精心挑选出来的,特别筛选了与 2D 平台游戏、快速运行和闯关相关的内容,同时排除了电影或开箱等无关资料。视频被分割成易于管理的片段,然后对其质量进行严格评估。由训练有素的分类器驱动的复杂筛选流程确保只有高质量的内容才能进入训练流程。通过这种有条不紊的整理,数据集已从 680 万个视频源中提炼出约 3 万小时的视频,大大提高了模型的性能和效率。


19


通过这种创新方法,谷歌DeepMind 树立了生成式人工智能的新标杆,能够根据用户输入创建互动视频体验,所有这些都以庞大而精心准备的数据集为基础。


从本质上讲,谷歌 DeepMind 的 Genie 代表了生成式人工智能领域的一次重大飞跃,提供了一种通过简单提示创建互动环境的创新方法。通过利用海量数据集和采用复杂的架构组件,Genie 为交互式体验的生成开辟了新的可能性,为人工智能驱动的内容创建领域设定了新的标准。

文章来源:https://medium.com/towards-artificial-intelligence/inside-genie-google-deepminds-super-model-that-can-generate-interactive-games-from-text-and-aee2bb6016c7
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消