Google AI的一篇新研究论文介绍了“Lumiere”,这是一种新的文本到视频扩散模型,标志着在视频合成技术方面迈出了重要一步。该模型旨在创建逼真、多样化和连贯的视频动作,这在人工智能和计算机视觉领域历来都是一项挑战性的任务。
Lumiere利用了一种新颖的Space-Time U-Net 架构,这有别于传统的视频模型。传统的模型通过生成空间上分散的关键帧,然后进行时间上的超分辨率处理,这通常难以保持全局的时间一致性。Lumiere的架构在单次传递中生成视频的整个时间长度,增强了动作的连贯性和流畅性。
早期示例展示了非常平滑的摄像机运动和跨越数秒的复杂物体动画。研究人员强调,Lumiere 适合各种创意应用,而不仅仅是文本转视频生成:
图像到视频:该模型通过以第一帧为条件,将静态图像平滑地转换为视频。
视频修复:Lumiere可以根据文本提示对现有视频的任意遮罩区域进行动画处理。这为视频编辑、对象插入和/或移除等应用提供了有趣的可能性。
风格化生成:通过将Lumiere与艺术图像先验结合,研究人员产生了引人注目的结果,将空间风格(如水彩过滤器)转移到时间视频维度。
动态影像:可以在图像中实现局部运动效果,其中一部分图像保持静止,而另一部分则表现出运动,为静态图像增添了迷人的美学效果。
该论文还展示了直接将Lumiere的输出提供给现成的视频过滤技术,以在时间上一致的方式对整个片段进行风格化处理。这进一步展示了该方法的多样性。
研究人员指出,现有级联方案的一个核心限制是未能解决快速运动的模糊问题,当仅在稀疏预测的关键帧处采样时,这种运动会变得时间上的混叠。试图通过对这些帧之间的插值来增加运动清晰度,就变成了一场艰难的战斗。
通过直接处理整个持续时间,Lumiere完全绕过了这种时间混叠的陷阱。结果是,对于周期性运动(如走路或转头)的视频,连续性和现实感得到了改善。
尽管取得了进步,但当涉及到需要在不同场景和镜头之间过渡的视频时,Lumiere仍然存在局限性。这一能力差距为未来的扩散模型研究指明了重要的方向。
尽管如此,通过更接近于以整体方式生成复杂的物体和摄像机运动,Lumiere将文本到视频生成推向了解锁真正通用和创造性视觉合成的尖端。