Google AI推出"Lumiere":文本到视频生成新突破

2024年01月25日 由 daydream 发表 453 0

Google AI的一篇新研究论文介绍了“Lumiere”,这是一种新的文本到视频扩散模型,标志着在视频合成技术方面迈出了重要一步。该模型旨在创建逼真、多样化和连贯的视频动作,这在人工智能和计算机视觉领域历来都是一项挑战性的任务。


微信截图_20240125100232


Lumiere利用了一种新颖的Space-Time U-Net 架构,这有别于传统的视频模型。传统的模型通过生成空间上分散的关键帧,然后进行时间上的超分辨率处理,这通常难以保持全局的时间一致性。Lumiere的架构在单次传递中生成视频的整个时间长度,增强了动作的连贯性和流畅性。


早期示例展示了非常平滑的摄像机运动和跨越数秒的复杂物体动画。研究人员强调,Lumiere 适合各种创意应用,而不仅仅是文本转视频生成:


图像到视频:该模型通过以第一帧为条件,将静态图像平滑地转换为视频。


视频修复:Lumiere可以根据文本提示对现有视频的任意遮罩区域进行动画处理。这为视频编辑、对象插入和/或移除等应用提供了有趣的可能性。


风格化生成:通过将Lumiere与艺术图像先验结合,研究人员产生了引人注目的结果,将空间风格(如水彩过滤器)转移到时间视频维度。


动态影像:可以在图像中实现局部运动效果,其中一部分图像保持静止,而另一部分则表现出运动,为静态图像增添了迷人的美学效果。


该论文还展示了直接将Lumiere的输出提供给现成的视频过滤技术,以在时间上一致的方式对整个片段进行风格化处理。这进一步展示了该方法的多样性。


研究人员指出,现有级联方案的一个核心限制是未能解决快速运动的模糊问题,当仅在稀疏预测的关键帧处采样时,这种运动会变得时间上的混叠。试图通过对这些帧之间的插值来增加运动清晰度,就变成了一场艰难的战斗。


通过直接处理整个持续时间,Lumiere完全绕过了这种时间混叠的陷阱。结果是,对于周期性运动(如走路或转头)的视频,连续性和现实感得到了改善。


尽管取得了进步,但当涉及到需要在不同场景和镜头之间过渡的视频时,Lumiere仍然存在局限性。这一能力差距为未来的扩散模型研究指明了重要的方向。


尽管如此,通过更接近于以整体方式生成复杂的物体和摄像机运动,Lumiere将文本到视频生成推向了解锁真正通用和创造性视觉合成的尖端。

文章来源:https://www.maginative.com/article/lumiere-is-an-impressive-new-text-to-video-ai-from-google/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消