Google AI推出"Lumiere"：文本到视频生成新突破

2024年01月25日由 daydream 发表 688 0

Google AI的一篇新研究论文介绍了“Lumiere”，这是一种新的文本到视频扩散模型，标志着在视频合成技术方面迈出了重要一步。该模型旨在创建逼真、多样化和连贯的视频动作，这在人工智能和计算机视觉领域历来都是一项挑战性的任务。

微信截图_20240125100232

Lumiere利用了一种新颖的Space-Time U-Net 架构，这有别于传统的视频模型。传统的模型通过生成空间上分散的关键帧，然后进行时间上的超分辨率处理，这通常难以保持全局的时间一致性。Lumiere的架构在单次传递中生成视频的整个时间长度，增强了动作的连贯性和流畅性。

早期示例展示了非常平滑的摄像机运动和跨越数秒的复杂物体动画。研究人员强调，Lumiere 适合各种创意应用，而不仅仅是文本转视频生成：

图像到视频：该模型通过以第一帧为条件，将静态图像平滑地转换为视频。

视频修复：Lumiere可以根据文本提示对现有视频的任意遮罩区域进行动画处理。这为视频编辑、对象插入和/或移除等应用提供了有趣的可能性。

风格化生成：通过将Lumiere与艺术图像先验结合，研究人员产生了引人注目的结果，将空间风格（如水彩过滤器）转移到时间视频维度。

动态影像：可以在图像中实现局部运动效果，其中一部分图像保持静止，而另一部分则表现出运动，为静态图像增添了迷人的美学效果。

该论文还展示了直接将Lumiere的输出提供给现成的视频过滤技术，以在时间上一致的方式对整个片段进行风格化处理。这进一步展示了该方法的多样性。

研究人员指出，现有级联方案的一个核心限制是未能解决快速运动的模糊问题，当仅在稀疏预测的关键帧处采样时，这种运动会变得时间上的混叠。试图通过对这些帧之间的插值来增加运动清晰度，就变成了一场艰难的战斗。

通过直接处理整个持续时间，Lumiere完全绕过了这种时间混叠的陷阱。结果是，对于周期性运动（如走路或转头）的视频，连续性和现实感得到了改善。

尽管取得了进步，但当涉及到需要在不同场景和镜头之间过渡的视频时，Lumiere仍然存在局限性。这一能力差距为未来的扩散模型研究指明了重要的方向。

尽管如此，通过更接近于以整体方式生成复杂的物体和摄像机运动，Lumiere将文本到视频生成推向了解锁真正通用和创造性视觉合成的尖端。

文章来源：https://www.maginative.com/article/lumiere-is-an-impressive-new-text-to-video-ai-from-google/

标签：

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 TikTok的Depth Anything模型为基于图像的稳健深度估计设定了新标准

下一篇 InstantID：轻松创建一致角色的新技术

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来

每个人都应该知道的48个AI术语

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

本周热门

热门企业

热门职位

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市