Stability AI发布了Stable Video Diffusion (SVD)的代码和模型权重,这是一个视频生成AI模型。当给定一个输入图像作为上下文时,该模型可以生成分辨率为576x1024像素的25帧视频。
该模型基于Stability的Stable Diffusion文本到图像生成模型,在此基础上增加了视频的预训练和使用高质量策划的数据集进行的微调。为了进行这些额外的训练,Stability收集了一个名为Large Video Dataset (LVD)的数据集,其中包含580百万个视频剪辑,相当于212年的运行时间。虽然最初的模型发布只支持图像到视频生成,但Stability AI声称它可以适应多种视频生成任务,包括文本到视频和多视图(即3D对象)生成;该公司还宣布有一个等待列表,以获得基于Web的文本到视频界面的访问权限。模型许可仅允许用于研究目的:
“虽然我们急切地用最新的进展更新我们的模型,并努力结合您的反馈,但我们要强调,该模型目前并不适用于现实世界或商业应用。您对安全和质量的洞察和反馈对于完善这个模型的最终发布至关重要。”
Stability AI构建SVD的总体策略是收集和注释大量的视频数据集。团队首先去除了原始视频中的运动不一致性,比如“剪辑”,以及根本没有运动的视频。然后,他们使用仅图像的字幕模型、视频字幕模型和LLM将两者结合起来,对每个剪辑应用三个合成字幕。他们还使用CLIP提取视频样本中选定帧的审美分数。
在大型数据集上训练了基础视频扩散模型后,研究人员使用较小的策划数据集对文本到视频、图像到视频、帧插值和多视图生成的特定任务模型进行了微调。他们还为图像到视频模型训练了LoRA相机控制块。在人类评审员的评估中,图像到视频模型生成的输出比GEN-2和PikaLabs生成的最先进的商业产品更受欢迎。多视图生成模型超越了Zero123和SyncDreamer等最先进的模型。
Stability AI的首席执行官Emad Mostaque在X上写了这个模型当前和未来的功能:
“它不仅有通过LoRA的相机控制,你还可以做爆炸和各种效果……我们将有舞台布置、分镜、场面设计、电影摄影以及所有其他场景创作元素及全新元素……”
在Hacker News上关于SVD的讨论中,一位用户指出了这种方法的缺点:
“尽管我喜欢SD而且这些视频示例很棒……但这是一种有缺陷的方法:它们从来没有正确地获取光线,而且到处都有很多不连贯的东西。任何3D艺术家或摄影师都能立即发现这一点。然而,我愿意打赌,我们很快就会有更好的东西:你将描述一些东西,然后你会得到一个完整的3D场景,有3D模型、灯光源等设置。然后这个场景会发送到Blender,你会点击一个按钮,由Blender进行实际的渲染,光线正确。”
Stable Video Diffusion的代码可在GitHub上获取,模型权重可在Huggingface上获取。