模型:

vdo/text-to-video-ms-1.7b

英文

在开放领域中的文本到视频合成模型

该模型是基于多阶段文本到视频生成扩散模型的,输入一个描述文本,返回一个与文本描述相匹配的视频。仅支持英文输入。

我们正在招聘!(位于中国北京/杭州)

如果您正在寻找一个充满挑战并有机会与AIGC和大规模预训练等尖端技术合作的机会,那么我们就是您的首选。我们正在寻找具有才华、积极进取和创造力的人才加入我们的团队。如果您有兴趣,请将您的简历发送给我们。

电子邮件:yingya.zyy@alibaba-inc.com

模型描述

文本到视频生成扩散模型由三个子网络组成:文本特征提取模型、文本特征到视频潜空间扩散模型和视频潜空间到视频视觉空间模型。整个模型参数约为17亿个。目前只支持英文输入。扩散模型采用UNet3D结构,通过从纯高斯噪声视频进行迭代去噪的过程来实现视频生成。

此模型用于研究目的,请查看模型限制和偏差以及滥用、恶意使用和过度使用部分。

模型详细信息

用例

该模型具有广泛的应用领域,可以根据任意英文文本描述进行推理和生成视频。

使用方法

让我们首先安装所需的库:

$ pip install diffusers transformers accelerate

现在,生成一个视频:

import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video

pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()

prompt = "Spiderman is surfing"
video_frames = pipe(prompt, num_inference_steps=25).frames
video_path = export_to_video(video_frames)

这里是一些结果:

An astronaut riding a horse. 12315321 Darth vader surfing in waves. 12316321

生成长视频

您可以通过启用注意力和VAE切片以及使用Torch 2.0来优化内存使用。这样,您可以在不到16GB的GPU VRAM上生成长达25秒的视频。

$ pip install git+https://github.com/huggingface/diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video

# load pipeline
pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)

# optimize for GPU memory
pipe.enable_model_cpu_offload()
pipe.enable_vae_slicing()

# generate
prompt = "Spiderman is surfing. Darth Vader is also surfing and following Spiderman"
video_frames = pipe(prompt, num_inference_steps=25, num_frames=200).frames

# convent to video
video_path = export_to_video(video_frames)

查看结果

上述代码将显示输出视频的保存路径,当前的编码格式可以使用 VLC player 播放。

输出的mp4文件可以通过 VLC media player 查看。一些其他媒体播放器可能无法正常查看。

模型限制和偏差

  • 该模型是基于Webvid等公共数据集进行训练的,生成的结果可能与训练数据分布相关的偏差。
  • 该模型无法实现完美的电影和电视质量生成。
  • 该模型无法生成清晰的文本。
  • 该模型主要是使用英文语料库进行训练,目前不支持其他语言。
  • 该模型在复杂组合生成任务上的性能需要改进。

滥用、恶意使用和过度使用

  • 模型没有经过培训来真实表示人和事件,因此使用它来生成此类内容超出了模型的能力范围。
  • 禁止生成侮辱或对人们、环境、文化、宗教等有害的内容。
  • 禁止生成色情、暴力和血腥的内容。
  • 禁止生成错误和虚假信息。

训练数据

训练数据包括 LAION5B ImageNet Webvid 和其他公共数据集。在预训练之后进行图像和视频过滤,如美学评分、水印评分和去重。

(此模型卡片的一部分来自 here

引用

    @InProceedings{VideoFusion,
        author    = {Luo, Zhengxiong and Chen, Dayou and Zhang, Yingya and Huang, Yan and Wang, Liang and Shen, Yujun and Zhao, Deli and Zhou, Jingren and Tan, Tieniu},
        title     = {VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation},
        booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
        month     = {June},
        year      = {2023}
    }