模型:

damo-vilab/modelscope-damo-text-to-video-synthesis

英文

原始存储库为 here

我们正在招聘!(位于中国北京/杭州)

如果您正在寻找激动人心的挑战和与AIGC和大规模预训练的前沿技术合作的机会,那么我们是您的首选。我们正在寻找有才华、积极进取和富有创造力的人才加入我们的团队。如果您有兴趣,请将您的简历发送给我们。

电子邮件:yingya.zyy@alibaba-inc.com

该模型基于多阶段文本到视频生成扩散模型,输入一个描述文本,并返回与文本描述相匹配的视频。仅支持英文输入。

模型描述

文本到视频生成扩散模型由三个子网络组成:文本特征提取、文本特征到视频潜空间扩散模型和视频潜空间到视频视觉空间。整个模型的参数约为17亿个。支持英文输入。扩散模型采用了Unet3D结构,并通过纯高斯噪声视频的迭代去噪过程实现了视频生成功能。

该模型仅用于研究目的。请查看模型的限制和偏差以及错误使用、恶意使用和过度使用部分。

对模型的使用预期及适用范围

该模型具有广泛的应用领域,可以根据任意英文文本描述进行推理和生成视频。

如何使用

该模型已在 ModelScope Studio huggingface 上发布,您可以直接体验;您也可以参考 Colab page 自行构建。为了方便模型的体验,用户可以参考 Aliyun Notebook Tutorial 快速开发这个文本到视频模型。

此演示需要约16GB的CPU RAM和16GB的GPU RAM。在ModelScope框架下,可以通过调用简单的Pipeline来使用当前模型,其中输入必须以字典格式,合法的键值为"text",内容为短文本。该模型目前仅支持在GPU上进行推理。具体的代码示例如下:

操作环境(Python包)

pip install modelscope==1.4.2
pip install open_clip_torch
pip install pytorch-lightning

代码示例(演示代码)

from huggingface_hub import snapshot_download

from modelscope.pipelines import pipeline
from modelscope.outputs import OutputKeys
import pathlib

model_dir = pathlib.Path('weights')
snapshot_download('damo-vilab/modelscope-damo-text-to-video-synthesis',
                   repo_type='model', local_dir=model_dir)

pipe = pipeline('text-to-video-synthesis', model_dir.as_posix())
test_text = {
        'text': 'A panda eating bamboo on a rock.',
    }
output_video_path = pipe(test_text,)[OutputKeys.OUTPUT_VIDEO]
print('output_video_path:', output_video_path)

查看结果

上述代码将显示输出视频的保存路径,并且当前的编码格式可以正常播放 VLC player

输出的mp4文件可以通过 VLC media player 进行查看。其他媒体播放器可能无法正常播放。

模型的限制和偏差

  • 模型是基于Webvid等公共数据集进行训练的,生成的结果可能与训练数据的分布相关。
  • 该模型无法实现完美的电影和电视质量的生成。
  • 该模型无法生成清晰的文本。
  • 该模型主要使用英文语料库进行训练,目前不支持其他语言。
  • 该模型在复杂组合生成任务上的性能需要改进。

滥用、恶意使用和过度使用

  • 该模型未经过训练以真实地代表人物或事件,因此使用它生成此类内容超出了模型的能力。
  • 禁止生成贬低或对人们及其环境、文化、宗教等有害的内容。
  • 禁止生成色情、暴力和血腥内容。
  • 禁止生成错误和虚假信息。

训练数据

训练数据包括 LAION5B ImageNet Webvid 等公共数据集。在预训练后进行图像和视频过滤,例如审美分数、水印分数和去重。

引用

    @InProceedings{VideoFusion,
        author    = {Luo, Zhengxiong and Chen, Dayou and Zhang, Yingya and Huang, Yan and Wang, Liang and Shen, Yujun and Zhao, Deli and Zhou, Jingren and Tan, Tieniu},
        title     = {VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation},
        booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
        month     = {June},
        year      = {2023}
    }