阿里云近期开源了其先进的视频生成大模型Wan2.1,该模型具备强大的视觉内容生成能力。Wan2.1支持两种主要任务:文本到视频的生成(文生视频)和图像到视频的生成(图生视频)。为了满足不同需求,模型提供了两种尺寸版本。专业版拥有140亿参数,擅长处理复杂运动生成和物理建模,展现出卓越的性能。而极速版则包含13亿参数,设计用于在消费级显卡上运行,显存需求较低,适合二次开发和学术研究。
技术层面,Wan2.1基于因果3D VAE和视频Diffusion Transformer架构构建。因果3D VAE架构专门设计用于视频生成,能够处理视频中的时空信息,并结合因果性约束,确保生成的视频内容连贯且符合逻辑。视频Diffusion Transformer架构则结合了扩散模型和Transformer的优势,通过逐步去除噪声来生成数据,并利用自注意力机制捕捉视频中的长时程依赖关系。
在模型训练和推理方面,Wan2.1采用了多种并行策略来加速训练过程。训练阶段结合了数据并行(DP)和全Sharded数据并行(FSDP)策略,针对扩散模块还引入了RingAttention和Ulsses混合并行策略,进一步提升训练效率。推理阶段则使用通道并行(CP)进行加速,同时针对大模型应用了模型切分技术,优化了推理效率。
在实际应用中,Wan2.1展现了多方面的功能。除了基本的文生视频和图生视频任务外,它还支持视频编辑、文本到图像生成(文生图)和视频到音频生成等多种任务。此外,模型还具备视觉特效和文字渲染能力,能够满足多种创作场景的需求。
性能方面,Wan2.1在权威评测集Vbench中取得了显著成绩。140亿参数的专业版以总分86.22%的成绩大幅领先于其他国内外模型,如Sora、Luma和Pika等。而极速版则能够在仅需8.2GB显存的条件下生成480P视频,兼容几乎所有消费级GPU,生成效率较高。
值得一提的是,Wan2.1的开源遵循Apache 2.0协议,支持多种主流框架,并已在GitHub、HuggingFace和魔搭社区等平台上线。这为开发者提供了便利的使用和部署环境,有助于推动视频生成技术的进一步发展和应用。