阿里云开源视频生成大模型Wan2.1

2025年02月26日由 daydream 发表 2025 0

阿里云近期开源了其先进的视频生成大模型Wan2.1，该模型具备强大的视觉内容生成能力。Wan2.1支持两种主要任务：文本到视频的生成（文生视频）和图像到视频的生成（图生视频）。为了满足不同需求，模型提供了两种尺寸版本。专业版拥有140亿参数，擅长处理复杂运动生成和物理建模，展现出卓越的性能。而极速版则包含13亿参数，设计用于在消费级显卡上运行，显存需求较低，适合二次开发和学术研究。

微信截图_20250226111641

技术层面，Wan2.1基于因果3D VAE和视频Diffusion Transformer架构构建。因果3D VAE架构专门设计用于视频生成，能够处理视频中的时空信息，并结合因果性约束，确保生成的视频内容连贯且符合逻辑。视频Diffusion Transformer架构则结合了扩散模型和Transformer的优势，通过逐步去除噪声来生成数据，并利用自注意力机制捕捉视频中的长时程依赖关系。

在模型训练和推理方面，Wan2.1采用了多种并行策略来加速训练过程。训练阶段结合了数据并行（DP）和全Sharded数据并行（FSDP）策略，针对扩散模块还引入了RingAttention和Ulsses混合并行策略，进一步提升训练效率。推理阶段则使用通道并行（CP）进行加速，同时针对大模型应用了模型切分技术，优化了推理效率。

在实际应用中，Wan2.1展现了多方面的功能。除了基本的文生视频和图生视频任务外，它还支持视频编辑、文本到图像生成（文生图）和视频到音频生成等多种任务。此外，模型还具备视觉特效和文字渲染能力，能够满足多种创作场景的需求。

性能方面，Wan2.1在权威评测集Vbench中取得了显著成绩。140亿参数的专业版以总分86.22%的成绩大幅领先于其他国内外模型，如Sora、Luma和Pika等。而极速版则能够在仅需8.2GB显存的条件下生成480P视频，兼容几乎所有消费级GPU，生成效率较高。

值得一提的是，Wan2.1的开源遵循Apache 2.0协议，支持多种主流框架，并已在GitHub、HuggingFace和魔搭社区等平台上线。这为开发者提供了便利的使用和部署环境，有助于推动视频生成技术的进一步发展和应用。

文章来源：https://wanxai.com/?utm_source=ai-bot.cn

标签：

阿里云模型 Wan2.1

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 PixVerse V4正式上线，推出AI视频实时生成功能

下一篇 Pika Labs发布新版本Pika 2.2 AI视频生成模型

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来