Open-Sora 2.0全面开源：低成本、高性能，开启视频生成新纪元

2025年03月13日由 daydream 发表 3435 0

Open-Sora 2.0，一款全新的开源视频生成模型，正式对外发布。该模型采用了11B参数规模，成功在224张GPU上以20万美元的成本训练出商业级性能，表现直追HunyuanVideo和30B参数的Step-Video。

微信截图_20250313110235

Open-Sora 2.0在权威评测VBench及用户偏好测试中均展现出了卓越的性能。在多项关键指标上，其表现与动辄数百万美元训练成本的闭源模型相当。此次发布不仅包含了模型权重和推理代码，还全面开源了分布式训练的全流程，使得高质量视频生成技术的可及性与可拓展性得到了显著提升。

技术方面，Open-Sora 2.0延续了前代的设计思路，采用3D自编码器和Flow Matching训练框架，并引入了3D全注意力机制和MMDiT架构，进一步提升了视频生成的质量。同时，通过开源图生视频模型FLUX进行初始化，该模型显著降低了训练成本。

在降低训练成本方面，Open-Sora 2.0采取了一系列创新方法。首先，通过严格的数据筛选机制，确保高质量数据输入，提升了模型训练效率。其次，优先进行低分辨率训练，以高效学习运动信息，再结合高分辨率训练，降低了整体计算开销。此外，通过优先训练图生视频任务，加速了模型收敛速度。最后，结合ColossalAI和系统级优化，实现了高效的并行训练方案，大幅提升了计算资源利用率。

在推理阶段，Open-Sora 2.0也进行了优化。该模型训练了一款高压缩比的视频自编码器，将推理时间大幅缩短至单卡3分钟以内，实现了10倍的推理速度提升。为了训练这款高压缩比编码器，Open-Sora团队在视频升降采样模块中引入了残差连接，并采用了基于蒸馏的优化策略，提升了自编码器特征空间的表达能力。

Open-Sora 2.0的发布，标志着开源视频生成技术取得了新的突破。该模型不仅在性能上达到了商业级水平，还通过全面开源和一系列优化措施，显著降低了高质量视频生成的成本。这一成果有望激发更多开发者对视频生成技术的关注与探索，共同推动该领域的进一步发展。

目前，Open-Sora 2.0的开源仓库已正式上线，用户可以在GitHub平台上获取模型权重、推理代码及分布式训练全流程的相关资源。同时，Open-Sora团队也提供了宣传片，展示了该模型强大的生成能力，供用户参考和体验。

文章来源：https://github.com/hpcaitech/Open-Sora-Demo/blob/main/paper/Open_Sora_2_tech_report.pdf

标签：

Open-Sora 2.0 视频模型

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Nvidia GTC 2025：今年展会的期待

下一篇精准渲染 + 智能叙事：Gemini 2.0 Flash 原生图像生成功能正式开放

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来