Open-Sora 2.0全面开源:低成本、高性能,开启视频生成新纪元

2025年03月13日 由 daydream 发表 3417 0

Open-Sora 2.0,一款全新的开源视频生成模型,正式对外发布。该模型采用了11B参数规模,成功在224张GPU上以20万美元的成本训练出商业级性能,表现直追HunyuanVideo和30B参数的Step-Video。


微信截图_20250313110235


Open-Sora 2.0在权威评测VBench及用户偏好测试中均展现出了卓越的性能。在多项关键指标上,其表现与动辄数百万美元训练成本的闭源模型相当。此次发布不仅包含了模型权重和推理代码,还全面开源了分布式训练的全流程,使得高质量视频生成技术的可及性与可拓展性得到了显著提升。


技术方面,Open-Sora 2.0延续了前代的设计思路,采用3D自编码器和Flow Matching训练框架,并引入了3D全注意力机制和MMDiT架构,进一步提升了视频生成的质量。同时,通过开源图生视频模型FLUX进行初始化,该模型显著降低了训练成本。


在降低训练成本方面,Open-Sora 2.0采取了一系列创新方法。首先,通过严格的数据筛选机制,确保高质量数据输入,提升了模型训练效率。其次,优先进行低分辨率训练,以高效学习运动信息,再结合高分辨率训练,降低了整体计算开销。此外,通过优先训练图生视频任务,加速了模型收敛速度。最后,结合ColossalAI和系统级优化,实现了高效的并行训练方案,大幅提升了计算资源利用率。


在推理阶段,Open-Sora 2.0也进行了优化。该模型训练了一款高压缩比的视频自编码器,将推理时间大幅缩短至单卡3分钟以内,实现了10倍的推理速度提升。为了训练这款高压缩比编码器,Open-Sora团队在视频升降采样模块中引入了残差连接,并采用了基于蒸馏的优化策略,提升了自编码器特征空间的表达能力。


Open-Sora 2.0的发布,标志着开源视频生成技术取得了新的突破。该模型不仅在性能上达到了商业级水平,还通过全面开源和一系列优化措施,显著降低了高质量视频生成的成本。这一成果有望激发更多开发者对视频生成技术的关注与探索,共同推动该领域的进一步发展。


目前,Open-Sora 2.0的开源仓库已正式上线,用户可以在GitHub平台上获取模型权重、推理代码及分布式训练全流程的相关资源。同时,Open-Sora团队也提供了宣传片,展示了该模型强大的生成能力,供用户参考和体验。

文章来源:https://github.com/hpcaitech/Open-Sora-Demo/blob/main/paper/Open_Sora_2_tech_report.pdf
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消