Open-Sora 2.0,一款全新的开源视频生成模型,正式对外发布。该模型采用了11B参数规模,成功在224张GPU上以20万美元的成本训练出商业级性能,表现直追HunyuanVideo和30B参数的Step-Video。
Open-Sora 2.0在权威评测VBench及用户偏好测试中均展现出了卓越的性能。在多项关键指标上,其表现与动辄数百万美元训练成本的闭源模型相当。此次发布不仅包含了模型权重和推理代码,还全面开源了分布式训练的全流程,使得高质量视频生成技术的可及性与可拓展性得到了显著提升。
技术方面,Open-Sora 2.0延续了前代的设计思路,采用3D自编码器和Flow Matching训练框架,并引入了3D全注意力机制和MMDiT架构,进一步提升了视频生成的质量。同时,通过开源图生视频模型FLUX进行初始化,该模型显著降低了训练成本。
在降低训练成本方面,Open-Sora 2.0采取了一系列创新方法。首先,通过严格的数据筛选机制,确保高质量数据输入,提升了模型训练效率。其次,优先进行低分辨率训练,以高效学习运动信息,再结合高分辨率训练,降低了整体计算开销。此外,通过优先训练图生视频任务,加速了模型收敛速度。最后,结合ColossalAI和系统级优化,实现了高效的并行训练方案,大幅提升了计算资源利用率。
在推理阶段,Open-Sora 2.0也进行了优化。该模型训练了一款高压缩比的视频自编码器,将推理时间大幅缩短至单卡3分钟以内,实现了10倍的推理速度提升。为了训练这款高压缩比编码器,Open-Sora团队在视频升降采样模块中引入了残差连接,并采用了基于蒸馏的优化策略,提升了自编码器特征空间的表达能力。
Open-Sora 2.0的发布,标志着开源视频生成技术取得了新的突破。该模型不仅在性能上达到了商业级水平,还通过全面开源和一系列优化措施,显著降低了高质量视频生成的成本。这一成果有望激发更多开发者对视频生成技术的关注与探索,共同推动该领域的进一步发展。
目前,Open-Sora 2.0的开源仓库已正式上线,用户可以在GitHub平台上获取模型权重、推理代码及分布式训练全流程的相关资源。同时,Open-Sora团队也提供了宣传片,展示了该模型强大的生成能力,供用户参考和体验。