4月21日,昆仑万维SkyReels团队正式发布并开源SkyReels-V2,该模型为全球首个采用扩散强迫框架的无限时长电影生成模型。该模型通过多模态大语言模型、多阶段预训练、强化学习及扩散强迫框架的协同优化,实现了技术突破。
过去一年,视频生成技术在扩散模型和自回归框架的推动下取得显著进展,但仍面临提示词遵循、视觉质量、运动动态和视频时长协调等重大挑战。现有技术在提升视觉质量时往往牺牲运动动态效果,为追求高分辨率而限制视频时长,且镜头感知生成能力不足。这些限制阻碍了长视频的逼真合成和专业电影风格的生成。
为解决这些问题,SkyReels-V2应运而生。该模型支持生成30秒、40秒视频,具备生成高运动质量、高一致性、高保真视频的能力。其创新技术包括:
为全面评估SkyReels-V2的性能,构建了SkyReels-Bench用于人类评估,并利用开源的V-Bench进行自动化评估。评估结果显示,SkyReels-V2在指令遵循、运动质量、一致性和视觉质量方面表现卓越,优于其他基线模型。
SkyReels-V2不仅在技术上实现突破,还为多个实际应用场景提供支持:
SkyReels-V2的推出标志着视频生成技术迈入新阶段,为实现高质量、长时间的电影风格视频生成提供全新解决方案。昆仑万维SkyReels团队将SkyCaptioner-V1和SkyReels-V2系列模型的各种尺寸完全开源,促进学术界和工业界的研究和应用。未来,团队将继续优化SkyReels-V2的性能,探索更多应用场景,降低计算成本,推动视频生成技术的广泛应用。