昆仑万维SkyReels团队发布开源视频生成模型SkyReels-V2

2025年04月22日 由 daydream 发表 1032 0

4月21日,昆仑万维SkyReels团队正式发布并开源SkyReels-V2,该模型为全球首个采用扩散强迫框架的无限时长电影生成模型。该模型通过多模态大语言模型、多阶段预训练、强化学习及扩散强迫框架的协同优化,实现了技术突破。


微信截图_20250422093817


过去一年,视频生成技术在扩散模型和自回归框架的推动下取得显著进展,但仍面临提示词遵循、视觉质量、运动动态和视频时长协调等重大挑战。现有技术在提升视觉质量时往往牺牲运动动态效果,为追求高分辨率而限制视频时长,且镜头感知生成能力不足。这些限制阻碍了长视频的逼真合成和专业电影风格的生成。


微信截图_20250422093746


为解决这些问题,SkyReels-V2应运而生。该模型支持生成30秒、40秒视频,具备生成高运动质量、高一致性、高保真视频的能力。其创新技术包括:


  1. 全面的影视级视频理解模型SkyCaptioner-V1:通过结构化视频表示方法,将多模态LLM的一般描述与子专家模型的详细镜头语言相结合,提升提示词遵循能力。该模型已开源,可直接使用。
  2. 针对运动的偏好优化:通过强化学习训练,使用人工标注和合成失真数据,解决动态扭曲、不合理等问题,设计半自动数据收集管道,降低数据标注成本。
  3. 高效的扩散强迫框架:提出扩散强迫后训练方法,通过微调预训练的扩散模型,减少训练成本,提高生成效率,实现长视频的高效生成。
  4. 渐进式分辨率预训练与多阶段后训练优化:整合通用数据集、自收集媒体和艺术资源库,通过渐进式分辨率预训练和多阶段后训练,提升模型表现。


为全面评估SkyReels-V2的性能,构建了SkyReels-Bench用于人类评估,并利用开源的V-Bench进行自动化评估。评估结果显示,SkyReels-V2在指令遵循、运动质量、一致性和视觉质量方面表现卓越,优于其他基线模型。


SkyReels-V2不仅在技术上实现突破,还为多个实际应用场景提供支持:


  1. 故事生成:能够生成理论上无限时长的视频,通过滑动窗口方法和稳定化技术,确保视频连贯性和视觉一致性,适合电影制作和广告创作。
  2. 图像到视频合成:提供两种生成方法,通过微调全序列文本到视频扩散模型或扩散强迫模型与帧条件结合,实现高质量的图像到视频生成。
  3. 摄像导演功能:在标注摄像机运动方面表现出色,通过筛选样本和微调实验,提升摄影效果,确保摄像机运动的流畅性和多样性。
  4. 元素到视频生成:研发SkyReels-A2方案,提出多元素到视频任务,将任意视觉元素组合成连贯视频,确保高保真度,适合短剧、音乐视频和虚拟电商内容创作。


SkyReels-V2的推出标志着视频生成技术迈入新阶段,为实现高质量、长时间的电影风格视频生成提供全新解决方案。昆仑万维SkyReels团队将SkyCaptioner-V1和SkyReels-V2系列模型的各种尺寸完全开源,促进学术界和工业界的研究和应用。未来,团队将继续优化SkyReels-V2的性能,探索更多应用场景,降低计算成本,推动视频生成技术的广泛应用。

文章来源:https://mp.weixin.qq.com/s/xfgWnSBZYnI-TurjqNeUrw
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消