昆仑万维SkyReels团队发布开源视频生成模型SkyReels-V2

2025年04月22日由 daydream 发表 1032 0

4月21日，昆仑万维SkyReels团队正式发布并开源SkyReels-V2，该模型为全球首个采用扩散强迫框架的无限时长电影生成模型。该模型通过多模态大语言模型、多阶段预训练、强化学习及扩散强迫框架的协同优化，实现了技术突破。

微信截图_20250422093817

过去一年，视频生成技术在扩散模型和自回归框架的推动下取得显著进展，但仍面临提示词遵循、视觉质量、运动动态和视频时长协调等重大挑战。现有技术在提升视觉质量时往往牺牲运动动态效果，为追求高分辨率而限制视频时长，且镜头感知生成能力不足。这些限制阻碍了长视频的逼真合成和专业电影风格的生成。

微信截图_20250422093746

为解决这些问题，SkyReels-V2应运而生。该模型支持生成30秒、40秒视频，具备生成高运动质量、高一致性、高保真视频的能力。其创新技术包括：

全面的影视级视频理解模型SkyCaptioner-V1：通过结构化视频表示方法，将多模态LLM的一般描述与子专家模型的详细镜头语言相结合，提升提示词遵循能力。该模型已开源，可直接使用。
针对运动的偏好优化：通过强化学习训练，使用人工标注和合成失真数据，解决动态扭曲、不合理等问题，设计半自动数据收集管道，降低数据标注成本。
高效的扩散强迫框架：提出扩散强迫后训练方法，通过微调预训练的扩散模型，减少训练成本，提高生成效率，实现长视频的高效生成。
渐进式分辨率预训练与多阶段后训练优化：整合通用数据集、自收集媒体和艺术资源库，通过渐进式分辨率预训练和多阶段后训练，提升模型表现。

为全面评估SkyReels-V2的性能，构建了SkyReels-Bench用于人类评估，并利用开源的V-Bench进行自动化评估。评估结果显示，SkyReels-V2在指令遵循、运动质量、一致性和视觉质量方面表现卓越，优于其他基线模型。

SkyReels-V2不仅在技术上实现突破，还为多个实际应用场景提供支持：

故事生成：能够生成理论上无限时长的视频，通过滑动窗口方法和稳定化技术，确保视频连贯性和视觉一致性，适合电影制作和广告创作。
图像到视频合成：提供两种生成方法，通过微调全序列文本到视频扩散模型或扩散强迫模型与帧条件结合，实现高质量的图像到视频生成。
摄像导演功能：在标注摄像机运动方面表现出色，通过筛选样本和微调实验，提升摄影效果，确保摄像机运动的流畅性和多样性。
元素到视频生成：研发SkyReels-A2方案，提出多元素到视频任务，将任意视觉元素组合成连贯视频，确保高保真度，适合短剧、音乐视频和虚拟电商内容创作。

SkyReels-V2的推出标志着视频生成技术迈入新阶段，为实现高质量、长时间的电影风格视频生成提供全新解决方案。昆仑万维SkyReels团队将SkyCaptioner-V1和SkyReels-V2系列模型的各种尺寸完全开源，促进学术界和工业界的研究和应用。未来，团队将继续优化SkyReels-V2的性能，探索更多应用场景，降低计算成本，推动视频生成技术的广泛应用。

文章来源：https://mp.weixin.qq.com/s/xfgWnSBZYnI-TurjqNeUrw

标签：

昆仑万维 SkyReels-V2 视频生成模型

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇谷歌AI模型更新聚焦视频生成与编辑功能增强

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来