昆仑万维开源SkyReels-V2，推进长时长电影级视频生成新阶段

志斌 • 2025年4月21日上午10:42 • 人工智能

大模型之家讯 2025年4月21日，昆仑万维旗下SkyReels团队宣布正式开源SkyReels-V2，这一模型被称为全球首个采用“扩散强迫（Diffusion-forcing）”框架的视频生成系统，具备生成无限时长电影级视频的能力。该模型综合引入多模态大语言模型、多阶段预训练、强化学习与扩散强迫等关键机制，在视频生成的提示词遵循性、视觉质量、动态表现和时长控制等方面提出了新的技术路径。

在过去一年中，视频生成领域在扩散模型和自回归框架的基础上取得了一定进展，但在保持高分辨率的同时确保镜头动态自然、视频内容连贯仍是难点。现有系统通常在画质与动作之间进行权衡，难以在长时长生成中兼顾整体一致性与叙事流畅。通用多模态语言模型难以解析复杂镜头语言，也进一步限制了生成内容的专业性和真实感。

针对上述问题，SkyReels-V2构建了包括视频理解、动态建模、扩散生成和多阶段训练在内的一整套视频生成体系。其结构化视频表示与子专家镜头模型的结合，使得系统能识别主体、表情、摄像机运动等电影语法元素，从而增强生成视频对提示词的响应能力。在此基础上，SkyReels团队还开发了统一的视频理解模型SkyCaptioner-V1，目前已开源，用于进一步提升文本到视频生成过程的结构感知水平。

在动态生成方面，团队利用强化学习方法优化运动质量，并设计了半自动的数据收集流程，通过人类偏好标注与合成失真生成对比样本，解决了运动自然度差与结构失真的常见问题。同时，SkyReels-V2采用微调已有扩散模型的方式引入扩散强迫机制，显著降低训练成本与生成开销，实现了对高帧数、长时长视频的高效支持。

数据方面，模型训练结合了通用数据集、自收集影视资料与艺术素材，涵盖全球超过120个国家，训练总时长超过620万小时。在多阶段训练框架中，系统通过渐进式分辨率策略建立初始生成能力，再依次完成概念平衡微调、动态优化、长视频生成适配和视觉保真度提升，最终实现了在资源受限条件下的稳定性与表现力提升。

据官方展示，SkyReels-V2可实现30秒以上的高清动态视频生成，呈现出流畅自然的镜头推进、稳定的场景过渡和高保真的视觉细节。示例视频中包含优雅天鹅晨曦戏水、海龟穿行珊瑚礁、女性化妆特写等场景，均展示了系统对构图、光影与动作节奏的精确掌控。

性能方面，SkyReels团队构建了专用评估基准SkyReels-Bench，涵盖文本到视频与图像到视频两类任务，共包含1020个提示词，分别从指令遵循、运动质量、一致性和视觉表现等维度评估系统能力。SkyReels-V2在该基准测试中表现稳定，显著领先于当前的开源及闭源模型。自动化评估工具VBench1.0也显示，SkyReels-V2在综合分数和视频质量维度上均取得最高分，超过了如HunyuanVideo-13B与Wan2.1-14B等基准系统。

在应用层面，SkyReels-V2适配多种创作需求。其故事生成能力支持滑动窗口机制，实现长篇叙事的连贯镜头合成。图像到视频生成模块则通过全序列扩散模型或帧条件扩散策略，提升视频生成的时间一致性与视觉质量。此外，团队还提出“运镜专家”功能模块，通过优化摄像机运动数据的均衡性，实现更自然的摄影指导能力。

SkyReels-V2及其扩展模型SkyReels-A2现已在GitHub与HuggingFace平台同步开源。其技术论文已于arXiv公开发布，详细介绍了系统架构与训练机制，供研究者与开发者参考使用。

原创文章，作者：志斌，如若转载，请注明出处：http://damoai.com.cn/archives/9959