昆仑万维开源SkyReels-V2,推进长时长电影级视频生成新阶段

大模型之家讯 2025年4月21日,昆仑万维旗下SkyReels团队宣布正式开源SkyReels-V2,这一模型被称为全球首个采用“扩散强迫(Diffusion-forcing)”框架的视频生成系统,具备生成无限时长电影级视频的能力。该模型综合引入多模态大语言模型、多阶段预训练、强化学习与扩散强迫等关键机制,在视频生成的提示词遵循性、视觉质量、动态表现和时长控制等方面提出了新的技术路径。

昆仑万维开源SkyReels-V2,推进长时长电影级视频生成新阶段

在过去一年中,视频生成领域在扩散模型和自回归框架的基础上取得了一定进展,但在保持高分辨率的同时确保镜头动态自然、视频内容连贯仍是难点。现有系统通常在画质与动作之间进行权衡,难以在长时长生成中兼顾整体一致性与叙事流畅。通用多模态语言模型难以解析复杂镜头语言,也进一步限制了生成内容的专业性和真实感。

昆仑万维开源SkyReels-V2,推进长时长电影级视频生成新阶段

针对上述问题,SkyReels-V2构建了包括视频理解、动态建模、扩散生成和多阶段训练在内的一整套视频生成体系。其结构化视频表示与子专家镜头模型的结合,使得系统能识别主体、表情、摄像机运动等电影语法元素,从而增强生成视频对提示词的响应能力。在此基础上,SkyReels团队还开发了统一的视频理解模型SkyCaptioner-V1,目前已开源,用于进一步提升文本到视频生成过程的结构感知水平。

昆仑万维开源SkyReels-V2,推进长时长电影级视频生成新阶段

在动态生成方面,团队利用强化学习方法优化运动质量,并设计了半自动的数据收集流程,通过人类偏好标注与合成失真生成对比样本,解决了运动自然度差与结构失真的常见问题。同时,SkyReels-V2采用微调已有扩散模型的方式引入扩散强迫机制,显著降低训练成本与生成开销,实现了对高帧数、长时长视频的高效支持。

数据方面,模型训练结合了通用数据集、自收集影视资料与艺术素材,涵盖全球超过120个国家,训练总时长超过620万小时。在多阶段训练框架中,系统通过渐进式分辨率策略建立初始生成能力,再依次完成概念平衡微调、动态优化、长视频生成适配和视觉保真度提升,最终实现了在资源受限条件下的稳定性与表现力提升。

据官方展示,SkyReels-V2可实现30秒以上的高清动态视频生成,呈现出流畅自然的镜头推进、稳定的场景过渡和高保真的视觉细节。示例视频中包含优雅天鹅晨曦戏水、海龟穿行珊瑚礁、女性化妆特写等场景,均展示了系统对构图、光影与动作节奏的精确掌控。

昆仑万维开源SkyReels-V2,推进长时长电影级视频生成新阶段

性能方面,SkyReels团队构建了专用评估基准SkyReels-Bench,涵盖文本到视频与图像到视频两类任务,共包含1020个提示词,分别从指令遵循、运动质量、一致性和视觉表现等维度评估系统能力。SkyReels-V2在该基准测试中表现稳定,显著领先于当前的开源及闭源模型。自动化评估工具VBench1.0也显示,SkyReels-V2在综合分数和视频质量维度上均取得最高分,超过了如HunyuanVideo-13B与Wan2.1-14B等基准系统。

在应用层面,SkyReels-V2适配多种创作需求。其故事生成能力支持滑动窗口机制,实现长篇叙事的连贯镜头合成。图像到视频生成模块则通过全序列扩散模型或帧条件扩散策略,提升视频生成的时间一致性与视觉质量。此外,团队还提出“运镜专家”功能模块,通过优化摄像机运动数据的均衡性,实现更自然的摄影指导能力。

SkyReels-V2及其扩展模型SkyReels-A2现已在GitHub与HuggingFace平台同步开源。其技术论文已于arXiv公开发布,详细介绍了系统架构与训练机制,供研究者与开发者参考使用。

原创文章,作者:志斌,如若转载,请注明出处:http://damoai.com.cn/archives/9959

(0)
上一篇 2025年4月18日 上午11:34
下一篇 2025年4月21日 下午1:47

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注