阿里开源视频生成模型通义万相2.2:引入MoE架构,提升生成效率与画面表现力

大模型之家讯 7月28日晚,阿里巴巴正式开源通义万相(Wan)2.2系列视频生成模型,覆盖文本生成视频(Wan2.2-T2V-A14B)、图像生成视频(Wan2.2-I2V-A14B)以及统一视频生成模型(Wan2.2-IT2V-5B)。此次更新在模型架构、计算效率和美学控制层面均引入了新技术,进一步推动多模态视频生成能力的发展。

阿里开源视频生成模型通义万相2.2:引入MoE架构,提升生成效率与画面表现力

通义万相2.2的T2V和I2V模型是目前业界首批基于稀疏专家混合架构(Mixture of Experts, MoE)的视频生成模型,总参数规模达27B,其中激活参数为14B。通过结合高噪声专家和低噪专家子模型,Wan2.2在同等参数规模下有效降低了计算资源消耗,官方数据显示可节省约50%的算力开销。这一设计也在处理长序列token、复杂运动与人物交互等方面表现出更高效的视频合成能力。

阿里开源视频生成模型通义万相2.2:引入MoE架构,提升生成效率与画面表现力
阿里开源视频生成模型通义万相2.2:引入MoE架构,提升生成效率与画面表现力
阿里开源视频生成模型通义万相2.2:引入MoE架构,提升生成效率与画面表现力

在美学控制上,Wan2.2引入了被称为“电影美学控制系统”的新组件,可精细调节光影、色彩、构图和人物微表情等维度。系统支持多种关键词组合控制画面风格,例如通过「黄昏」「柔光」「暖色调」等词汇生成夕阳余晖场景,或使用「冷色调」「硬光」「低角度」等参数生成科幻质感的画面。据介绍,该系统旨在缩短创作者从概念构思到视频生成之间的路径,使非专业用户也具备近电影级的视觉表达能力。

此外,阿里还同步开源了一款5B参数级的小型统一视频生成模型(Wan2.2-IT2V-5B),支持文本与图像双模态输入,面向消费级显卡场景进行优化。该模型基于高压缩率的3D VAE架构,时间与空间压缩比达到4×16×16,信息压缩率提升至64,显著降低部署门槛。据官方数据,该模型仅需22G显存,便可在几分钟内生成5秒钟的720P、24帧高清视频,被认为是在消费级条件下性能表现领先的开源基础模型之一。

通义万相自2024年2月起陆续开源文生视频、图生视频、首尾帧生成与视频编辑模型,目前累计下载量超过500万次。此次新版本发布后,模型及代码已同步上线至GitHub、HuggingFace和魔搭社区。企业用户可通过阿里云百炼平台接入API,普通用户则可在通义万相官网及App中直接体验。

开源地址如下:
GitHub: https://github.com/Wan-Video/Wan2.2
HuggingFace: https://huggingface.co/Wan-AI
魔搭社区: https://modelscope.cn/organization/Wan-AI

原创文章,作者:志斌,如若转载,请注明出处:http://damoai.com.cn/archives/11797

(0)
上一篇 1天前
下一篇 15小时前

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注