昆仑万维开源「Skywork UniPic 2.0」：统一多模态生成模型迈向高效与一体化

志斌 • 2025年8月14日下午4:46 • 人工智能

大模型之家讯 8月13日，昆仑万维宣布正式开源「Skywork UniPic 2.0」，这是面向统一多模态建模的训练与推理框架。新版本在生成和编辑模块上实现轻量化，同时通过与多模态理解模型的联合训练，构建了理解、生图（图像生成）、编辑一体化的能力，目标是提升多模态生成模型的效率和质量。

昆仑万维开源「Skywork UniPic 2.0」：统一多模态生成模型迈向高效与一体化

目前，「Skywork UniPic 2.0」及其系列模型已全面开源，包含模型权重、推理代码及强化策略，为开发者和研究者提供快速上手和构建多模态应用的基础。相关资源可通过项目主页、技术报告、GitHub及HuggingFace平台访问。

核心模块与架构

「Skywork UniPic 2.0」由三个核心模块组成：生图编辑、统一模型能力以及生图编辑后训练。生图编辑模块基于SD3.5-Medium架构，将原本仅支持文本输入的模型扩展为支持文本与图像混合输入，并通过高质量图像生成和编辑数据训练，实现生图与编辑双能力。统一模型能力模块通过冻结生图编辑模块，并结合多模态模型Qwen2.5-VL-7B及Pre-Train连接器进行联合微调，从而形成理解、生图、编辑一体化能力。后训练阶段采用Flow-GRPO的渐进式双任务强化策略，实现生成与编辑任务的协同优化而互不干扰。

性能与优势

升级后的模型在多个方面展现出显著优势。生成模块参数量仅为2B的SD3.5-Medium，但在生图和编辑指标上已超越部分参数量更大的同类模型，包括7B的bagel、4B的OmniGen2及12B的UniWorld-V1和Flux-kontext。通过引入Flow-GRPO强化学习策略，模型在复杂指令理解以及图像生成与编辑一致性上表现出较高水平。同时，将生图编辑模块与多模态模型端到端整合后，开发者可通过轻量微调快速构建统一理解-生成-编辑模型，进一步提升性能。

在应用场景中，用户可输入文字提示或图像，模型能够进行图像理解、生成及编辑。例如，可以对图片内容进行识别并生成说明，或根据文本提示生成全新图像，并进行风格、元素或颜色的编辑。实测显示，UniPic2-SD3.5M-Kontext在生图和编辑能力上已超越多款参数量更大的统一模型，进一步拓展至UniPic2-Metaquery后，整体效果得到提升。

训练与优化策略

Skywork团队在预训练、联合训练和后训练阶段均进行了针对性优化。预训练阶段，SD3.5-Medium模型同时具备文本生成图像（T2I）与文本驱动图像编辑（I2I）能力；联合训练阶段，通过连接器预训练与SFT联合训练，将多模态理解与生图编辑能力整合，形成一体化模型；后训练阶段，通过渐进式双任务强化策略，实现生成与编辑任务的协同优化，避免传统多任务训练中任务互相干扰的问题。

持续开源与行业布局

昆仑万维在统一模型和多模态领域持续推进开源布局。自开源Skywork UniPic 1以来，公司不断探索自回归范式统一模型，并将其与DIT结合，推出Skywork UniPic 2.0。过去数月，昆仑万维陆续开源了多个在行业内达到SOTA水平的模型，包括视频生成、音频驱动人像视频生成、文本推理及软件工程辅助代码生成模型。同时，公司在空间智能、3D生成等前沿领域亦有布局，涵盖交互世界模型与3D世界生成模型。

昆仑万维的这一系列开源行动显示，其在多模态生成、统一模型和专业领域推理上持续推进技术边界，并试图通过开源方式建立开发者生态，支持更多应用落地。

原创文章，作者：志斌，如若转载，请注明出处：http://damoai.com.cn/archives/12317