昆仑万维开源「Skywork UniPic 2.0」:统一多模态生成模型迈向高效与一体化

大模型之家讯 8月13日,昆仑万维宣布正式开源「Skywork UniPic 2.0」,这是面向统一多模态建模的训练与推理框架。新版本在生成和编辑模块上实现轻量化,同时通过与多模态理解模型的联合训练,构建了理解、生图(图像生成)、编辑一体化的能力,目标是提升多模态生成模型的效率和质量。

昆仑万维开源「Skywork UniPic 2.0」:统一多模态生成模型迈向高效与一体化

目前,「Skywork UniPic 2.0」及其系列模型已全面开源,包含模型权重、推理代码及强化策略,为开发者和研究者提供快速上手和构建多模态应用的基础。相关资源可通过项目主页、技术报告、GitHub及HuggingFace平台访问。

核心模块与架构

昆仑万维开源「Skywork UniPic 2.0」:统一多模态生成模型迈向高效与一体化

「Skywork UniPic 2.0」由三个核心模块组成:生图编辑、统一模型能力以及生图编辑后训练。生图编辑模块基于SD3.5-Medium架构,将原本仅支持文本输入的模型扩展为支持文本与图像混合输入,并通过高质量图像生成和编辑数据训练,实现生图与编辑双能力。统一模型能力模块通过冻结生图编辑模块,并结合多模态模型Qwen2.5-VL-7B及Pre-Train连接器进行联合微调,从而形成理解、生图、编辑一体化能力。后训练阶段采用Flow-GRPO的渐进式双任务强化策略,实现生成与编辑任务的协同优化而互不干扰。

性能与优势

升级后的模型在多个方面展现出显著优势。生成模块参数量仅为2B的SD3.5-Medium,但在生图和编辑指标上已超越部分参数量更大的同类模型,包括7B的bagel、4B的OmniGen2及12B的UniWorld-V1和Flux-kontext。通过引入Flow-GRPO强化学习策略,模型在复杂指令理解以及图像生成与编辑一致性上表现出较高水平。同时,将生图编辑模块与多模态模型端到端整合后,开发者可通过轻量微调快速构建统一理解-生成-编辑模型,进一步提升性能。

昆仑万维开源「Skywork UniPic 2.0」:统一多模态生成模型迈向高效与一体化

在应用场景中,用户可输入文字提示或图像,模型能够进行图像理解、生成及编辑。例如,可以对图片内容进行识别并生成说明,或根据文本提示生成全新图像,并进行风格、元素或颜色的编辑。实测显示,UniPic2-SD3.5M-Kontext在生图和编辑能力上已超越多款参数量更大的统一模型,进一步拓展至UniPic2-Metaquery后,整体效果得到提升。

昆仑万维开源「Skywork UniPic 2.0」:统一多模态生成模型迈向高效与一体化

训练与优化策略

Skywork团队在预训练、联合训练和后训练阶段均进行了针对性优化。预训练阶段,SD3.5-Medium模型同时具备文本生成图像(T2I)与文本驱动图像编辑(I2I)能力;联合训练阶段,通过连接器预训练与SFT联合训练,将多模态理解与生图编辑能力整合,形成一体化模型;后训练阶段,通过渐进式双任务强化策略,实现生成与编辑任务的协同优化,避免传统多任务训练中任务互相干扰的问题。

持续开源与行业布局

昆仑万维在统一模型和多模态领域持续推进开源布局。自开源Skywork UniPic 1以来,公司不断探索自回归范式统一模型,并将其与DIT结合,推出Skywork UniPic 2.0。过去数月,昆仑万维陆续开源了多个在行业内达到SOTA水平的模型,包括视频生成、音频驱动人像视频生成、文本推理及软件工程辅助代码生成模型。同时,公司在空间智能、3D生成等前沿领域亦有布局,涵盖交互世界模型与3D世界生成模型。

昆仑万维的这一系列开源行动显示,其在多模态生成、统一模型和专业领域推理上持续推进技术边界,并试图通过开源方式建立开发者生态,支持更多应用落地。

原创文章,作者:志斌,如若转载,请注明出处:http://damoai.com.cn/archives/12317

(0)
上一篇 2天前
下一篇 1天前

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注