大模型之家讯 7月30日,昆仑万维正式发布并开源其自回归架构的多模态统一预训练模型 Skywork-UniPic。该模型整合图像理解、文本生成图像以及图像编辑三项核心任务,试图在统一模型架构下实现多模态能力的深度融合。项目现已面向研究社区开放全部核心资源,包括模型权重、技术报告及代码仓库。

Skywork-UniPic 的开源链接如下:
模型权重:https://huggingface.co/Skywork/Skywork-UniPic-1.5B
技术报告:https://github.com/SkyworkAI/UniPic/blob/main/UNIPIC.pdf
代码仓库:https://github.com/SkyworkAI/UniPic
聚焦统一架构:轻量级设计下的多能协同

Skywork-UniPic 基于自回归范式,采用了与 GPT-4o 类似的统一建模路径,但在架构与实现细节上作出关键改进。传统多模态模型往往依赖 VQ 或 VAE 编码器压缩图像内容,这虽提升了生成表现,却在图像理解任务上存在语义弱化问题。对此,Skywork-UniPic 采用 MAR 编码器承担图像生成路径中的视觉表示,同时将 SigLIP2 引入图像理解通路,试图在生成质量与语义识别之间取得更好平衡。

这一结构的核心目标在于构建一个部署友好、任务适应性强的轻量级多模态统一模型。模型支持端到端优化,三大核心能力(理解、生成、编辑)可在协同训练中相互增强,缓解传统模型在多任务并行执行时出现的能力稀释问题。

用户仅需输入提示词,便可实现从图像理解、文图生成到图像编辑的完整任务链。示例提示词覆盖从生成像素风格江户寿司市场场景,到将图像风格转换为“吉卜力风格”与“像素风格”,展现了其多样化的输出能力。
“小而美”的技术路径:Skywork-UniPic 的性能表现
在当前大型统一模型参数不断膨胀的背景下,Skywork-UniPic 以 1.5B 规模参数展现出接近甚至优于部分大型模型的能力表现。

在多个公开基准中,该模型取得了如下成果:
- 在 GenEval 指令遵循测试中,得分 0.86,逼近拥有 CoT 的大型模型 BAGEL(7B+7B);
- 在复杂指令图像生成基准 DPG-Bench 中,达到 85.5 分的业界 SOTA 水平;
- 在图像编辑能力测试中,GEditBench-EN 得分 5.83,ImgEdit-Bench 得分 3.49,处于统一模型第一梯队。
此外,其轻量级结构显著降低了部署门槛,可在 RTX 4090 级别的消费级显卡上稳定运行,为开发者提供更高效的试验与应用环境。
从数据到优化:背后的训练体系构建
Skywork-UniPic 的性能优势得益于系统性的训练策略和奖励机制构建。
其训练数据涵盖亿级精选图文样本和百万级指令精调样本,在提升语义覆盖的同时控制训练资源开销。项目还构建了两个专用奖励模型:Skywork-ImgReward 和 Skywork-EditReward,分别用于图像生成与编辑任务的质量筛选与训练强化。这一做法使模型能在更贴近人类偏好的基础上持续优化输出结果。
在训练策略上,Skywork-UniPic 引入了 MAR 与 HARMON 两套优化体系。前者采用分辨率渐进提升,逐步提升模型在图像理解和生成细节上的建模能力;后者则通过阶段性参数解冻,实现在不同任务上的能力释放。此外,模型训练采取渐进式多任务路径,先聚焦生成任务,再逐步引入理解与编辑,从而减少多任务早期干扰,提升最终协同表现。
开源生态的延续
Skywork-UniPic 的发布是昆仑万维在多模态开源生态布局中的又一延伸。此前半年内,其已先后发布覆盖奖励模型、推理、软件工程、空间智能等多个方向的大模型。本次开源,进一步丰富了 Skywork 系列的模型谱系,并尝试推动多模态统一模型向更轻量、更实用、更低门槛的方向演进。
这一趋势表明,多模态大模型的未来不仅在于能力融合的深度,也在于模型设计与训练体系对现实部署环境的兼容程度。而 Skywork-UniPic,则提供了一种可行路径的实践样本。
原创文章,作者:志斌,如若转载,请注明出处:http://damoai.com.cn/archives/11863