昆仑万维开源Skywork R1V多模态推理模型，引领视觉思维链创新

志斌 • 2025年3月18日下午4:33 • 人工智能

大模型之家讯 3月18日，昆仑万维正式宣布开源首款工业界多模态思维链推理模型Skywork R1V，并同步发布了模型权重及技术报告。该模型的相关资源已在Hugging Face与GitHub平台开放下载，进一步推动了视觉推理模型的开源发展。

Skywork R1V的开源，标志着中国企业在视觉推理模型领域取得了重要突破。此前，OpenAI的o1和DeepSeek-R1的推出，引发了全球范围内对“长思考”模型的关注。Skywork R1V作为中国首个开源的多模态推理模型，具备强大的视觉理解与推理能力，能够处理包括视觉逻辑推理、视觉数学题、科学图像分析、医学影像诊断等复杂任务，显著扩展了视觉大模型的应用边界。在实际测试中，Skywork R1V展现出卓越的推理能力。例如，通过对艺术作品的分析，模型不仅能够快速识别画作的作者，还能推测其创作时的情感背景。针对数学题、物理题等复杂问题，Skywork R1V也能逐步推理出正确答案，充分体现了其在视觉与思维链推理方面的深度融合。

Skywork R1V在多项权威基准测试中表现出色。在MATH500和AIME测试中，分别取得了94.0和72.0的高分，表现优于多款主流开源模型。同时，Skywork R1V在视觉推理基准MMMU与MathVista中也获得了69和67.5的优异成绩，与更大规模的闭源模型表现相当，进一步验证了其在多模态推理任务中的竞争力。这一成绩得益于Skywork R1V在多模态推理架构上的创新。模型通过文本推理能力的高效迁移、混合式训练方法及自适应思维链长度控制等核心技术，实现了推理精度与效率的双重提升。

Skywork R1V能够达到当前的性能高度，依赖于以下三项关键技术创新。昆仑万维提出的Skywork-VL视觉投影器，实现了文本推理能力向视觉任务的高效迁移，无需重新训练语言模型和视觉编码器，同时保留了强大的文本推理能力。模型还采用了多模态混合式训练方法，通过迭代监督微调与GRPO强化学习，模型在视觉与文本的跨模态任务中取得显著提升，并在MMMU和MathVista等基准测试中接近更大规模的闭源模型水平。此外，Skywork R1V引入了自适应长度思维链蒸馏机制，基于视觉-文本复杂度动态调整推理链长度，避免模型“过度思考”，在提升推理精度的同时优化了推理效率。

作为中国AI领军企业，昆仑万维近年来持续加大在开源领域的投入。自2023年10月以来，公司已陆续开源了包括Skywork-13B系列、AgentStudio、Skywork-MoE等在内的多款大模型及相关工具。2025年2月18日，公司进一步开源了SkyReels-V1和SkyReels-A1视频生成模型。此次Skywork R1V的发布，进一步强化了昆仑万维在文本-视觉多模态推理领域的开源布局。昆仑万维表示，未来将继续致力于模型、数据集及工具的开源化，以降低AI应用门槛，推动全球AI技术的普惠发展。

原创文章，作者：志斌，如若转载，请注明出处：http://damoai.com.cn/archives/9562