昆仑万维开源多模态推理模型Skywork-R1V 3.0，性能逼近人类专家

大模型之家讯 7月9日，昆仑万维正式开源其迄今性能最强的多模态推理模型Skywork-R1V 3.0，参数规模达38B，在多项主流评测中取得开源模型中的最优成绩（SOTA）。该模型不仅在推理速度上相较上一代实现6倍提升，其解题路径压缩至原有六分之一，代表着其在跨模态信息整合与多学科泛化能力上的显著跃升。

在多模态理解能力方面，Skywork-R1V 3.0展现出强大的图文联合推理与跨学科应用能力。例如，在MMMU、PhyX等权威评测中，其成绩已逼近人类专家水准，并超越Claude-3.7-Sonnet和GPT-4.5等闭源模型。在实际任务中，无论是面对物理电路分析、医学影像辅助诊断、文博展品解读，还是进行复杂地理定位，该模型均能通过图像理解与文本逻辑推理协同完成复杂任务，进一步验证其推理能力的广度和深度。

昆仑万维方面表示，Skywork-R1V 3.0在跨模态融合机制与强化学习策略上的技术升级，是其实现泛化推理能力跃迁的关键。该模型采用冷启动策略，在此前版本蒸馏数据基础上，通过强化学习算法GRPO驱动推理能力挖掘，并配合关键熵判别机制对推理节点进行动态筛选，显著提高了模型在多模态输入下的因果建模与逻辑一致性表现。

据介绍，该模型的训练过程引入了超过2.5万条高质量样本，覆盖多个模态与学科领域。在视觉信息处理方面，Skywork-R1V 3.0通过对视觉连接器的专项微调，有效保持了推理链条中图像细节的稳定性和清晰度，解决了长链推理中常见的视觉退化问题。

在学术评测之外，Skywork-R1V 3.0的实用性也获得验证。昆仑万维公布的多个推理案例显示，模型可对高考物理、医学病理、历史文物等多领域任务实现准确响应，具备从符号理解到情境建模的完整能力链条。这也使其具备在医疗诊断、教育辅导、内容理解等垂直场景中的落地可能。

随着Skywork-R1V 3.0的全面开源，包括模型权重、训练代码与技术报告已发布至Hugging Face与GitHub，昆仑万维在多模态推理领域的开放式布局也逐步成型。自2025年以来，公司已陆续开源涵盖空间智能、视频生成、奖励建模等多个前沿方向的模型，其以推理能力为核心的多模态模型体系正在形成系统闭环。

在人工智能模型走向通用化的过程中，多模态推理能力被认为是接近人类认知结构的关键路径。正如昆仑万维研发团队所强调，现实世界的图像、文本、语音等信息本质上是对同一客观实在的不同模态投影，而模型若能在不同投影之间建立因果链条与语义映射，将为通用人工智能打下基础。Skywork-R1V 3.0的发布，正是昆仑万维朝这一目标迈出的重要一步。

原创文章，作者：志斌，如若转载，请注明出处：http://damoai.com.cn/archives/11225