大模型之家讯 7月9日,昆仑万维正式开源其迄今性能最强的多模态推理模型Skywork-R1V 3.0,参数规模达38B,在多项主流评测中取得开源模型中的最优成绩(SOTA)。该模型不仅在推理速度上相较上一代实现6倍提升,其解题路径压缩至原有六分之一,代表着其在跨模态信息整合与多学科泛化能力上的显著跃升。


在多模态理解能力方面,Skywork-R1V 3.0展现出强大的图文联合推理与跨学科应用能力。例如,在MMMU、PhyX等权威评测中,其成绩已逼近人类专家水准,并超越Claude-3.7-Sonnet和GPT-4.5等闭源模型。在实际任务中,无论是面对物理电路分析、医学影像辅助诊断、文博展品解读,还是进行复杂地理定位,该模型均能通过图像理解与文本逻辑推理协同完成复杂任务,进一步验证其推理能力的广度和深度。

昆仑万维方面表示,Skywork-R1V 3.0在跨模态融合机制与强化学习策略上的技术升级,是其实现泛化推理能力跃迁的关键。该模型采用冷启动策略,在此前版本蒸馏数据基础上,通过强化学习算法GRPO驱动推理能力挖掘,并配合关键熵判别机制对推理节点进行动态筛选,显著提高了模型在多模态输入下的因果建模与逻辑一致性表现。

据介绍,该模型的训练过程引入了超过2.5万条高质量样本,覆盖多个模态与学科领域。在视觉信息处理方面,Skywork-R1V 3.0通过对视觉连接器的专项微调,有效保持了推理链条中图像细节的稳定性和清晰度,解决了长链推理中常见的视觉退化问题。
在学术评测之外,Skywork-R1V 3.0的实用性也获得验证。昆仑万维公布的多个推理案例显示,模型可对高考物理、医学病理、历史文物等多领域任务实现准确响应,具备从符号理解到情境建模的完整能力链条。这也使其具备在医疗诊断、教育辅导、内容理解等垂直场景中的落地可能。
随着Skywork-R1V 3.0的全面开源,包括模型权重、训练代码与技术报告已发布至Hugging Face与GitHub,昆仑万维在多模态推理领域的开放式布局也逐步成型。自2025年以来,公司已陆续开源涵盖空间智能、视频生成、奖励建模等多个前沿方向的模型,其以推理能力为核心的多模态模型体系正在形成系统闭环。
在人工智能模型走向通用化的过程中,多模态推理能力被认为是接近人类认知结构的关键路径。正如昆仑万维研发团队所强调,现实世界的图像、文本、语音等信息本质上是对同一客观实在的不同模态投影,而模型若能在不同投影之间建立因果链条与语义映射,将为通用人工智能打下基础。Skywork-R1V 3.0的发布,正是昆仑万维朝这一目标迈出的重要一步。
原创文章,作者:志斌,如若转载,请注明出处:http://damoai.com.cn/archives/11225