昆仑万维开源Skywork R1V多模态推理模型,引领视觉思维链创新

昆仑万维开源Skywork R1V多模态推理模型,引领视觉思维链创新

大模型之家讯 3月18日,昆仑万维正式宣布开源首款工业界多模态思维链推理模型Skywork R1V,并同步发布了模型权重及技术报告。该模型的相关资源已在Hugging Face与GitHub平台开放下载,进一步推动了视觉推理模型的开源发展。

昆仑万维开源Skywork R1V多模态推理模型,引领视觉思维链创新

Skywork R1V的开源,标志着中国企业在视觉推理模型领域取得了重要突破。此前,OpenAI的o1和DeepSeek-R1的推出,引发了全球范围内对“长思考”模型的关注。Skywork R1V作为中国首个开源的多模态推理模型,具备强大的视觉理解与推理能力,能够处理包括视觉逻辑推理、视觉数学题、科学图像分析、医学影像诊断等复杂任务,显著扩展了视觉大模型的应用边界。在实际测试中,Skywork R1V展现出卓越的推理能力。例如,通过对艺术作品的分析,模型不仅能够快速识别画作的作者,还能推测其创作时的情感背景。针对数学题、物理题等复杂问题,Skywork R1V也能逐步推理出正确答案,充分体现了其在视觉与思维链推理方面的深度融合。

昆仑万维开源Skywork R1V多模态推理模型,引领视觉思维链创新

Skywork R1V在多项权威基准测试中表现出色。在MATH500和AIME测试中,分别取得了94.0和72.0的高分,表现优于多款主流开源模型。同时,Skywork R1V在视觉推理基准MMMU与MathVista中也获得了69和67.5的优异成绩,与更大规模的闭源模型表现相当,进一步验证了其在多模态推理任务中的竞争力。这一成绩得益于Skywork R1V在多模态推理架构上的创新。模型通过文本推理能力的高效迁移、混合式训练方法及自适应思维链长度控制等核心技术,实现了推理精度与效率的双重提升。

昆仑万维开源Skywork R1V多模态推理模型,引领视觉思维链创新

Skywork R1V能够达到当前的性能高度,依赖于以下三项关键技术创新。昆仑万维提出的Skywork-VL视觉投影器,实现了文本推理能力向视觉任务的高效迁移,无需重新训练语言模型和视觉编码器,同时保留了强大的文本推理能力。模型还采用了多模态混合式训练方法,通过迭代监督微调与GRPO强化学习,模型在视觉与文本的跨模态任务中取得显著提升,并在MMMU和MathVista等基准测试中接近更大规模的闭源模型水平。此外,Skywork R1V引入了自适应长度思维链蒸馏机制,基于视觉-文本复杂度动态调整推理链长度,避免模型“过度思考”,在提升推理精度的同时优化了推理效率。

作为中国AI领军企业,昆仑万维近年来持续加大在开源领域的投入。自2023年10月以来,公司已陆续开源了包括Skywork-13B系列、AgentStudio、Skywork-MoE等在内的多款大模型及相关工具。2025年2月18日,公司进一步开源了SkyReels-V1和SkyReels-A1视频生成模型。此次Skywork R1V的发布,进一步强化了昆仑万维在文本-视觉多模态推理领域的开源布局。昆仑万维表示,未来将继续致力于模型、数据集及工具的开源化,以降低AI应用门槛,推动全球AI技术的普惠发展。

原创文章,作者:志斌,如若转载,请注明出处:http://damoai.com.cn/archives/9562

(1)
上一篇 2025年3月17日 上午11:41
下一篇 2025年3月19日 下午4:39

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注