昆仑万维发布开源代码智能体模型Skywork-SWE-32B 刷新行业修复能力基准

大模型之家讯 6月20日,昆仑万维宣布开源其自主研发的代码智能体基座模型Skywork-SWE-32B,在32B参数规模下实现全球领先的仓库级代码修复能力。该模型在SWE-bench Verified基准测试中以38.0%的pass@1准确率创下开源模型纪录,应用测试时扩展技术后更提升至47.0%,性能超越多数主流闭源模型,标志着开源代码智能体技术迈入新阶段。

突破性数据工程:万级真实仓库级任务驱动模型进化

为解决代码智能体领域数据集质量参差、验证机制缺失等痛点,昆仑万维团队历时数月构建了全球最大规模的开源可验证代码修复数据集Skywork-SWE。该数据集包含超1万条来自真实GitHub仓库的高质量任务实例,覆盖主流开源项目及中小型代码库,并通过三阶段自动化流程确保数据可靠性:

昆仑万维发布开源代码智能体模型Skywork-SWE-32B 刷新行业修复能力基准
  1. 数据采集与筛选:基于GitHub API抓取15万+仓库元数据,通过Star排名、PR关联性等维度筛选出8472个高价值仓库,最终保留23,389条通过自动化安装验证的任务样本。
  2. 执行验证机制:采用分层Docker容器技术,为每个任务生成三级隔离环境,确保修复方案通过单元测试验证,最终产出10,169条有效数据。
  3. 智能体轨迹生成:利用商用大模型生成多轮交互轨迹,结合Patch级验证保留8,209条符合真实开发场景的轨迹数据。
昆仑万维发布开源代码智能体模型Skywork-SWE-32B 刷新行业修复能力基准

这一系统化工程不仅验证了软件工程领域的“数据规模扩展定律”,更为行业提供了首个覆盖完整开发闭环(BUG定位、代码修复、效果验证)的标准化数据集。

性能领跑开源赛道,逼近闭源模型天花板

基于Skywork-SWE数据集训练的Skywork-SWE-32B模型,在代码修复任务中展现出显著优势:

昆仑万维发布开源代码智能体模型Skywork-SWE-32B 刷新行业修复能力基准
  • 开源模型对比:以38.0%准确率超越Qwen2.5-Coder-32B等同等规模模型,验证数据驱动方法的有效性。
  • 闭源模型竞争:引入测试时扩展技术后,准确率提升至47.0%,领先Claude 3.5 HaiKu(40.6%)、GPT-4.1-mini(23.86%)等主流模型,甚至超越参数量21倍于己的DeepSeek-V3-0324(38.8%)。

在Astropy代码库的实际修复案例中,模型通过分析Issue描述与仓库上下文,精准定位并生成通过全部测试的修复方案,展现了从问题理解到代码落地的全链路能力。

开源生态赋能行业,布局下一代智能开发范式

作为昆仑万维“天工超级智能体”战略的最新成果,Skywork-SWE-32B延续了公司一贯的开源策略,其技术报告、模型权重及数据集已全面开放。研究团队指出,未来将重点拓展多语言支持与强化学习机制,通过运行时测试反馈进一步提升模型在复杂工程场景中的表现。

昆仑万维发布开源代码智能体模型Skywork-SWE-32B 刷新行业修复能力基准

行业分析师认为,该模型的发布不仅为中小企业降低了AI辅助开发门槛,更验证了开源模式在代码智能体领域的可行性。随着2025年被视为“智能体元年”,Skywork-SWE-32B或将成为推动软件开发范式从“人工编码”向“人机协同”转型的关键基础设施。

原创文章,作者:志斌,如若转载,请注明出处:http://damoai.com.cn/archives/10864

(0)
上一篇 1天前
下一篇 8小时前

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注