昆仑万维发布开源代码智能体模型Skywork-SWE-32B 刷新行业修复能力基准

志斌 • 2025年6月20日上午10:26 • 人工智能

大模型之家讯 6月20日，昆仑万维宣布开源其自主研发的代码智能体基座模型Skywork-SWE-32B，在32B参数规模下实现全球领先的仓库级代码修复能力。该模型在SWE-bench Verified基准测试中以38.0%的pass@1准确率创下开源模型纪录，应用测试时扩展技术后更提升至47.0%，性能超越多数主流闭源模型，标志着开源代码智能体技术迈入新阶段。

突破性数据工程：万级真实仓库级任务驱动模型进化

为解决代码智能体领域数据集质量参差、验证机制缺失等痛点，昆仑万维团队历时数月构建了全球最大规模的开源可验证代码修复数据集Skywork-SWE。该数据集包含超1万条来自真实GitHub仓库的高质量任务实例，覆盖主流开源项目及中小型代码库，并通过三阶段自动化流程确保数据可靠性：

昆仑万维发布开源代码智能体模型Skywork-SWE-32B 刷新行业修复能力基准

数据采集与筛选：基于GitHub API抓取15万+仓库元数据，通过Star排名、PR关联性等维度筛选出8472个高价值仓库，最终保留23,389条通过自动化安装验证的任务样本。
执行验证机制：采用分层Docker容器技术，为每个任务生成三级隔离环境，确保修复方案通过单元测试验证，最终产出10,169条有效数据。
智能体轨迹生成：利用商用大模型生成多轮交互轨迹，结合Patch级验证保留8,209条符合真实开发场景的轨迹数据。

这一系统化工程不仅验证了软件工程领域的“数据规模扩展定律”，更为行业提供了首个覆盖完整开发闭环（BUG定位、代码修复、效果验证）的标准化数据集。

性能领跑开源赛道，逼近闭源模型天花板

基于Skywork-SWE数据集训练的Skywork-SWE-32B模型，在代码修复任务中展现出显著优势：

开源模型对比：以38.0%准确率超越Qwen2.5-Coder-32B等同等规模模型，验证数据驱动方法的有效性。
闭源模型竞争：引入测试时扩展技术后，准确率提升至47.0%，领先Claude 3.5 HaiKu（40.6%）、GPT-4.1-mini（23.86%）等主流模型，甚至超越参数量21倍于己的DeepSeek-V3-0324（38.8%）。

在Astropy代码库的实际修复案例中，模型通过分析Issue描述与仓库上下文，精准定位并生成通过全部测试的修复方案，展现了从问题理解到代码落地的全链路能力。