字节跳动豆包团队开源Multi-SWE-bench：多语言代码修复基准

大模型之家讯 4月10日，字节跳动豆包大模型团队正式开源首个多语言类SWE数据集——Multi-SWE-bench。该数据集旨在评估和提升大模型的“自动修 Bug”能力，在原有的SWE-bench基础上首次覆盖了除Python之外的7种主流编程语言，成为面向全栈工程的评测基准。其数据来自GitHub issue，历时近一年构建，以准确测评并提高大模型在高阶编程任务中的智能水平。