大模型之家讯 4月10日,字节跳动豆包大模型团队正式开源首个多语言类SWE数据集——Multi-SWE-bench。该数据集旨在评估和提升大模型的“自动修 Bug”能力,在原有的SWE-bench基础上首次覆盖了除Python之外的7种主流编程语言,成为面向全栈工程的评测基准。其数据来自GitHub issue,历时近一年构建,以准确测评并提高大模型在高阶编程任务中的智能水平。
大模型之家讯 4月10日,字节跳动豆包大模型团队正式开源首个多语言类SWE数据集——Multi-SWE-bench。该数据集旨在评估和提升大模型的“自动修 Bug”能力,在原有的SWE-bench基础上首次覆盖了除Python之外的7种主流编程语言,成为面向全栈工程的评测基准。其数据来自GitHub issue,历时近一年构建,以准确测评并提高大模型在高阶编程任务中的智能水平。