字节跳动豆包团队开源Multi-SWE-bench:多语言代码修复基准

大模型之家讯 4月10日,字节跳动豆包大模型团队正式开源首个多语言类SWE数据集——Multi-SWE-bench。该数据集旨在评估和提升大模型的“自动修 Bug”能力,在原有的SWE-bench基础上首次覆盖了除Python之外的7种主流编程语言,成为面向全栈工程的评测基准。其数据来自GitHub issue,历时近一年构建,以准确测评并提高大模型在高阶编程任务中的智能水平。

上一篇:

下一篇:

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注