OpenAI推出SWE-bench Verified,提升AI模型解决现实软件问题评估可靠性

大模型之家讯 OpenAI近日推出了名为SWE-bench Verified的代码生成评估基准,以更可靠地评估AI模型在解决现实世界软件问题上的能力。该基准是对现有SWE-bench的改进,专注于更具挑战性的任务。OpenAI在官网博客中表示,随着系统不断接近AGI(通用人工智能),对模型的评估也需相应提升。

上一篇:

下一篇:

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注