大模型之家讯 OpenAI近日推出了名为SWE-bench Verified的代码生成评估基准,以更可靠地评估AI模型在解决现实世界软件问题上的能力。该基准是对现有SWE-bench的改进,专注于更具挑战性的任务。OpenAI在官网博客中表示,随着系统不断接近AGI(通用人工智能),对模型的评估也需相应提升。
大模型之家讯 OpenAI近日推出了名为SWE-bench Verified的代码生成评估基准,以更可靠地评估AI模型在解决现实世界软件问题上的能力。该基准是对现有SWE-bench的改进,专注于更具挑战性的任务。OpenAI在官网博客中表示,随着系统不断接近AGI(通用人工智能),对模型的评估也需相应提升。