OpenAI推出SWE-bench Verified，提升AI模型解决现实软件问题评估可靠性

大模型之家讯 OpenAI近日推出了名为SWE-bench Verified的代码生成评估基准，以更可靠地评估AI模型在解决现实世界软件问题上的能力。该基准是对现有SWE-bench的改进，专注于更具挑战性的任务。OpenAI在官网博客中表示，随着系统不断接近AGI（通用人工智能），对模型的评估也需相应提升。