阿里云通义开源Qwen2.5-Math-PRM，7B尺寸超GPT-4o

大模型之家讯 1月16日，阿里云通义开源了全新的数学推理过程奖励模型Qwen2.5-Math-PRM。据悉，该模型的72B及7B尺寸版本在性能上均大幅超越了同类开源过程奖励模型。尤其在识别推理错误步骤的能力上，Qwen2.5-Math-PRM以7B的小尺寸就成功超越了GPT-4o。此外，通义团队还开源了首个步骤级的评估标准ProcessBench，这一标准填补了大模型推理过程错误评估的空白。