大模型之家讯 1月16日,阿里云通义开源了全新的数学推理过程奖励模型Qwen2.5-Math-PRM。据悉,该模型的72B及7B尺寸版本在性能上均大幅超越了同类开源过程奖励模型。尤其在识别推理错误步骤的能力上,Qwen2.5-Math-PRM以7B的小尺寸就成功超越了GPT-4o。此外,通义团队还开源了首个步骤级的评估标准ProcessBench,这一标准填补了大模型推理过程错误评估的空白。
大模型之家讯 1月16日,阿里云通义开源了全新的数学推理过程奖励模型Qwen2.5-Math-PRM。据悉,该模型的72B及7B尺寸版本在性能上均大幅超越了同类开源过程奖励模型。尤其在识别推理错误步骤的能力上,Qwen2.5-Math-PRM以7B的小尺寸就成功超越了GPT-4o。此外,通义团队还开源了首个步骤级的评估标准ProcessBench,这一标准填补了大模型推理过程错误评估的空白。