大模型之家讯 4月7日消息,阿里通义实验室智能计算团队宣布推出新型算法FIPO(Future-KL Influenced Policy Optimization),通过引入Future-KL机制,对关键Token进行动态奖励,有效解决了纯强化学习训练中“推理长度停滞”的核心难题。该算法在32B规模的纯RL设定下,首次实现对o1-mini及同规模DeepSeek-Zero-MATH模型的性能反超,展现出更强的推理能力与稳定性。
大模型之家讯 4月7日消息,阿里通义实验室智能计算团队宣布推出新型算法FIPO(Future-KL Influenced Policy Optimization),通过引入Future-KL机制,对关键Token进行动态奖励,有效解决了纯强化学习训练中“推理长度停滞”的核心难题。该算法在32B规模的纯RL设定下,首次实现对o1-mini及同规模DeepSeek-Zero-MATH模型的性能反超,展现出更强的推理能力与稳定性。