阿里通义实验室发布FIPO算法,实现纯强化学习性能突破

大模型之家讯 4月7日消息,阿里通义实验室智能计算团队宣布推出新型算法FIPO(Future-KL Influenced Policy Optimization),通过引入Future-KL机制,对关键Token进行动态奖励,有效解决了纯强化学习训练中“推理长度停滞”的核心难题。该算法在32B规模的纯RL设定下,首次实现对o1-mini及同规模DeepSeek-Zero-MATH模型的性能反超,展现出更强的推理能力与稳定性。

上一篇:

下一篇:

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注