阿里通义实验室发布FIPO算法，实现纯强化学习性能突破

大模型之家讯 4月7日消息，阿里通义实验室智能计算团队宣布推出新型算法FIPO（Future-KL Influenced Policy Optimization），通过引入Future-KL机制，对关键Token进行动态奖励，有效解决了纯强化学习训练中“推理长度停滞”的核心难题。该算法在32B规模的纯RL设定下，首次实现对o1-mini及同规模DeepSeek-Zero-MATH模型的性能反超，展现出更强的推理能力与稳定性。