阿里通义实验室发布FIPO算法，32B模型推理性能反超o1-mini阿里通义实验室智能计算团队今日正式对外发布了大模型后训练领域的新型算法——FIPO（Future-KL Influenced Policy Optimization）

阿里通义实验室发布FIPO算法，32B模型推理性能反超o1-mini

阿里通义实验室智能计算团队今日正式对外发布了大模型后训练领域的新型算法——FIPO（Future-KL Influenced Policy Optimization）。该算法通过引入创新的“Future-KL”机制，有效解决了纯强化学习（Pure RL）训练过程中普遍存在的“推理长度停滞”技术瓶颈。

在长文本推理与复杂逻辑对齐的训练中，传统强化学习往往难以精准捕捉长序列中的关键决策点。通义团队开发的FIPO算法通过对关键Token实施差异化奖励分配，引导模型在思维链（CoT）生成过程中更具前瞻性。

实验数据显示，在32B规模模型的纯强化学习设定下，搭载FIPO算法的模型性能已率先超越同规模的DeepSeek-Zero-MATH以及OpenAI的o1-mini，标志着国产大模型在逻辑推理与数学计算能力上取得了实质性进展。

当前，大模型竞争的重心正从预训练规模转向推理端的深度对齐。FIPO算法的推出，不仅为解决逻辑推理模型中“思考过程”的质量评估提供了新思路，也预示着开源社区与国产头部实验室在追赶全球顶尖推理模型过程中，正逐步构建起独立的技术演进路径。

via AI新闻资讯 (author: AI Base)