通义实验室发布FIPO算法，32B模型推理性能超越o1-mini

阿里通义实验室发布FIPO算法，突破大模型推理“长跑瓶颈”

今天，阿里通义实验室智能计算团队正式推出一项名为FIPO（Future-KL Influenced Policy Optimization）的新训练算法，专门解决大模型在长文本推理中“越写越卡”的老问题。简单说，就是让模型在一步步思考时，不再“走一步看一步”，而是能“往前多看几步”。

过去，用纯强化学习训练大模型做数学题或逻辑推理时，模型常常在生成长思维链（CoT）时陷入僵局：前面写得不错，越到后面越乱，甚至重复、跑偏。这不是模型“笨”，而是奖励机制太短视——它只看当前这一步有没有“对”，却不管后面会不会崩盘。

FIPO的突破点，就在于引入了“Future-KL”机制。它不只奖励“当前答案对”，还会评估模型当前的思考路径，是否在为后续正确推理铺路。比如，当模型在解一道数学题时，如果它在第三步就选了一个看似合理、但会导致后面无解的分支，系统会提前给它“扣分”；反之，如果它在早期就做了有长远价值的推理选择，哪怕暂时没出结果，也会获得正向激励。

实测数据很硬：在320亿参数规模下，使用FIPO训练的模型，在MATH、GSM8K等数学推理基准上，准确率全面超越DeepSeek-Zero-MATH和OpenAI的o1-mini。这不是小幅度提升，而是首次在同等规模下，国产模型在纯强化学习框架下实现反超。

不只是数学题，而是让AI“想得更深”

这项技术的意义，远不止于解题。它真正解决的是大模型“思考质量”评估的难题——我们怎么知道AI是不是真懂了，还是只是在“猜”？FIPO让模型的推理过程变得可引导、可优化，而不仅仅是输出结果对就行。

目前，全球大模型的竞争，已经从“谁参数更大”转向“谁更会思考”。OpenAI的o1系列、DeepSeek的推理模型、Google的Gemini 1.5 Pro，都在拼命优化推理链。而FIPO的出现，意味着中国团队不再只是跟跑，而是开始定义新方向：用更聪明的训练机制，而不是堆算力，来提升模型的逻辑能力。

更值得关注的是，这套算法已开源部分核心代码，并计划在Q3向社区开放训练模板。这意味着，高校团队、中小企业甚至个人开发者，未来都有可能用较低成本复现类似效果，不再被大厂的算力门槛卡住脖子。

国产AI的“思考力”正在崛起

过去我们总说“中国缺芯片”，现在我们发现，缺的可能不是算力，而是对“智能本质”的理解。FIPO不是靠更多数据、更多GPU堆出来的，而是来自团队对“人类如何思考”的观察——我们做题时，会预判步骤、会回头修正、会避开死胡同。FIPO，就是把这种“前瞻性思维”教给了AI。

这不是一次孤立的技术突破，而是一个信号：国产大模型正在从“模仿者”变成“创新者”。它不再只盯着谁的参数更大、谁的训练数据更多，而是开始回答一个更根本的问题：怎样让AI真正“想得清楚”？

如果你关注AI的下一步，这可能是今年最值得留意的一次突破——不是因为它的参数多，而是因为它让AI，开始像人一样思考了。

FIPO Future-KL 纯强化学习思维链优化

CB科技站

通义实验室发布FIPO算法，32B模型推理性能超越o1-mini

阿里通义实验室发布FIPO算法，突破大模型推理“长跑瓶颈”

不只是数学题，而是让AI“想得更深”

国产AI的“思考力”正在崛起

与本文相关的文章