阿里通义推出FIPO算法，显著提升大模型推理性能

阿里通义实验室推出FIPO算法，让大模型“想得更深”

你有没有发现，现在的AI模型虽然能写长文、解数学题，但常常在中间卡住——写到一半突然重复、绕圈、甚至放弃？这不是偶然，而是当前强化学习训练方式的硬伤：模型分不清哪些步骤真正关键，哪些只是无意义的“废话”。

阿里通义实验室的Qwen Pilot团队最近上线了一种叫FIPO（Future-KL Influenced Policy Optimization）的新算法，不靠堆参数、不靠更大模型，而是直接解决这个“想不透”的问题——它能精准识别：哪一步推理，才是真正推动答案走向正确方向的“关键一步”。

过去，像RLVR这类强化学习方法，是给模型一个整体奖励：你答对了，给你加分；答错了，扣分。但问题来了——中间那几十、几百个Token里，到底哪个字、哪句话，才是决定成败的？

团队发现，90%以上的Token在训练前后根本没变。就像你教学生做数学题，他写了20步，你只说“对了”或“错了”，但他不知道哪一步该改、哪一步该保留。结果就是：模型越练越长，但越长越空。

更尴尬的是，行业常用的熵、KL散度这些指标，根本测不出“关键变化”。它们像一把钝刀，切不开真正的问题。

FIPO的突破，来自一个简单但有效的思路：不是只看“现在对不对”，而是看“接下来会不会有大变化”。

它引入了“Future-KL”机制——追踪每个Token对后续推理路径的影响力。如果某个词的出现，让模型后续的思考方向发生明显偏移（比如从错误路径拉回正轨），那这个Token就值得奖励。反之，那些反复啰嗦、毫无作用的词，系统会自动压低它们的权重。

为了精准捕捉这种“影响”，团队没用老办法，而是改用“符号对数概率差”（Δlog p）——简单说，就是看模型在某个Token之后，对正确答案的信心是突然飙升了，还是慢慢下滑了。这个指标，像一根温度计，能真实反映出“思维转折点”。

他们拿Qwen2.5-32B-Base这个“纯基础模型”（没用任何预训练微调）做实验，没加任何额外数据，只用FIPO训练。

结果惊人：

这不是“更长的废话”，是“更深入的思考”。

如果你用AI写论文、解题、分析财报，你不需要它说一百句话，你只需要它在关键时刻说对一句。

FIPO的意义，不只是技术突破，更是体验升级：未来的AI，不会再让你反复追问“你到底想表达什么？”，而是能像一个靠谱的助手一样，自己理清逻辑、抓住重点、一步到位。

它不再追求“看起来很聪明”，而是真的“想得明白”。

这项技术目前尚未开源，但团队已表示，将在后续Qwen系列模型中逐步落地。如果你正在用AI处理复杂任务——别急着换模型，下一个版本，可能已经悄悄变强了。