最新消息:关注人工智能 AI赋能新媒体运营

阿里通义推出FIPO算法,显著提升大模型推理性能

科技资讯 admin 浏览

阿里通义实验室推出FIPO算法,让大模型“想得更深”

你有没有发现,现在的AI模型虽然能写长文、解数学题,但常常在中间卡住——写到一半突然重复、绕圈、甚至放弃?这不是偶然,而是当前强化学习训练方式的硬伤:模型分不清哪些步骤真正关键,哪些只是无意义的“废话”。

阿里通义实验室的Qwen Pilot团队最近上线了一种叫FIPO(Future-KL Influenced Policy Optimization)的新算法,不靠堆参数、不靠更大模型,而是直接解决这个“想不透”的问题——它能精准识别:哪一步推理,才是真正推动答案走向正确方向的“关键一步”。

image.png

为什么传统方法“抓不准重点”

过去,像RLVR这类强化学习方法,是给模型一个整体奖励:你答对了,给你加分;答错了,扣分。但问题来了——中间那几十、几百个Token里,到底哪个字、哪句话,才是决定成败的?

团队发现,90%以上的Token在训练前后根本没变。就像你教学生做数学题,他写了20步,你只说“对了”或“错了”,但他不知道哪一步该改、哪一步该保留。结果就是:模型越练越长,但越长越空。

更尴尬的是,行业常用的熵、KL散度这些指标,根本测不出“关键变化”。它们像一把钝刀,切不开真正的问题。

FIPO怎么做到“一针见血”

FIPO的突破,来自一个简单但有效的思路:不是只看“现在对不对”,而是看“接下来会不会有大变化”。

它引入了“Future-KL”机制——追踪每个Token对后续推理路径的影响力。如果某个词的出现,让模型后续的思考方向发生明显偏移(比如从错误路径拉回正轨),那这个Token就值得奖励。反之,那些反复啰嗦、毫无作用的词,系统会自动压低它们的权重。

为了精准捕捉这种“影响”,团队没用老办法,而是改用“符号对数概率差”(Δlog p)——简单说,就是看模型在某个Token之后,对正确答案的信心是突然飙升了,还是慢慢下滑了。这个指标,像一根温度计,能真实反映出“思维转折点”。

image.png

实测:32B模型,干翻行业标杆

他们拿Qwen2.5-32B-Base这个“纯基础模型”(没用任何预训练微调)做实验,没加任何额外数据,只用FIPO训练。

结果惊人:

  • 平均推理长度突破10,000 Token——是以往同类模型的3倍以上;
  • 在MATH、GSM8K等高难度数学推理任务上,准确率超过o1-mini和DeepSeek-Zero-MATH,而它们都是专门优化过的模型;
  • 模型不再“写长文但没逻辑”,而是能真正一步步推导,甚至能处理多步骤的竞赛级题目。

这不是“更长的废话”,是“更深入的思考”。

对普通用户意味着什么?

如果你用AI写论文、解题、分析财报,你不需要它说一百句话,你只需要它在关键时刻说对一句。

FIPO的意义,不只是技术突破,更是体验升级:未来的AI,不会再让你反复追问“你到底想表达什么?”,而是能像一个靠谱的助手一样,自己理清逻辑、抓住重点、一步到位。

它不再追求“看起来很聪明”,而是真的“想得明白”。

这项技术目前尚未开源,但团队已表示,将在后续Qwen系列模型中逐步落地。如果你正在用AI处理复杂任务——别急着换模型,下一个版本,可能已经悄悄变强了。