阿里通义发布FIPO算法，32B模型推理性能超越o1-mini

阿里通义推出FIPO算法，让AI推理更像人一样“想得远”

最近，阿里通义实验室的Qwen Pilot团队悄悄发布了一项名叫FIPO的新算法。它不靠堆参数，也不喊“万亿级”口号，而是专注解决一个长期被忽视的问题：AI在解数学题、写证明、做逻辑推理时，常常“想一半就卡住”，明明走对了前几步，后面却越绕越远，甚至原地打转。

FIPO的思路很直接——教AI“看远一点”。就像下棋不能只盯着下一步，解一道复杂的数学题，也得预判接下来十步、二十步会不会走进死胡同。传统强化学习只奖励“当前对了”，FIPO则奖励那些“能为后面铺路”的步骤。哪怕这一步看起来平平无奇，只要它让后面的路变宽了，就给它加分。

第一，他们搞了个叫“Future-KL”的机制。简单说，就是让模型在每一步都问自己：“我现在的选择，会让后面更容易找到正确答案吗？”如果答案是肯定的，哪怕这一步没直接得出结果，也会被鼓励。这就像老师不光看孩子这道题做对了没，更看TA有没有养成好的解题习惯。

第二，他们引入了“符号对数概率差”这个新指标，专门用来识别模型是不是在“无效循环”——比如反复尝试相似但错误的路径，像在迷宫里转圈。这个机制能精准揪出这些无效动作，及时刹车，避免浪费算力和时间。

结果很惊人：在没有预训练引导的情况下，一个基础模型用FIPO训练后，平均推理长度突破了10,000个Token——这相当于连续写满几十页数学推导。而过去，大多数模型在几百到几千Token就会“力竭”。

最让人意外的是，这个算法不是靠“大模型”取胜的。他们用的是320亿参数的模型——比OpenAI的o1-mini（约150亿）还大，但远小于GPT-4或Claude 3的规模。然而在多个公开数学推理数据集上，它在准确率和推理完整性上，已经能和o1-mini打平，甚至在部分高难度题目上反超。

比如在MATH数据集的高阶代数题中，传统模型经常因为中间步骤跳得太快而算错，FIPO版本却能一步步写清楚，哪怕答案没立刻出来，过程也逻辑严密。一位参与测试的工程师说：“它不像AI，倒像一个认真写草稿的高中生——不急着抄答案，宁可多写几行。”

这不是通义第一次在“推理能力”上下功夫。今年3月，他们刚升级了CoPaw 1.0，主打让AI更懂“对话中的逻辑链条”。现在又推出FIPO，明显是把“让AI真正会思考”当成长期目标，而不是追着参数跑。

业内不少人还在比谁的模型参数更大、训练数据更多，但通义似乎在走另一条路：用更聪明的训练方法，让小模型也能“想得深”。这就像不是靠多吃饭长高，而是优化骨骼发育——效率更高，也更可持续。

如果你是学生，未来可能用上一个更耐心、更会写解题过程的AI家教；如果你是程序员，调试代码时AI能帮你一步步理清逻辑，而不是甩给你一句“可能出错了”；如果你是科研人员，它或许能帮你验证一个复杂公式，而不是只给你一个“概率高”的结论。

AI不是要取代人，而是要成为能跟人一起“认真思考”的伙伴。FIPO的出现，让我们看到：真正的智能，不在参数多少，而在能不能把每一步都走踏实。