最新消息:关注人工智能 AI赋能新媒体运营

阿里通义发布FIPO算法,32B模型推理性能超越o1-mini

科技资讯 admin 浏览

阿里通义推出FIPO算法,让AI推理更像人一样“想得远”

最近,阿里通义实验室的Qwen Pilot团队悄悄发布了一项名叫FIPO的新算法。它不靠堆参数,也不喊“万亿级”口号,而是专注解决一个长期被忽视的问题:AI在解数学题、写证明、做逻辑推理时,常常“想一半就卡住”,明明走对了前几步,后面却越绕越远,甚至原地打转。

FIPO的思路很直接——教AI“看远一点”。就像下棋不能只盯着下一步,解一道复杂的数学题,也得预判接下来十步、二十步会不会走进死胡同。传统强化学习只奖励“当前对了”,FIPO则奖励那些“能为后面铺路”的步骤。哪怕这一步看起来平平无奇,只要它让后面的路变宽了,就给它加分。

怎么做到的?两个关键设计

第一,他们搞了个叫“Future-KL”的机制。简单说,就是让模型在每一步都问自己:“我现在的选择,会让后面更容易找到正确答案吗?”如果答案是肯定的,哪怕这一步没直接得出结果,也会被鼓励。这就像老师不光看孩子这道题做对了没,更看TA有没有养成好的解题习惯。

第二,他们引入了“符号对数概率差”这个新指标,专门用来识别模型是不是在“无效循环”——比如反复尝试相似但错误的路径,像在迷宫里转圈。这个机制能精准揪出这些无效动作,及时刹车,避免浪费算力和时间。

结果很惊人:在没有预训练引导的情况下,一个基础模型用FIPO训练后,平均推理长度突破了10,000个Token——这相当于连续写满几十页数学推导。而过去,大多数模型在几百到几千Token就会“力竭”。

32B模型干翻o1-mini?实测数据说话

最让人意外的是,这个算法不是靠“大模型”取胜的。他们用的是320亿参数的模型——比OpenAI的o1-mini(约150亿)还大,但远小于GPT-4或Claude 3的规模。然而在多个公开数学推理数据集上,它在准确率和推理完整性上,已经能和o1-mini打平,甚至在部分高难度题目上反超。

比如在MATH数据集的高阶代数题中,传统模型经常因为中间步骤跳得太快而算错,FIPO版本却能一步步写清楚,哪怕答案没立刻出来,过程也逻辑严密。一位参与测试的工程师说:“它不像AI,倒像一个认真写草稿的高中生——不急着抄答案,宁可多写几行。”

通义实验室的“慢功夫”

这不是通义第一次在“推理能力”上下功夫。今年3月,他们刚升级了CoPaw 1.0,主打让AI更懂“对话中的逻辑链条”。现在又推出FIPO,明显是把“让AI真正会思考”当成长期目标,而不是追着参数跑。

业内不少人还在比谁的模型参数更大、训练数据更多,但通义似乎在走另一条路:用更聪明的训练方法,让小模型也能“想得深”。这就像不是靠多吃饭长高,而是优化骨骼发育——效率更高,也更可持续。

这对普通人意味着什么?

如果你是学生,未来可能用上一个更耐心、更会写解题过程的AI家教;如果你是程序员,调试代码时AI能帮你一步步理清逻辑,而不是甩给你一句“可能出错了”;如果你是科研人员,它或许能帮你验证一个复杂公式,而不是只给你一个“概率高”的结论。

AI不是要取代人,而是要成为能跟人一起“认真思考”的伙伴。FIPO的出现,让我们看到:真正的智能,不在参数多少,而在能不能把每一步都走踏实。