最新消息:关注人工智能 AI赋能新媒体运营

通义实验室发布FIPO算法,32B模型推理性能超越o1-mini

科技资讯 admin 浏览

阿里通义实验室发布FIPO算法,突破大模型推理“长跑瓶颈”

今天,阿里通义实验室智能计算团队正式推出一项名为FIPO(Future-KL Influenced Policy Optimization)的新训练算法,专门解决大模型在长文本推理中“越写越卡”的老问题。简单说,就是让模型在一步步思考时,不再“走一步看一步”,而是能“往前多看几步”。

过去,用纯强化学习训练大模型做数学题或逻辑推理时,模型常常在生成长思维链(CoT)时陷入僵局:前面写得不错,越到后面越乱,甚至重复、跑偏。这不是模型“笨”,而是奖励机制太短视——它只看当前这一步有没有“对”,却不管后面会不会崩盘。

FIPO的突破点,就在于引入了“Future-KL”机制。它不只奖励“当前答案对”,还会评估模型当前的思考路径,是否在为后续正确推理铺路。比如,当模型在解一道数学题时,如果它在第三步就选了一个看似合理、但会导致后面无解的分支,系统会提前给它“扣分”;反之,如果它在早期就做了有长远价值的推理选择,哪怕暂时没出结果,也会获得正向激励。

实测数据很硬:在320亿参数规模下,使用FIPO训练的模型,在MATH、GSM8K等数学推理基准上,准确率全面超越DeepSeek-Zero-MATH和OpenAI的o1-mini。这不是小幅度提升,而是首次在同等规模下,国产模型在纯强化学习框架下实现反超。

不只是数学题,而是让AI“想得更深”

这项技术的意义,远不止于解题。它真正解决的是大模型“思考质量”评估的难题——我们怎么知道AI是不是真懂了,还是只是在“猜”?FIPO让模型的推理过程变得可引导、可优化,而不仅仅是输出结果对就行。

目前,全球大模型的竞争,已经从“谁参数更大”转向“谁更会思考”。OpenAI的o1系列、DeepSeek的推理模型、Google的Gemini 1.5 Pro,都在拼命优化推理链。而FIPO的出现,意味着中国团队不再只是跟跑,而是开始定义新方向:用更聪明的训练机制,而不是堆算力,来提升模型的逻辑能力。

更值得关注的是,这套算法已开源部分核心代码,并计划在Q3向社区开放训练模板。这意味着,高校团队、中小企业甚至个人开发者,未来都有可能用较低成本复现类似效果,不再被大厂的算力门槛卡住脖子。

国产AI的“思考力”正在崛起

过去我们总说“中国缺芯片”,现在我们发现,缺的可能不是算力,而是对“智能本质”的理解。FIPO不是靠更多数据、更多GPU堆出来的,而是来自团队对“人类如何思考”的观察——我们做题时,会预判步骤、会回头修正、会避开死胡同。FIPO,就是把这种“前瞻性思维”教给了AI。

这不是一次孤立的技术突破,而是一个信号:国产大模型正在从“模仿者”变成“创新者”。它不再只盯着谁的参数更大、谁的训练数据更多,而是开始回答一个更根本的问题:怎样让AI真正“想得清楚”?

如果你关注AI的下一步,这可能是今年最值得留意的一次突破——不是因为它的参数多,而是因为它让AI,开始像人一样思考了。