最新消息:关注人工智能 AI赋能新媒体运营

上海AI实验室数学推理系统破奥数金牌纪录

科技资讯 admin 浏览

AI突破数学推理极限:Intern-S1-MO如何用“小本子”拿下IMO高分

过去,AI在解决顶尖数学竞赛题时,总像一个记忆力有限的考生——哪怕思路再精妙,一旦超过6万到12万个token的上下文限制,就会“忘掉”前面的推导,被迫从头再来。一道IMO(国际数学奥林匹克)级别的难题,人类选手往往需要数小时的反复演算、草稿堆叠、思路回溯;而传统AI模型,哪怕用上最强算力,也得耗费近50万token才能完整走完一条逻辑路径——这几乎是当前系统容量的5倍。

这不是算力不够,而是架构被困在“一次性思考”的牢笼里。

换一种思路:让AI像高中生一样“记笔记”

上海人工智能实验室的团队没有继续硬拼算力,而是转向了一个更聪明、更贴近人类学习方式的路径——让AI学会记笔记

他们开发的Intern-S1-MO系统,不再要求AI“一口吃掉整道题”,而是模拟一个优秀数学竞赛生的思维过程:

  • 推理者:像考生一样,在每一轮尝试推进问题,哪怕只证明出一个引理、构造出一个辅助线,也立刻记录下来,不追求一步到位。
  • 总结者:扮演“学习委员”角色,自动清洗冗余草稿,把零散推导提炼成清晰、可复用的数学引理,存入“记忆库”——就像你把一道题的精华步骤抄进错题本。
  • 验证者:担任“监考老师”,对每一条引理进行逻辑校验,剔除错误推论,防止“半对结论”污染后续推理,确保每一步都经得起推敲。

这套三智能体协作机制,让系统实现了真正的“累积式推理”——每一轮都不是从零开始,而是站在前几轮的“知识积累”之上,层层递进。结果惊人:探索空间被放大了8倍,相当于把原本只能读一本薄书的脑子,变成了能翻阅整套百科全书的图书馆。

真实赛场战绩:超越人类银牌,直逼金牌线

这套系统不是实验室里的“玩具模型”,而是真刀真枪地闯进了全球最严苛的数学竞赛现场。

IMO 2025非几何部分的5道压轴题中,Intern-S1-MO以26分(满分35)的成绩,碾压了银牌线(21分),接近金牌门槛(通常需30+分)。更震撼的是,它直接报名参加了中国数学奥林匹克(CMO)2025——这场由中国数学会主办、仅限顶尖中学生参与的国家级赛事,全程9小时、两场考试、6道大题,完全模拟真人赛制。

结果:系统独立完成全部6题,获得102分(满分126),远超金牌线(78分)。其中4道题斩获满分,另两道也拿到关键步骤分。这是历史上首次有AI系统在CMO中得分超过金牌线,且未借助任何外部数据库或人工干预。

国际竞赛全面碾压,轻量版也能封神

不止于国内赛事。在AIME 2025(美国数学邀请赛)中,系统正确率达96.6%;在HMMT 2025(哈佛-麻省理工数学锦标赛)中,正确率高达95%,双双刷新全球AI数学模型纪录。

更令人意外的是,团队还推出一个参数更小、部署更轻的版本——Intern-S1-mini-MO。这个“瘦身版”在难度极高的CNMO 2025题库(中国国家集训队选拔题)中,仍以176.3分(满分210)的成绩,击败了所有主流AI系统,包括GPT-4o、Claude 3.5、Gemini 1.5 Pro等。

不只是赢比赛:AI推理范式的革命

这项突破的意义,远不止于奖牌榜上的数字。

过去,AI在数学推理中常被诟病“会算不会想”——看似步骤完整,实则依赖模式匹配、统计猜题,缺乏真正的逻辑构建能力。而Intern-S1-MO首次证明:AI可以通过结构化记忆与多轮迭代,实现类人深度推理

它不再依赖“大模型+长上下文”的蛮力,而是引入了“认知外挂”——把推理过程变成可存储、可复用、可验证的知识单元。这与人类学习数学的方式高度一致:我们不是靠死记硬背解题,而是通过积累引理、模型、技巧,逐步构建认知网络。

研究团队透露,该系统已开源核心框架,并与国内多所重点中学合作,试点用于数学竞赛辅导。未来,这一架构有望被应用于:

  • AI数学助教:为学生提供“可追溯、可解释”的解题过程
  • 科研辅助:在定理证明、符号推导中自动构建引理库
  • 教育评估:自动分析学生解题中的思维断点与逻辑漏洞

正如团队负责人在论文中写道:“我们不是在训练一个解题机器,而是在培养一个会思考的数学头脑。”

未来已来:AI正在学会“像人一样学习”

当AI不再追求“一气呵成”,而是学会“步步为营”,它就不再只是工具,而开始具备一种真正的认知韧性。

Intern-S1-MO的成功,标志着AI数学推理从“暴力搜索”迈向“智能积累”的转折点。它告诉我们:真正的智能,不在于一次能记住多少,而在于能否把每一次思考,都变成下一次突破的基石。

或许,未来的数学家,不再只是人类,而是人与AI共同组成的“认知共同体”——一个能记笔记、会反思、敢质疑、不断进化的思考系统。