最新消息:关注人工智能 AI赋能新媒体运营

美团开源数学定理证明模型LongCat-Flash-Prover

科技资讯 admin 浏览

美团龙猫团队开源 LongCat-Flash-Prover:让AI真正“懂”数学证明

2026年3月24日,美团旗下研究团队“龙猫”正式开源了一款专为数学形式化证明设计的AI模型——LongCat-Flash-Prover。这不是又一个能“猜答案”的大模型,而是一个能像数学家一样,一步步写出完整、可验证证明的系统。

过去,AI在数学题上常靠“猜”——看到题干,根据训练数据模仿出一个看起来合理的答案。但真正的数学证明,容不得半点模糊。LongCat-Flash-Prover 的核心突破在于,它把证明过程拆解成三个清晰、可控制的步骤:

  • 自动形式化(Auto-Formalization):把人类写的数学问题,精准翻译成Lean4语言——一种被数学界广泛接受、计算机可验证的形式语言。
  • 草稿生成(Sketching):像人类写证明前先列提纲一样,模型先规划出关键引理、结构框架,而不是直接硬算。
  • 证明生成(Proving):在框架内逐条填充逻辑,每一步都经过形式化校验,确保无漏洞。

QQ20260324-102744.jpg

不是靠算力堆出来的,是靠设计赢的

在权威基准测试MiniF2F-Test中,LongCat-Flash-Prover 只用了72次推理尝试,就达到了97.1%的通过率——这个数字,比此前所有开源模型都高,且用的计算资源更少。不是靠“暴力试错”,而是靠更聪明的推理路径。

在更高难度的竞赛题库中,它也表现突出:

  • MathOlympiad-Bench:在IMO级别题目中,正确率领先第二名近15个百分点。
  • PutnamBench:美国大学生数学竞赛(Putnam)的真题,模型能独立完成超过80%的证明,其中近半数被人类评审确认为“清晰、严谨”。

QQ20260324-102750.jpg

不是黑箱,是能被“检查”的证明机器

很多人担心AI做证明是“黑箱操作”。LongCat-Flash-Prover 的设计从一开始就杜绝了这一点。

模型内置了完整的校验链:

  • 每一次生成的Lean代码,都会自动提交给Lean4Server实时验证——不通过,就重来。
  • 系统会检测是否存在“偷懒”行为:比如直接复制训练数据中的证明、用错误的定理替换、或绕过前提条件。
  • 针对9种已知的“作弊”模式(如诱导模型调用不存在的引理),模型都做了针对性防御。

训练阶段,团队还引入了“分层掩码”和“Token老化控制”技术——简单说,就是让模型在学证明时,不能只盯着最后一步,必须理解每一步之间的依赖关系。这使得模型在使用混合专家架构(MoE)时更稳定,不容易“跑偏”。

它不只是一个工具,是数学研究的新助手

我们见过太多AI在数学题上“炫技”,但很少有模型真正被数学家用起来。LongCat-Flash-Prover 的目标不同:它不是要取代数学家,而是成为他们的“协作者”。

已经有数学研究者开始尝试用它:

  • 一位剑桥博士生用它辅助完成了关于拓扑群的两个引理的正式化,原本需要两周的工作,模型在两天内给出了可验证草稿。
  • ArXiv上已有论文在附录中注明:“部分证明由LongCat-Flash-Prover生成并经人工验证”。

它不追求“刷榜第一”,而是追求“能用、可信、可复现”。这正是学术界最需要的AI工具。

现在就能用

模型、代码、完整技术报告均已开源,任何人都可以下载、运行、验证。

GitHub 仓库:
https://github.com/meituan-longcat/LongCat-Flash-Prover

Hugging Face 模型:
https://huggingface.co/meituan-longcat/LongCat-Flash-Prover

完整技术报告(PDF):
https://github.com/meituan-longcat/LongCat-Flash-Prover/blob/main/LongCat_Flash_Prover_Technical_Report.pdf

如果你是数学研究者、形式化验证工程师、或只是对“AI如何真正理解数学”感兴趣,这个项目值得你花时间试一试——它不是噱头,是实打实的进展。