最新消息:关注人工智能 AI赋能新媒体运营

美团开源LongCat-Flash-Thinking-2601,全面提升工具调用能力

科技资讯 admin 浏览

LongCat-Flash-Thinking-2601 正式开源:更强、更实用、免费用

今天,美团 LongCat 团队正式开源了最新一代 AI 模型 —— LongCat-Flash-Thinking-2601。这不是又一个“参数更大”的模型,而是一个真正能帮你干活的工具。它在工具调用、复杂任务处理和真实场景适应能力上,已经做到当前开源模型中的顶尖水平。

QQ20260116-135826.png

不是只会聊天,是真能“动手”

过去很多AI模型,说起来头头是道,一让你查个机票、调个API、跑个代码,就卡壳。LongCat-Flash-Thinking-2601 的核心突破,就是让它能像人一样“动起来”——准确调用搜索、数据库、编程环境、API接口,完成一整套连贯操作。

举个例子:你问它“帮我找最近三家评价4.5分以上的日料店,订今晚7点的位子,再顺手买张地铁票”,它不是给你列个清单,而是真的去查、去订、去生成支付链接。这套能力,让开发者不再需要为每个新工具单独训练模型,省下大量重复开发时间。

“重思考模式”免费开放,像人一样慢下来想清楚

你可以在 https://longcat.ai 直接体验它的“重思考模式”——这是业内首个开源的、可在线试用的深度思考机制。

在这个模式下,模型不会急着给你答案。它会先并行展开多个思路,像人在脑中模拟不同方案;然后停下来,把所有信息整合、验证、排除错误选项,再给出最终结果。这个过程虽然慢几秒,但准确率和可靠性大幅提升。特别适合做财务分析、技术方案比选、多步骤决策这类高风险任务。

QQ20260116-135848.png

实打实的成绩:编程满分,数学拿高分

我们不靠宣传语,靠数据说话:

  • 编程能力(LCB评测):82.8分 —— 在开源模型中排第一,能独立写完整项目,包括调试和注释
  • 数学推理(AIME-25):100分满分 —— 能解奥数题、建模题,连复杂证明都能一步步推导
  • 工具调用成功率:在1000+真实场景测试中,平均成功率达91.7%,远超同类模型

这些不是“模拟题”,而是真实环境下的硬核测试。比如在编程评测中,它不仅要写出对的代码,还要能处理输入异常、文件路径错误、依赖包缺失等现实问题。

怎么练出来的?不是堆数据,是逼它“闯关”

团队没用“海量数据”堆出来,而是设计了一套“模拟战场”:

  • 训练环境从10个扩展到150+个,涵盖电商、金融、地图、API网关等真实系统
  • 故意在训练中加入“API宕机”“返回乱码”“网络超时”等故障,逼模型学会兜底
  • 用自动化系统生成数万条“没人写过”的复杂任务,比如“对比三家银行的留学贷款,选最优方案并生成PDF报告”

结果就是:你给它一个从来没见过的任务,它也不慌,能拆解、能找工具、能试错、能修正。

开发者福利:全开源,零门槛

我们不藏私。你不需要申请权限,也不用等审核:

  • 模型权重:已开放在 Hugging Face、ModelScope 和 GitHub
  • 推理代码:包含完整部署脚本,支持本地运行和API服务
  • 在线体验:直接访问 https://longcat.ai,不用注册,免费用

无论是想做智能客服、自动化报表、科研助手,还是想搭建自己的AI代理,都可以直接拿去用。我们还准备了详细的中文使用文档和常见问题解答,帮你快速上手。

下一步:我们邀请你一起改进

这个模型不是终点,而是起点。我们欢迎开发者提交新任务、反馈错误、贡献工具插件。如果你发现它在某个场景下表现不好,别等我们改——你来修,我们来合并。

开源地址:https://github.com/Meituan-LongCat/LongCat-Flash-Thinking-2601

别再问“AI能帮我做什么”了。现在,它已经能做了。你只需要试试。