最新消息:关注人工智能 AI赋能新媒体运营

美团发布新一代大模型LongCat-Flash-Thinking-2601

科技资讯 admin 浏览

美团发布LongCat-Flash-Thinking-2601:重新定义AI代理的思考能力

今天,美团正式推出业内首款专为“深度代理思维”打造的大型推理模型——LongCat-Flash-Thinking-2601。这不是又一个参数更大的语言模型,而是一台能像人类一样“拆解问题、多线并行、反复推敲、应对混乱”的智能代理引擎。它在不完美、高噪声的真实环境中,展现出远超现有模型的稳定性和策略性思考能力。

5600亿参数不是噱头,而是为“思考”而生的架构

LongCat-Flash-Thinking-2601基于创新的混合专家(MoE)架构,总参数达5600亿,但每次推理仅激活270亿参数,在保持高性能的同时大幅降低推理成本。这一设计让它既能处理复杂任务,又能高效部署——比同级别dense模型节省约40%的推理资源。

与传统模型“单线程逐字生成”不同,LongCat-Flash-Thinking-2601的核心是“思考流”。它不是回答问题,而是模拟一个智能体在真实世界中“做决策”:规划、试错、反思、调整。这使其在代理任务中的表现,不再是“猜答案”,而是“走对路”。

训练场不是数据集,是60+工具组成的“数字城市”

开发团队构建了超过20个高度仿真的虚拟环境,每个环境都包含60种以上真实工具(如API调用、数据库查询、网页浏览、文件操作等),并通过密集依赖图模拟现实世界中工具间的复杂联动。

这套名为DORA的强化学习平台,首次实现大规模多环境并行训练。模型在“电商下单”“跨平台数据整合”“多步骤客服处理”等任务间动态切换,学习到的不是固定模板,而是可迁移的“通用代理技能”。例如,学会在电商环境中使用优惠券,就能迁移到旅行平台的机票比价逻辑中。

它不怕“乱”——全球首个系统性对抗现实噪声的AI

现实世界从不完美。网络延迟、API报错、信息模糊、工具响应不一致……这些才是代理系统真正的敌人。

LongCat-Flash-Thinking-2601是首个在训练中系统注入真实噪声的模型。团队分析了12类现实噪声源(如API返回乱码、网页结构突变、工具响应延迟等),并构建自动化管道,在训练中动态注入。从轻微干扰到严重故障,模型通过“课程学习”逐步适应——就像让司机从模拟器练到暴雨夜山路驾驶。

在权威噪声基准Vita-Noise和Tau?-Noise中,LongCat-Flash-Thinking-2601的鲁棒性得分领先第二名17.3%,即使在工具失效30%的情况下,仍能完成82%的复杂任务。

Heavy Thinking模式:像人类一样“边想边改”

传统模型一次推理,一条路径,错了就重来。LongCat-Flash-Thinking-2601采用“Heavy Thinking”双阶段模式:

  • 并行探索:同时生成5–8条独立推理轨迹,像多个专家同时头脑风暴。
  • 递归精炼:每条轨迹可被反馈回系统,作为新输入进行深度迭代,形成“思考循环”——例如,先查天气,再查航班,发现延误后自动重算行程,再联系酒店改签,全程无需人工干预。

配合专门设计的强化学习奖励机制,模型能自主判断“哪条路径更值得深挖”,真正实现“深度+广度”双突破。

实测表现:超越Claude Opus 4.5,数学、搜索、工具使用全面领先

在多个权威基准测试中,LongCat-Flash-Thinking-2601的表现令人震撼:

  • AIME-25数学推理:99.6 / 100.0 —— 几乎零失误,超越GPT-4o和Gemini 2.0 Pro
  • 代理搜索 BrowseComp:73.1 —— 在多跳查询、网页筛选、信息整合中表现最优
  • 工具使用 τ?-Avg:88.2 —— 正确调用API、处理错误、恢复流程的能力业界第一
  • 随机复杂任务(Random Complex Tasks):35.8 —— 超越Claude Opus 4.5(31.2),这是首个在开放、无预设路径的任务中击败顶级闭源模型的开源代理系统

在一段真实测试中,模型被要求:“帮我找一家北京三里屯附近、评分4.8以上、能预订今晚7点双人位、支持美团支付、且有素食选项的意大利餐厅,如果没位置,自动联系客服询问是否能加位。”——它在1分17秒内完成全部流程,包括客服对话模拟和支付路径确认。

即将上线:百万Token上下文,Zigzag Attention技术

为应对长程依赖和复杂任务链,团队正研发革命性的“Zigzag Attention”技术,可高效处理超过100万Token的上下文,实现跨文档、跨会话、跨工具的长期记忆与推理。该技术将在未来两周内随模型更新开放,届时模型将能完整阅读并分析整本财报、数十页合同或长达数小时的会议录音。

现在就能体验

LongCat-Flash-Thinking-2601已正式开放试用,无需排队:

???? 在线体验:https://longcat.ai/

???? API接入:https://api.longcat.ai/docs

???? Hugging Face模型库:https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking-2601

???? GitHub开源代码与训练脚本:https://github.com/meituan-longcat/LongCat-Flash-Thinking-2601

我们相信,真正的AI不是“回答得更快”,而是“想得更深”。LongCat-Flash-Thinking-2601,是迈向通用代理智能的一次关键跃迁。