美团发布原生多模态大模型 LongCat-Next,让AI真正“看懂”和“听清”世界
4月3日,美团技术团队正式开源了名为 LongCat-Next 的原生多模态大模型。这不是又一个“加个图像模块”的拼凑系统,而是一个从底层重构的AI大脑——它不再依赖“文字为主、图像为辅”的旧模式,而是把图像、语音和文字统一变成一种类似“数字字母”的离散标记(Token),让AI第一次能像读文字一样,自然地“看图”和“听声”。
过去,AI看图靠的是专门训练的视觉模型,听语音靠的是另一套系统,语言理解又是第三套。三者之间像三个不会说同一种语言的人,只能靠翻译官(插件)勉强沟通。LongCat-Next 打破了这种割裂:无论你给它一张发票、一段语音留言,还是一段文字说明,它都用同一套“思维逻辑”去处理。
核心技术:DiNA架构,让所有信息“说同一种话”
这套能力的核心,是美团自研的 DiNA(Discrete Native Autoregressive)架构。它做了一件看似简单、实则颠覆的事:
- 统一参数:图像、语音、文本,全部用同一个神经网络处理,没有独立的“视觉分支”或“语音模块”。
- 理解即生成:当你问“这张图里有多少行文字?”——这是“理解”;当你让AI画一张包含文字的发票——这是“生成”。在DiNA里,这两件事本质上是同一个过程的正反两面,训练时互相促进。
- 压缩不丢细节:传统图像模型动辄几GB,LongCat-Next 用自研的 dNaViT 分词器,能把一张高清图压缩到原来的1/28,但关键信息一点没丢——比如发票上的数字、菜单上的价格、表格里的小字,全都保留得清清楚楚。这在财务报销、菜单识别、合同审阅等真实场景中,不是“能用”,而是“好用”。
举个例子:以前你拍一张超市小票,AI可能认出“苹果 5元”,但分不清是“5个苹果”还是“5元一斤”。LongCat-Next 能看懂排版、对齐、字体大小,直接告诉你“单价5元,数量2斤,总价10元”——就像人一眼扫过去就能懂。
真实测试:不是参数堆出来,是用出来的好
美团没有只喊口号,而是拿真实数据说话:
- 文档识别:在 OmniDocBench 这个以“密集文字+复杂排版”著称的测试中,LongCat-Next 不仅赢过号称“全能”的 Qwen3-Omni,还超过了专攻视觉的 Qwen3-VL。这意味着它比很多“视觉专家”更懂图文混排。
- 数学推理:在 MathVista(带图的数学题)测试中得分83.1,接近人类水平。题目里有函数图像、几何图形、坐标轴,它不仅能看懂,还能一步步推导。
- 语言能力:在中文综合测试 C-Eval 上拿到86.8分,和主流大模型持平,说明它没因为“分心看图听声”而变笨。
- 语音生成:支持实时语音合成,还能模仿特定人声——你录一句“帮我念一下这份报告”,它就能用你的声音念出来,延迟低到几乎感觉不到。
这些不是实验室里的“漂亮数字”,而是能直接用在美团App里的能力:外卖菜单自动识别、商家发票自动录入、客服语音自动生成、线下门店海报内容自动转文字——这些事,现在都能一个模型搞定。
开源了,开发者能用它做什么?
最让人意外的是,美团把 LongCat-Next 和 dNaViT 分词器全部开源,模型体积小,部署门槛低,连消费级显卡也能跑。
对开发者来说,这意味着:
- 做智能客服?不用再分别训练语音识别、文本理解、图像提取三套系统。
- 做教育工具?学生拍一道带图的数学题,AI能直接讲清解题步骤,不用切图、转文字、再分析。
- 做工业质检?生产线上的产品照片、检测报告、语音指令,全都能统一输入,AI自动判断异常。
- 做无障碍工具?视障用户拍一张菜单,AI能用自然语音“读”出内容,还能模仿用户亲友的声音念出来。
这不是“AI能看图了”,而是“AI终于能像人一样,用一种方式理解整个世界”。当你不再需要把图像转成文字、把语音转成文本,AI的响应会更快、更准、更自然。
美团没有把它锁在自家系统里,而是选择开源——这背后是更大的野心:让每个普通开发者,都能用一个轻量模型,构建真正能感知现实世界的AI应用。未来,你的手机、你的智能手表、你的收银机,都可能藏着一个会“看”、会“听”、会“想”的 LongCat-Next。