美团发布LongCat-Next：首款原生多模态大模型，统一视觉与语音底层架构

美团发布原生多模态大模型 LongCat-Next，让AI真正“看懂”和“听清”世界

4月3日，美团技术团队正式开源了名为 LongCat-Next 的原生多模态大模型。这不是又一个“加个图像模块”的拼凑系统，而是一个从底层重构的AI大脑——它不再依赖“文字为主、图像为辅”的旧模式，而是把图像、语音和文字统一变成一种类似“数字字母”的离散标记（Token），让AI第一次能像读文字一样，自然地“看图”和“听声”。

过去，AI看图靠的是专门训练的视觉模型，听语音靠的是另一套系统，语言理解又是第三套。三者之间像三个不会说同一种语言的人，只能靠翻译官（插件）勉强沟通。LongCat-Next 打破了这种割裂：无论你给它一张发票、一段语音留言，还是一段文字说明，它都用同一套“思维逻辑”去处理。

核心技术：DiNA架构，让所有信息“说同一种话”

这套能力的核心，是美团自研的 DiNA（Discrete Native Autoregressive）架构。它做了一件看似简单、实则颠覆的事：

统一参数：图像、语音、文本，全部用同一个神经网络处理，没有独立的“视觉分支”或“语音模块”。
理解即生成：当你问“这张图里有多少行文字？”——这是“理解”；当你让AI画一张包含文字的发票——这是“生成”。在DiNA里，这两件事本质上是同一个过程的正反两面，训练时互相促进。
压缩不丢细节：传统图像模型动辄几GB，LongCat-Next 用自研的 dNaViT 分词器，能把一张高清图压缩到原来的1/28，但关键信息一点没丢——比如发票上的数字、菜单上的价格、表格里的小字，全都保留得清清楚楚。这在财务报销、菜单识别、合同审阅等真实场景中，不是“能用”，而是“好用”。

举个例子：以前你拍一张超市小票，AI可能认出“苹果 5元”，但分不清是“5个苹果”还是“5元一斤”。LongCat-Next 能看懂排版、对齐、字体大小，直接告诉你“单价5元，数量2斤，总价10元”——就像人一眼扫过去就能懂。

真实测试：不是参数堆出来，是用出来的好

美团没有只喊口号，而是拿真实数据说话：

文档识别：在 OmniDocBench 这个以“密集文字+复杂排版”著称的测试中，LongCat-Next 不仅赢过号称“全能”的 Qwen3-Omni，还超过了专攻视觉的 Qwen3-VL。这意味着它比很多“视觉专家”更懂图文混排。
数学推理：在 MathVista（带图的数学题）测试中得分83.1，接近人类水平。题目里有函数图像、几何图形、坐标轴，它不仅能看懂，还能一步步推导。
语言能力：在中文综合测试 C-Eval 上拿到86.8分，和主流大模型持平，说明它没因为“分心看图听声”而变笨。
语音生成：支持实时语音合成，还能模仿特定人声——你录一句“帮我念一下这份报告”，它就能用你的声音念出来，延迟低到几乎感觉不到。

这些不是实验室里的“漂亮数字”，而是能直接用在美团App里的能力：外卖菜单自动识别、商家发票自动录入、客服语音自动生成、线下门店海报内容自动转文字——这些事，现在都能一个模型搞定。

开源了，开发者能用它做什么？

最让人意外的是，美团把 LongCat-Next 和 dNaViT 分词器全部开源，模型体积小，部署门槛低，连消费级显卡也能跑。

对开发者来说，这意味着：

做智能客服？不用再分别训练语音识别、文本理解、图像提取三套系统。
做教育工具？学生拍一道带图的数学题，AI能直接讲清解题步骤，不用切图、转文字、再分析。
做工业质检？生产线上的产品照片、检测报告、语音指令，全都能统一输入，AI自动判断异常。
做无障碍工具？视障用户拍一张菜单，AI能用自然语音“读”出内容，还能模仿用户亲友的声音念出来。

这不是“AI能看图了”，而是“AI终于能像人一样，用一种方式理解整个世界”。当你不再需要把图像转成文字、把语音转成文本，AI的响应会更快、更准、更自然。

美团没有把它锁在自家系统里，而是选择开源——这背后是更大的野心：让每个普通开发者，都能用一个轻量模型，构建真正能感知现实世界的AI应用。未来，你的手机、你的智能手表、你的收银机，都可能藏着一个会“看”、会“听”、会“想”的 LongCat-Next。

CB科技站

美团发布LongCat-Next：首款原生多模态大模型，统一视觉与语音底层架构

美团发布原生多模态大模型 LongCat-Next，让AI真正“看懂”和“听清”世界

核心技术：DiNA架构，让所有信息“说同一种话”

真实测试：不是参数堆出来，是用出来的好

开源了，开发者能用它做什么？

与本文相关的文章