美团发布LongCat-Flash-Lite：45亿激活参数，性能媲美千亿级模型

LongCat-Flash-Lite：更轻、更快、更懂你的代码和命令

过去几年，大模型越做越大，专家数量堆到上千，结果却是推理变慢、成本飙升，效果却没明显提升。美团 LongCat 团队没跟风堆参数，而是回头重新思考：我们真的需要那么多“专家”吗？

他们找到了一个更聪明的路子——不靠增加专家，而是把语言的“骨架”变得更细密。他们用 N-gram 嵌入层，把常见的短语、命令片段、代码结构提前“记”进模型的底层结构里。就像你学编程时，不会一个字母一个字母地猜，而是直接记住 `git commit -m`、`pip install` 这种高频组合。LongCat-Flash-Lite 就是这么干的。

不是参数越多越好，而是用对地方

这个模型总参数有 685 亿，听起来不小，但每次运行时，真正被激活的只有 29 亿到 45 亿。其余 300 多亿参数，全用在了“嵌入层”——也就是模型的“词典”和“短语库”里。这些参数不参与复杂计算，只做快速查找：一看到 “kubectl get pods”，立刻知道你大概想干什么，不用再一层层推理。

这带来的变化很直接：在处理编程、运维、终端命令这类任务时，模型的准确率和响应速度都上了一个台阶。不是因为它“更聪明”，而是因为它“更熟悉”你日常用的那些词。

从模型到系统，每一环都为速度优化

光有想法不够，还得跑得快。LongCat 团队在系统层面做了三件很实在的事：

参数按需加载：嵌入层占了模型总参数的 46%，但查找速度是 O(1)，像查字典一样快，不随规模变慢。
定制内核 + N-gram 缓存：他们自己写了 CUDA 内核，把多个计算步骤合并，减少内存来回搬运；还搞了个类似 KV Cache 的“N-gram Cache”，把常用命令片段缓存起来，下次直接用。
推测解码，提前猜：模型会先用一个轻量版本快速生成一个“草案”，再用主模型精修，相当于先写个草稿再润色，省下大量等待时间。

结果是：在输入 4K、输出 1K 的典型场景下，API 生成速度稳定在 500–700 token/秒。你打完一个命令，它几乎立刻就给出结果。支持最长 256K 上下文，适合处理长日志、复杂脚本或整份代码库。

真刀真枪的测试：代码、终端、智能体，全拿第一

他们没只吹指标，而是拿真实场景测试：

代码能力：在 SWE-Bench（真实 GitHub 问题修复）中准确率 54.4%，远超同尺寸模型；在 TerminalBench（执行真实 Linux 命令）中拿到 33.75 分，是同类模型里最高的。
智能体任务：在电信、零售、航空三大行业场景的 $tau^2$-Bench 中，全部拿下第一名，能准确理解“帮我查一下这个订单的物流状态”或“重置用户密码并通知”这类复杂指令。
通用能力：MMLU 得分 85.52，和 Gemini 2.5 Flash-Lite 差不多，数学题（AIME24）也能稳稳拿分，不是只会写代码的“偏科生”。

开源了，免费用，开发者直接上手

最让人惊喜的是，美团没藏着掖着。模型权重、完整技术报告、推理引擎 SGLang-FluentLLM，全部开源。你可以在 GitHub 上直接下载，本地跑起来。

如果你不想自己部署，也可以通过 LongCat API 开放平台申请试用。每天免费送 5000 万 tokens，够你跑几百次代码生成、日志分析或自动化脚本任务。对开发者、运维、AI 工程师来说，这几乎是目前性价比最高的高性能小模型入口。

这不是又一个“参数堆砌”的模型。它更像是一个专为开发者和系统工程师打造的“效率工具”——不追求炫技，只解决真实问题。

CB科技站