杨植麟GTC首秀：聚焦Token效率与Agent集群的大模型Scaling之道

大模型的下半场，拼的不是参数，是效率

过去几年，大模型的竞争像一场军备竞赛——谁的参数多、算力强，谁就站在风口。但到了2025年，这场游戏的规则变了。真正能跑赢的，不再是堆芯片的玩家，而是那些敢把底层结构拆了重做的团队。

3月18日，英伟达GTC2026大会上，月之暗面创始人杨植麟首次公开了Kimi K2.5背后的完整技术路径。这不是一次普通的模型发布，而是一次对当前AI架构的系统性反思。他直言：“我们不能再靠扩大模型体积来换智能了。算力的边际效益，已经快到头了。”

三个真问题，决定了下一代AI的走向

杨植麟没有谈花哨的指标，而是聚焦三个被大多数人忽视的底层问题：

第一，Token效率：别让每一个计算单元都浪费在无用的“废话”上。 传统模型处理长文本时，大量算力消耗在重复、冗余的token上。Kimi K2.5通过一种新的稀疏注意力结构，让模型能自动识别“哪些信息值得深思，哪些可以跳过”。实测显示，在处理100万字文档时，它的推理成本比同类模型低40%，响应速度却更快。

第二，长上下文：不是能记住多长，而是能用得多深。 Kimi早已以“长文本王者”闻名，但K2.5更进一步——它不再只是“看”得长，而是“想”得深。在内部测试中，模型能跨300页PDF文档，准确关联前文提到的某个公式、人物关系或数据趋势，甚至能主动提醒用户：“您在第127页提到的这个变量，和当前任务的约束条件冲突。”这不再是检索，是真正的上下文推理。

第三，Agent集群：单个AI再强，也打不过一支团队。 杨植麟提到一个关键转变：未来AI不再是“一个超级大脑”，而是“一群各司其职的小脑”。Kimi K2.5支持动态生成多个子Agent，比如一个负责查资料、一个负责写草稿、一个负责逻辑校验，它们能自动分工、互相质疑、协同修正。这不是预设流程，而是实时演化。就像一个临时组建的项目组，没人指挥，却能高效完成复杂任务。

Kimi K2.5，不是升级，是重新定义

今年1月发布的Kimi K2.5，已经是开源领域少有的“全能选手”：代码生成、图像理解、数学推理，全部达到SOTA水平。但真正让人意外的是它的“双模式”设计——

在“思考模式”下，它像一个严谨的研究员，慢工出细活，每一步推理都可追溯；在“非思考模式”下，它秒回答案，像一个经验丰富的老手，直觉准确。这种切换不是开关，而是根据任务复杂度自动调节。用户不需要知道它在想什么，它自己知道什么时候该深思，什么时候该快答。

更关键的是，它完全开源。没有隐藏层，没有黑箱。开发者可以自由接入它的Agent框架，搭建自己的智能体网络。已经有团队用它构建了自动写周报、分析财报、甚至模拟客户对话的流水线，效率提升3倍以上。

行业正在悄悄转向：智能密度，才是新指标

现在，大厂的PPT还在比参数万亿、训练天数，但真正懂行的人已经在看“每瓦特算力能产出多少有效智能”。Kimi K2.5的出现，让这个指标有了实际参照。

不是所有长文本模型都能做逻辑推理，不是所有Agent都能自我协作，更不是所有开源模型敢把核心架构全摊开。月之暗面这次，不是在追赶，而是在重新定义赛道。

接下来的半年，将是关键窗口期。如果Kimi的“三维相乘”逻辑能被验证——效率翻倍、记忆更深、协作更灵——那么，下一个AI时代，可能不再由OpenAI或Google主导，而是由一群敢把旧体系砸碎的人，重新写就。

CB科技站

杨植麟GTC首秀：聚焦Token效率与Agent集群的大模型Scaling之道

大模型的下半场，拼的不是参数，是效率

三个真问题，决定了下一代AI的走向

Kimi K2.5，不是升级，是重新定义

行业正在悄悄转向：智能密度，才是新指标

与本文相关的文章