最新消息:关注人工智能 AI赋能新媒体运营

马斯克点赞Kimi“注意力残差”创新,长文本大模型架构实现重大突破

科技资讯 admin 浏览

Kimi新论文引爆AI圈,马斯克亲自点赞

最近,一家名叫Kimi(月之暗面)的中国AI初创公司发布了一篇名为《Attention Residuals: Rethinking depth-wise aggregation》的技术论文,没成想,竟在科技圈炸了锅。

特斯拉CEO埃隆·马斯克在X(原Twitter)上直接点赞,留言只有一句:“Impressive work from Kimi.”(Kimi的亮眼工作)。这可不是随便谁都能得到的夸奖——马斯克平时对AI论文基本不搭理,这次却破例发声,瞬间让这篇论文冲上全球AI圈热搜。

Kimi的官方账号也没客气,秒回:“你的火箭也造得不错。”短短一句话,既回应了马斯克的赞赏,又带点幽默的“互捧”,网友直呼:“这波跨界互动,比很多发布会都真实。”

QQ20260317-140918.jpg

他们到底改了什么?不是调参,是重构了模型的“脊椎”

很多人以为大模型的进步就是堆参数、加数据,但Kimi这次玩的是“底层手术”——他们重新设计了模型里最基础、也最没人敢动的部分:残差连接。

过去十年,从Transformer到GPT、Claude、Gemini,所有大模型都依赖一种固定的“残差结构”:每一层输出都加到下一层上,像搭积木一样层层叠加。这方法稳定,但有个致命问题:越深的层,信息越容易被“稀释”,长文本处理时,开头的内容到结尾几乎“失忆”。

Kimi的“注意力残差”(Attention Residuals)不是简单加权,而是让模型自己决定:哪一层的信息该保留,哪一层该丢弃,甚至哪两层该“跳过中间直接对话”。这就像给模型装了个智能交通系统,不再让所有数据走同一条单行道,而是动态规划最优路径。

实测结果很硬:在128K上下文的长文档理解任务中,Kimi模型的准确率比传统结构高出12%以上,尤其在法律合同、技术手册这类需要前后交叉验证的场景,表现明显更稳。更关键的是,它没增加多少计算量,对算力友好。

为什么这事儿值得普通人关注?

你可能觉得“残差连接”离自己太远,但它的改进,直接影响你用AI时的体验。

当你让AI读完一本500页的PDF,然后问:“第一章提到的某个细节,和最后一章的结论矛盾吗?”——以前的模型可能答不上来,或者瞎编。现在,Kimi这种结构让AI真正“记得住”长内容,不靠记忆,靠结构。

这意味着,未来你用AI写论文、分析财报、处理合同,它不会再“翻篇就忘”。这不是小优化,是让AI从“聪明的鹦鹉”变成“有逻辑的助手”的关键一步。

有意思的是,Kimi不是大厂,团队不到200人,总部在北京中关村。他们没靠烧钱买GPU,而是靠一群工程师死磕底层架构。马斯克点赞后,不少海外AI研究员在论坛里感叹:“中国团队终于在基础架构上,不再只是追随者了。”

现在,这篇论文已开源,代码和训练细节都放到了GitHub。不少开发者已经开始复现,有人试了下,说:“跑起来比想象中快,效果也真不是吹的。”

一个中国团队,改了AI的“脊椎”,被马斯克点了个赞。这事儿,值得多看两眼。