2025年第四季度,全球AI芯片市场迎来一场静默革命——推理芯片在数据中心的收入首次超越训练芯片。据Counterpoint Research最新数据,推理芯片Q4营收达187亿美元,占数据中心AI芯片总营收的51.2%,而训练芯片为178亿美元。这不是简单的数字翻转,而是AI落地形态的根本性迁移:从“大模型训练竞赛”转向“实时智能服务竞争”。
过去,业界评判芯片性能只看FLOPS(每秒浮点运算次数)和训练吞吐量;如今,真正的胜负手变成了:延迟、状态保持能力和单位能耗下的连续推理效率。尤其是在AI代理(AI Agent)、智能客服、自动驾驶感知决策、实时翻译等场景中,模型必须在毫秒级响应中维持上下文记忆,稍有卡顿,用户体验即崩塌。
就在这一转折点,黄仁勋罕见地掏出约200亿美元现金——相当于英伟达当时现金储备的三分之一——与Groq达成一项史无前例的战略授权协议:英伟达将开放部分CUDA生态接口,允许Groq的LPU(Language Processing Unit)接入NVIDIA AI Enterprise软件栈,而Groq则承诺优先为英伟达客户提供其推理加速方案。这不是收购,而是一场“技术联姻”,背后是英伟达对“GPU垄断时代终结”的清醒认知。
趋势一:GPU正在被“一分为二”——预填充与解码的分道扬镳
Groq联合创始人加文·贝克(Gavin Baker)曾在一次闭门会议上直言:“我们不是在和英伟达比算力,我们是在比谁的内存更近。”
现代大模型推理流程,早已不是“输入→输出”的黑箱。它被拆解为两个截然不同的阶段:
- 预填充(Prefill):用户输入一段长文本(如5000词的文档或多轮对话历史),模型一次性加载并建立上下文语义图谱。这需要强大的并行计算能力,正是NVIDIA H100/A100的主场。
- 解码(Decode):模型逐字生成响应,每输出一个token,都要基于前序所有token重新计算注意力权重。这个过程对内存带宽极度敏感——每秒需访问数百GB数据。一旦内存延迟超过5微秒,生成速度就会断崖式下跌。
英伟达的应对策略极为务实:推出“Vera Rubin”系列芯片,其中Rubin CPX专攻预填充,支持高达100万token的超长上下文窗口,适配RAG、法律文书分析、金融研报生成等场景。而解码端,英伟达不再孤军奋战——它选择与Groq深度绑定。
Groq的LPU采用“张量流式架构”+“片上SRAM池”,数据无需往返DRAM,直接在处理器内部流动。实测显示,在128K上下文的长文本生成任务中,LPU比H100降低73%延迟,功耗降低61%。这正是AI代理需要的“呼吸感”——不是快,而是“不卡”。
趋势二:SRAM逆袭——小内存如何撬动万亿级边缘AI市场
微软风投M12的斯图尔特·李(Stuart Lee)曾用一个比喻形容SRAM的价值:“在DRAM和CPU之间搬运数据,就像用拖拉机运快递;而SRAM,是无人机直送。”
SRAM虽然成本高昂、密度低(一片16MB SRAM芯片价格约为同容量DRAM的20倍),但其访问延迟仅为0.5纳秒,能耗低至0.08皮焦耳/位——是DRAM的1/50。在边缘端,这直接意味着:
- 手机端AI助手可离线运行7B参数模型,响应快于人耳反应
- 工业机器人实时语音指令识别延迟低于80ms,达到人类对话水平
- 智能汽车在4G网络下仍能流畅执行导航意图理解
2025年,模型蒸馏(Distillation)与量化技术迎来爆发。Meta的Llama 3.1 8B版本,在保持95%以上原模型性能的前提下,参数压缩至80亿,内存占用仅需16GB。这正是SRAM的黄金窗口。
根据TrendForce预测,2026年全球边缘AI芯片市场规模将突破850亿美元,其中基于SRAM架构的推理芯片占比将从2024年的7%飙升至34%。高通、联发科、苹果均已布局定制SRAM加速模块。而Groq的LPU,正成为这一浪潮的“开源参考设计”。
趋势三:Anthropic的“去英伟达化”——AI大厂的供应链觉醒
2025年8月,Anthropic宣布将在谷歌TPU v5e集群上部署Claude 3.5 Sonnet,同时在NVIDIA H100集群上并行运行同一模型。这不是技术炫技,而是一场精心策划的“双轨制生存战略”。
据彭博社援引知情人士消息,Anthropic已与谷歌达成协议,未来三年将部署超过100万个TPU,总算力超过1.2吉瓦——相当于一个中型核电站的发电量。更关键的是,他们自研的“Cross-Platform Inference Layer”(CPIL)软件栈,让同一模型无需重训,即可在GPU、TPU、甚至未来AMD MI300X上无缝切换。
“这不是多云策略,这是多芯片策略。”AI基础设施分析师贝尔科维奇(Belkovich)指出,“Anthropic的真正意图,是让英伟达从‘唯一供应商’变成‘可选供应商’。”
这一举动引发连锁反应:OpenAI开始测试AMD CDNA3架构;Cohere与英特尔Gaudi 3达成联合优化;甚至Meta也悄悄测试了Groq LPU在内部客服系统中的表现。
英伟达与Groq的合作,本质上是一次“防御性开放”——它承认:在解码场景中,CUDA不再是唯一答案。但只要能将Groq的硬件“纳入CUDA生态”,就能保住企业客户的核心黏性。
2026年的生存法则:别问你用了什么芯片,要问你的词元去了哪里
2026年,AI基础设施的决策逻辑将彻底重构。
企业不再问:“我们该买H200还是B200?”
而是问:
- “我们的用户输入提示词,是交给GPU做预填充,还是交给边缘SRAM芯片做本地缓存?”
- “生成的每一个token,是在云端H100集群上跑,还是在车载LPU上实时完成?”
- “当流量激增时,我们是扩容GPU集群,还是调度TPU备用池?”
这是一场“词元路由革命”。真正的赢家,不是卖芯片的公司,而是能构建“智能路由操作系统”的平台。
NVIDIA正从“芯片供应商”转型为“推理调度中枢”——其NVIDIA AI Enterprise 2026版本已内置“推理路径优化器”,可自动根据延迟、成本、能耗,动态分配任务至GPU、LPU、TPU或边缘设备。
而Groq、Anthropic、谷歌、甚至初创公司如Perplexity和Runway,正在联手构建“开放推理网络”——一个类似“AI版CDN”的基础设施层,让每个词元都能找到最优路径。
未来的AI公司,不会只买芯片,而是会买“推理位置”。
你,准备好为每一个token选择它的家了吗?