ZCube网络架构落地:智谱GLM-5.1coding集群性能跃升,成本直降33%
2026年5月21日,智谱AI正式宣布,由智谱、驭驯网络与清华大学联合研发的ZCube网络架构,已在GLM-5.1coding模型的生产环境中稳定运行超过两周。这是国内首个在万卡级大模型推理集群中成功落地的扁平化网络拓扑方案,带来的是实打实的性能提升与成本压缩。
在不更换任何GPU、不调整软件栈、不改动模型结构的前提下,ZCube让整个推理集群的效率发生了明显变化:
- 交换机与光模块的采购成本下降33%
- GPU平均推理吞吐量提升15%
- 首Token响应时间(TTFT P99)降低40.6%——这意味着用户等待第一个字输出的时间,平均缩短了近一半
这些数字不是实验室里的理想值,而是真实生产环境中的运行结果。目前该集群已承载GLM-5.1coding的线上服务,日均处理请求超千万次,系统无故障运行时长突破336小时。

为什么传统网络扛不住大模型推理?
过去两年,行业普遍采用“Fat-Tree”或Clos架构搭建AI集群网络。这套方案在通用计算和训练场景中表现良好,但到了推理阶段,尤其是长上下文、Prefill-Decode分离部署成为主流后,问题开始暴露。
问题出在KV Cache——模型推理时缓存的历史上下文数据。这些数据在Prefill阶段由一组GPU生成,随后要跨节点传输给负责Decode的另一组GPU。由于流量高度不对称,大量数据集中涌向少数节点,导致传统网络中的部分交换机和链路持续过载。
结果就是:整体带宽看着很足,但实际跑起来,总有几个“堵点”拖慢全盘效率。PFC(优先级流控制)反压频发,GPU等数据等得发慌,整体吞吐上不去,成本却没降。

ZCube怎么做到“不换硬件,性能翻倍”?
ZCube的核心思路很简单:去掉多余的层级,让每台GPU都能直接“对话”。
传统架构像多层立交桥,数据要经过Spine、Leaf层层转发;ZCube则像一张扁平的网,只用两组交换机,通过二部图方式全互联,每台GPU通过双端口网卡,同时接入两组交换机,形成冗余+负载均衡的双轨通道。
更关键的是,它配合了一套动态路由算法,能实时感知流量方向,自动为每一对GPU之间规划最优路径。哪怕有1000张GPU同时在传KV Cache,也不会出现“几条路堵死、其他路空着”的情况。
这套方案不是纸上谈兵。2025年9月,团队在ACM SIGCOMM 2025上首次公开技术细节,引发国际关注。如今,驭驯网络团队用自动化布线工具和智能路由校验系统,把这套理论变成了可部署、可运维的产线方案。
改造过程没有停机,没有推倒重来。团队在不影响线上服务的前提下,分批次替换交换机、重配链路,最终实现“零感知升级”。整个集群从旧架构切换到ZCube,耗时不到72小时。
这不是一次升级,而是一次基础设施范式转变
过去,大家谈AI算力,只看GPU数量、显存大小、框架优化。现在,越来越多的头部玩家意识到:网络不再是“背景板”,而是决定推理效率的“最后一公里”。
ZCube的成功,证明了在不增加硬件投入的前提下,通过网络架构创新,完全可以实现性能和成本的双重突破。它让企业不再被迫为“理论带宽”买单,而是为“实际吞吐”付费。
目前,该架构已向国内多家大模型服务商开放技术评估。据内部消息,有两家头部企业正在部署第二代ZCube集群,规模将扩展至2000张H100以上。
未来,网络拓扑、通信协议、调度策略将不再是割裂的模块,而是协同设计的整体。谁先打通这三者,谁就能在大模型服务成本上建立真正的护城河——而ZCube,已经迈出了关键一步。