OpenAI联合英伟达等发布MRC协议，重构大规模AI训练网络架构

五大科技巨头联手推出新网络协议，AI训练不再“一断全停”

昨天，OpenAI 联合 AMD、博通、英特尔、微软和英伟达五家行业龙头，正式发布了一项名为“多路径可靠连接”（Multi-Path Reliable Connectivity，简称 MRC）的网络协议。这不是又一个概念演示，而是已经跑在真实AI集群上的解决方案——它能让你的上万块GPU在网线被拔掉、交换机重启时，依然继续干活。

这套协议已经通过开放计算项目（OCP）完全开源，任何公司、研究机构都能免费使用。换句话说，未来你看到的超算中心、云厂商的AI训练集群，很可能背后都在用这套技术。

以前一根网线断了，上万张卡全歇菜

过去几年，AI模型训练的规模越来越大，动辄要同时调用数万块A100或H100。但网络架构还是老样子：所有GPU连成一个大环，中间靠几台核心交换机串联。问题来了——只要中间某条链路出点小毛病，比如光模块老化、端口丢包、甚至只是交换机软件重启，整个训练任务就会卡死，所有GPU等着数据，干瞪眼。

一次故障，可能就是几十万美金的算力浪费。有工程师透露，某大厂曾因一次网络抖动，导致一个训练周期中断12小时，直接损失超200万美元的云资源费用。这不是极端案例，而是行业常态。

不靠堆交换机，改用“双层结构”撑起13万张卡

MRC 的第一个突破，是把网络结构从过去常见的四层或双层，简化成只有两层。

传统架构里，为了连接上万台GPU，需要层层堆叠交换机，布线复杂、功耗高、故障点多。MRC 则把每个GPU的800Gbps端口拆成多个200G的小通道，用更灵活的方式“并联”连接。结果是：用更少的交换机、更短的跳数，支撑起约13.1万块GPU的集群。

这意味着什么？

机房布线省了40%以上
电力消耗降低近30%
设备采购成本直接砍掉上千万

不是靠堆设备，而是靠 smarter 的连接方式——这正是工程上最值钱的思路。

数据不走一条路，像快递“多路线派送”

传统网络像寄快递：一个包裹只能走一条指定路线，一旦堵车，全程停摆。

MRC 则像美团骑手：一个任务的数据包被切成上千个小碎片，同时从几百条不同路径往回送。哪怕某条路修路、堵车、甚至被砍断，其他路照样跑。到了接收端，系统自动按序重组，完全不影响训练进度。

更狠的是，它不用BGP、OSPF这些复杂的动态路由协议。换成了SRv6源路由——发包的时候，发送端自己就规划好了路径，中间交换机只管“照单执行”，不搞判断、不搞协商。这带来的结果是：网络故障恢复时间从秒级压缩到微秒级。

什么叫微秒级？人眨一下眼是100毫秒，也就是10万微秒。MRC的恢复速度，比你眨眼快上万倍。你甚至感觉不到网络出过问题。

已经在用：英伟达GB200、甲骨文云，实测扛住断电重启

这不是纸上谈兵。目前，MRC 已经部署在英伟达最新的GB200超级计算机上，也用在了甲骨文的AI云基础设施中。

据内部测试数据，即便在交换机被强制重启、光纤被人为拔掉、或网络环路震荡的情况下，训练任务依然能自动绕过故障点，继续跑满72小时以上，中断率接近于零。

有参与测试的工程师说：“我们故意搞破坏，想让它崩。结果它自己修好了，还把进度条往前推了。”

开源，是这场变革的关键

过去，AI网络的优化基本被英伟达的NVLink+InfiniBand封闭生态垄断。这次，OpenAI带头把MRC开源，意味着：

AMD、英特尔的GPU也能无缝接入
中小公司不再被“大厂网络方案”绑架
云服务商可以自己搭建高可靠集群，不用全买AWS或Azure

这就像当年Linux开源让服务器成本暴跌一样，MRC正在给AI基础设施来一次“去垄断化”改造。

未来两年，你可能会看到更多国产超算、AI创业公司，用这套协议搭建自己的训练集群——不是因为它们买不起H100，而是它们终于能用得起“不轻易瘫痪”的网络了。

MRC SRv6 自适应数据包喷淋多平面网络

CB科技站