最新消息:关注人工智能 AI赋能新媒体运营

OpenAI联合英伟达等发布MRC协议,重构大规模AI训练网络架构

科技资讯 admin 浏览

五大科技巨头联手推出新网络协议,AI训练不再“一断全停”

昨天,OpenAI 联合 AMD、博通、英特尔、微软和英伟达五家行业龙头,正式发布了一项名为“多路径可靠连接”(Multi-Path Reliable Connectivity,简称 MRC)的网络协议。这不是又一个概念演示,而是已经跑在真实AI集群上的解决方案——它能让你的上万块GPU在网线被拔掉、交换机重启时,依然继续干活。

这套协议已经通过开放计算项目(OCP)完全开源,任何公司、研究机构都能免费使用。换句话说,未来你看到的超算中心、云厂商的AI训练集群,很可能背后都在用这套技术。

image.png

以前一根网线断了,上万张卡全歇菜

过去几年,AI模型训练的规模越来越大,动辄要同时调用数万块A100或H100。但网络架构还是老样子:所有GPU连成一个大环,中间靠几台核心交换机串联。问题来了——只要中间某条链路出点小毛病,比如光模块老化、端口丢包、甚至只是交换机软件重启,整个训练任务就会卡死,所有GPU等着数据,干瞪眼。

一次故障,可能就是几十万美金的算力浪费。有工程师透露,某大厂曾因一次网络抖动,导致一个训练周期中断12小时,直接损失超200万美元的云资源费用。这不是极端案例,而是行业常态。

不靠堆交换机,改用“双层结构”撑起13万张卡

MRC 的第一个突破,是把网络结构从过去常见的四层或双层,简化成只有两层。

传统架构里,为了连接上万台GPU,需要层层堆叠交换机,布线复杂、功耗高、故障点多。MRC 则把每个GPU的800Gbps端口拆成多个200G的小通道,用更灵活的方式“并联”连接。结果是:用更少的交换机、更短的跳数,支撑起约13.1万块GPU的集群。

这意味着什么?

  • 机房布线省了40%以上
  • 电力消耗降低近30%
  • 设备采购成本直接砍掉上千万

不是靠堆设备,而是靠 smarter 的连接方式——这正是工程上最值钱的思路。

数据不走一条路,像快递“多路线派送”

传统网络像寄快递:一个包裹只能走一条指定路线,一旦堵车,全程停摆。

MRC 则像美团骑手:一个任务的数据包被切成上千个小碎片,同时从几百条不同路径往回送。哪怕某条路修路、堵车、甚至被砍断,其他路照样跑。到了接收端,系统自动按序重组,完全不影响训练进度。

更狠的是,它不用BGP、OSPF这些复杂的动态路由协议。换成了SRv6源路由——发包的时候,发送端自己就规划好了路径,中间交换机只管“照单执行”,不搞判断、不搞协商。这带来的结果是:网络故障恢复时间从秒级压缩到微秒级。

什么叫微秒级?人眨一下眼是100毫秒,也就是10万微秒。MRC的恢复速度,比你眨眼快上万倍。你甚至感觉不到网络出过问题。

已经在用:英伟达GB200、甲骨文云,实测扛住断电重启

这不是纸上谈兵。目前,MRC 已经部署在英伟达最新的GB200超级计算机上,也用在了甲骨文的AI云基础设施中。

据内部测试数据,即便在交换机被强制重启、光纤被人为拔掉、或网络环路震荡的情况下,训练任务依然能自动绕过故障点,继续跑满72小时以上,中断率接近于零。

有参与测试的工程师说:“我们故意搞破坏,想让它崩。结果它自己修好了,还把进度条往前推了。”

开源,是这场变革的关键

过去,AI网络的优化基本被英伟达的NVLink+InfiniBand封闭生态垄断。这次,OpenAI带头把MRC开源,意味着:

  • AMD、英特尔的GPU也能无缝接入
  • 中小公司不再被“大厂网络方案”绑架
  • 云服务商可以自己搭建高可靠集群,不用全买AWS或Azure

这就像当年Linux开源让服务器成本暴跌一样,MRC正在给AI基础设施来一次“去垄断化”改造。

未来两年,你可能会看到更多国产超算、AI创业公司,用这套协议搭建自己的训练集群——不是因为它们买不起H100,而是它们终于能用得起“不轻易瘫痪”的网络了。