最新消息:关注人工智能 AI赋能新媒体运营

OpenAI与硬件巨头联合发布MRC协议,旨在消除GPU闲置浪费

科技资讯 admin 浏览
5 月 6 日,OpenAI 联合 AMD、博通、英特尔、微软和英伟达五大科技巨头,正式发布一项名为“多路径可靠连接”(Multipath Reliable Connection,简称 MRC)的开放网络协议。这不是一次普通的技术更新,而是一场针对 AI 训练“隐形浪费”的精准打击。 在当前超大规模 AI 模型训练中,一个被长期忽视的问题正在吞噬巨额成本:GPU 空等。即便拥有数千张顶级显卡,一旦数据传不过来,算力就会陷入“等饭吃”的状态——每秒数万亿次的浮点运算,因为网络卡顿而停摆。据内部估算,大型集群中高达 15%-20% 的算力,正被低效的网络传输白白消耗。MRC 的诞生,就是为了终结这种“有钱买不起效率”的尴尬。 不同于传统单路径网络协议,MRC 允许数据在多条物理链路间动态切换与并行传输。它不再依赖单一光纤或交换机通道,而是像智能导航系统一样,实时感知网络拥堵、延迟和丢包,自动选择最优路径。一旦某条链路出现波动,数据流会瞬间无缝迁移到备用通道,整个过程对上层训练任务完全透明。这意味着,哪怕一根网线被意外拔掉,训练任务也不会中断,GPU 也不会“干瞪眼”。 这项技术早已在实战中落地。OpenAI 所有核心训练集群——包括部署在德克萨斯州阿比林的甲骨文云基础设施(OCI)节点,以及微软位于华盛顿州的 Fairwater 超级计算机——均已全面启用 MRC。据知情人士透露,部署后,集群整体训练效率提升约 18%,平均功耗下降 12%,相当于每月节省数百万美元的电费与运维成本。 更值得关注的是,这不是 OpenAI 的“独门秘技”,而是一次公开的行业协作。协议代码已开源,技术文档向公众开放,任何企业均可免费接入。此举背后,是几家巨头对未来的共同判断:AI 的下一场竞争,不在模型参数大小,而在基础设施的“呼吸节奏”。谁掌握了高效、稳定、可扩展的底层通信标准,谁就掌握了训练速度的命门。 英伟达表示,其新一代 H200 和 Blackwell 架构的 GPU 将原生支持 MRC;英特尔和 AMD 正在优化其以太网网卡与 RDMA 驱动;博通则为交换芯片升级了低延迟路由引擎。微软和甲骨文也在其云平台中为 MRC 提供了标准化接口。 业内分析认为,MRC 的发布,标志着 AI 基础设施从“拼硬件”转向“拼协同”。过去,大家比谁的 GPU 多、谁的算力强;未来,比的是:你的数据能不能在 GPU 醒来之前,准时送到它手里。 这不是一场技术发布会,而是一次行业标准的重新定义。MRC 的出现,让 AI 训练不再只是算力的竞赛,更成为网络工程的巅峰对决。而这场竞赛的起点,已经由 OpenAI 和它的伙伴们亲手铺就。