最新消息:关注人工智能 AI赋能新媒体运营

NVIDIA以Rubin整合六大组件,将AI工厂打造成标准化产品

科技资讯 admin 浏览

Nvidia于周一(1月5日)发布新一代Rubin平台,这是一套将CPU、GPU、互连、网络、安全与存储六大关键组件整合为单一系统的机柜级AI计算平台,目标是将过去高度定制化的AI数据中心,转变为可标准化部署的“AI工厂”。Nvidia同时宣布,微软、AWS、Google、Oracle与CoreWeave等云服务商均计划在今年部署Rubin平台。

Rubin平台整合的六大组件包括:Vera CPU、Rubin GPU、NVLink 6交换器、ConnectX-9 SuperNIC、BlueField-4 DPU以及Spectrum-6以太网交换器。这些组件大多并非首次亮相,但在Rubin平台架构中,其定位发生根本性转变,共同构成以机柜为单位的AI计算系统。

其中,Vera CPU与Rubin GPU被视为Rubin平台运算与推理能力的核心。Vera CPU是Nvidia首次为大型AI工厂量身打造的高能效CPU,采用88个自研Olympus核心,支持Armv9.2,并通过NVLink-C2C与GPU高速直连,特别适用于代理式AI与推理流程的控制与协调。Rubin GPU则引入第三代Transformer Engine,结合硬件加速的自适应压缩,在AI推理上提供50 PFLOPS的NVFP4算力,专为大模型与MoE推理优化。

在系统层面,Rubin是首个在机柜级引入第三代机密计算的平台,能在CPU、GPU与NVLink间保持一致的数据保护,确保大型专有模型在训练与推理时的安全性。同时,第二代RAS Engine贯穿CPU、GPU与互连,提供实时健康监测、容错与预防性维护,配合模块化、无缆线设计,使组装与维修效率较Blackwell平台提升最多18倍,进一步提升整体AI工厂的可用性与生产效率。

这种跨组件的整体整合,直接影响AI的成本结构。Nvidia指出,相较前一代Blackwell平台,Rubin在推理Token成本上最多可降低10倍,训练大规模MoE模型所需的GPU数量,也可减少至原来的四分之一。

尽管Nvidia在过去几个世代已使用“平台”来描述其AI系统,但Rubin的差异不在于是否整合,而在于整合的层级与交付单位。从官方表述可见,Rubin不再以单颗GPU或单台服务器为核心,而是直接以“机柜级系统”作为最小产品单位。这代表Nvidia不只是提供一组可组装的系统方案,而是将整个AI计算环境定义为可直接部署、可复制扩展的标准化AI工厂模块。

包括Anthropic、OpenAI、Mistral AI与xAI在内的多家公司,均为预期采用Rubin的合作方;Nvidia亦与红帽扩大合作,将Red Hat Enterprise Linux、OpenShift与Red Hat AI纳入针对Rubin优化的完整AI堆栈,进一步降低企业部署AI工厂的技术与运营门槛。

xAI创始人兼首席执行官马斯克表示,Rubin将成为AI领域的火箭引擎,对于希望大规模训练与部署前沿模型的企业而言,这正是所需的基础设施,也将再次向市场证明,Nvidia仍是行业的黄金标准。