Nvidia开源Blackwell平台、服务器元件设计给OCP

图片来源:

Nvidia

在上周2024 OCP全球高峰会（Global Summit）Nvidia宣布将AI机柜系统GB200 NVL72机柜，以及液冷式运算与交换器匣设计，开源给开源运算专案（Open Compute Project，OCP）。

Nvidia很早就加入开源社群．如Linux基金会、Python软件基金会及PyTorch基金会，也是OCP SAI（Switch Abstraction Interface，SAI）专案创始与治理董事会成员，同时也是SONIC（Software for Open Networking in the Cloud）的第二大贡献者。Nvidia 2021年首度开源Triton推论服务器，今年10月Nvidia则分别开源HGX H100基板及ConnectX-7乙太网路介面卡（NIC）页献给OCP，前者是云端AI服务器的业界标準，后者则是OCP网路介面卡（NIC）3.0的基础设计。透过这次开源，将能让社群开发人员开发以其GB200为基础的OCP服务器及应用。

GB200 NVL72是Nvidia AI整柜服务器系统，支援最多36个Grace CPU和72个Blackwell GPU，每GPU连线速度为1.8TB/s。Nvidia指出，在GB200 NVL72之前，在HGX H200基板上单一NVLink domain最多只能连结8颗GPU，每GPU网速为900GB/s。GB200 NVL72的出现，让兆级参数模型如GPT-MoE-1.8T的训练和推论速度分别大幅提升了4倍和30倍

Nvidia同时开源其设计的1RU小型运算及交换机匣（compute and switch tray），名为DC SCM（Data Center Secure Control Module），尺寸比现有业界标準小10%，还内建新式更小的汇流排连接器。运算匣部份则提供模组化外壳可适应不同I/O需求。改良的盲接液冷装置及连接器

因应开源计画，Nvidia提供了和电源与液冷设备业者Vertiv共同开发的GB200 NV72参考设计，提供给云端业者及资料中心开发人员。Nvidia宣称该参考设计能节省最多50%的实作时间，还减少电源模组所占空间，提升冷却效率。为了解决120KW的冷却电耗，这参考设计包含了Nvidia分流阀（manifold fittings）、浮动盲插（floating blind mates）等液冷技术。

除了Vertiv目前已有40多家资料中心基础架构（data center infrastructure，DCI）已提供Blackwell为基础的设计，包括鸿海、台达电、光宝、云达、Schneider Electronic等，而OEM业者如HPE、Dell、美超微及台湾厂商如云达、华硕、技嘉、和硕、英业达、纬颖也都提供了Blackwell-based服务器。

Nvidia透过开源其设计，有助于扩大Blackwell服务器採用客户群，推升晶片销量。不过，媒体报导受产品瑕疵影响，原订本季推出的Blackwell可能要延迟一季才能出货，使供不应求问题雪上加霜。

CB科技站

Nvidia开源Blackwell平台、服务器元件设计给OCP

与本文相关的文章

您的回复是我们的动力！

网友最新评论