
Nvidia
在上周2024 OCP全球高峰会(Global Summit)Nvidia宣布将AI机柜系统GB200 NVL72机柜,以及液冷式运算与交换器匣设计,开源给开源运算专案(Open Compute Project,OCP)。
Nvidia很早就加入开源社群.如Linux基金会、Python软件基金会及PyTorch基金会,也是OCP SAI(Switch Abstraction Interface,SAI)专案创始与治理董事会成员,同时也是SONIC(Software for Open Networking in the Cloud)的第二大贡献者。Nvidia 2021年首度开源Triton推论服务器,今年10月Nvidia则分别开源HGX H100基板及ConnectX-7乙太网路介面卡(NIC)页献给OCP,前者是云端AI服务器的业界标準,后者则是OCP网路介面卡(NIC)3.0的基础设计。透过这次开源,将能让社群开发人员开发以其GB200为基础的OCP服务器及应用。
GB200 NVL72是Nvidia AI整柜服务器系统,支援最多36个Grace CPU和72个Blackwell GPU,每GPU连线速度为1.8TB/s。Nvidia指出,在GB200 NVL72之前,在HGX H200基板上单一NVLink domain最多只能连结8颗GPU,每GPU网速为900GB/s。GB200 NVL72的出现,让兆级参数模型如GPT-MoE-1.8T的训练和推论速度分别大幅提升了4倍和30倍
Nvidia同时开源其设计的1RU小型运算及交换机匣(compute and switch tray),名为DC SCM(Data Center Secure Control Module),尺寸比现有业界标準小10%,还内建新式更小的汇流排连接器。运算匣部份则提供模组化外壳可适应不同I/O需求。改良的盲接液冷装置及连接器
因应开源计画,Nvidia提供了和电源与液冷设备业者Vertiv共同开发的GB200 NV72参考设计,提供给云端业者及资料中心开发人员。Nvidia宣称该参考设计能节省最多50%的实作时间,还减少电源模组所占空间,提升冷却效率。为了解决120KW的冷却电耗,这参考设计包含了Nvidia分流阀(manifold fittings)、浮动盲插(floating blind mates)等液冷技术。
除了Vertiv目前已有40多家资料中心基础架构(data center infrastructure,DCI)已提供Blackwell为基础的设计,包括鸿海、台达电、光宝、云达、Schneider Electronic等,而OEM业者如HPE、Dell、美超微及台湾厂商如云达、华硕、技嘉、和硕、英业达、纬颖也都提供了Blackwell-based服务器。
Nvidia透过开源其设计,有助于扩大Blackwell服务器採用客户群,推升晶片销量。不过,媒体报导受产品瑕疵影响,原订本季推出的Blackwell可能要延迟一季才能出货,使供不应求问题雪上加霜。