GTC 24：Blackwell架构详解！看懂B100、B200、GB200、GB200 NVL72成员的纠结瓜葛

身为目前最强的AI加速运算单元，Blackwell GPU不但具有强悍的效能，还可透过串接多组GPU方式构建「超大型GPU」，带来更高的总体效能与吞吐量。

不同散热与介面组态

NVIDIA推出了多种Blackwell GPU组态，包含整合8组GPU的HGX形式超级电脑，以及整合2组GPU搭配1组Grace CPU的GB200运算节点，而它们又可以彼此串连成为更大型的运算丛集。

延伸阅读：GTC 24：Blackwell架构详解（上），全新架构带来5倍效能表现GTC 24：Blackwell架构详解（下），看懂B100、B200、GB200、GB200 NVL72成员的纠结瓜葛（本文）GTC 2024春季场系列报导目录

NVIDIA在GTC大会上主要推广的型号为整合2组Blackwell GPU与1组Grace CPU的GB200 Superchip，NVIDIA推出的GB200 Superchip运算节点（Compute Node）则是将2组GB200 Superchip安置于1U高度的伺服器，并採用水冷散热方案，能让单组GB200 Superchip的TDP达到2700W，完全解放效能表现。

此外NVIDIA也会推出採用SXG介面的B200与B100等GPU，且都能够以8组GPU组成HGX B200或HGX B100伺服器，2者主要的差异在于B200的TDP最高可达1000W，而B100仅为800W。

NVIDIA超大规模与高效能运算副总裁暨总经理Ian Buck也在媒体访谈中补充说明，若将B200安置于伺服器并搭配水冷散热方案，则可将TDP上调至1200W，进一步提高运算效能。

另一方面，在散热与供电许可的範围下，B200与B100 GPU能够直接与现有H100 HGX或相容伺服器进行GPU替换（Drop-in Replace），提供更大的升级弹性并节省升级费用。

（若下方表格无法完整显示，请点选我看图片版）

GB200 Superchip规格表规格GB200 Superchip组态Grace CPU + 2 Blackwell GPUFP4 Tensor Core稠密/稀疏运算效能20 / 40 PFLOPSFP8/FP6 Tensor Core稠密/稀疏运算效能10 / 20 PFLOPSINT8 Tensor Core稠密/稀疏运算效能10 / 20 PFLOPSFP16/BF16 Tensor Core稠密/稀疏运算效能5 / 10 PFLOPSFP32 Tensor Core稠密/稀疏运算效能2.5 / 5 PFLOPSFP64 Tensor Core稠密运算效能90 TFLOPS （0.09PFLOPS）HBM记忆体架构HBM3e 8x2-sitesHBM记忆体容量最大384 GBHBM记忆体频宽最高16 TB/s处理器组态72x Arm Neoverse V2核心处理器L1快取记忆体每核心64KB i-cache + 64KB d-cache处理器L2快取记忆体每核心1MB处理器L3快取记忆体114MBLPDDR5X记忆体容量最大480 GBLPDDR5X记忆体频宽最高512 GB/s解压缩引擎有影像解码器2x 7 NVDEC、2x 7 NVJPEGMulti-Instance GPU（MIG）执行个体2x 7尺寸型式（Form factor）Superchip模组NVLink版本NVLink v5NVLink频宽（双向）2x 1.8 TB/sPCIe Gen 6频宽（双向）2x 256 GB/sTDP最高2700W伺服器组态NVIDIA GB200 NVL72最高可达576 GPUs

?（若下方表格无法完整显示，请点选我看图片版）

NVIDIA Blackwell HGX规格表规格HGX B200HGX B100组态8x Blackwell GPU?FP4 Tensor Cor运算效能144 PFLOPS112 PFLOPSFP8/FP6/INT8 Tensor Core运算效能72 PFLOPS56 PFLOPS高速记忆体容量最大1.5 TB聚合记忆体频宽最高64 TB/s聚合NVLink频宽14.4 TB/s单一GPU规格TDP最高1000W最高800WFP4 Tensor Cor运算效能18 PFLOPS14 PFLOPSFP8/FP6/INT8 Tensor Core运算效能9 PFLOPS7 PFLOPSFP16/BF16 Tensor Core运算效能4.5 PFLOPS3.5 PFLOPSFP32 Tensor Cor运算效能2.2 PFLOPS1.8 PFLOPSFP64 Tensor Cor运算效能40 TFLOPS30 TFLOPSGPU记忆体组态HBM3eGPU记忆体频宽最高8 TB/s互连介面NVLink（1.8 TB/s）、PCIe Gen6（256 GB/s）伺服器组态8 GPU（NVIDIA HGX B100 伙伴与NVIDIA认证系统）8 GPU（NVIDIA HGX B200 伙伴与NVIDIA认证系统）

▲ Blackwell GPU的实体图片，更多详细介绍可看笔者的前篇报导。

▲ GB200 Superchip整合2组Blackwell GPU与1组Grace CPU。

▲ GB200 Superchip的实体图片，上方为2组Blackwell GPU，中央则为Grace CPU与LPDDR5x记忆体。

▲ 每组Blackwell GPU内建容量为384 GB的HBM3e高频宽记忆体。

▲ Grace CPU则在外部配置最大480 GB LPDDR5X记忆体。

▲ GB200 Superchip运算节点整合2组GB200 Superchip，搭配水冷散热方案，安置于1U高度的伺服器。（左方为去除水冷头的情况）

▲ 此外客户也可以选则整合8组SXG介面Blackwell GPU的HGX B200或HGX B100伺服器。

透过高速互连频宽组成超大GPU

Blackwell GPU的另一大创新功能，就是能够透过NVLink串联最多576组Blackwell GPU，让整个丛集犹如组成单一超大GPU，达到扩大运算效能、共享记忆体、执行规模更大模型的能力。

而NVIDIA也推出了GB200 NVL72伺服器，它的机柜（Rack）具有18组GB200 Superchip运算节点以及9组NVLink交换器（每组交换器具有2组NVLink交换器晶片所），能在由72组GPU组成的NVL72网域丛集中，以130 TB/s的频宽交换资料。而跨多台机柜的GPU资料则会透过InfiniBand网路传输。

相对于Blackwell GPU晶片内部的2组裸晶透过频宽高达10 TB/s的NV-HBI（NVIDIA High-Bandwidth Interface）晶片对晶片互连（Chip-to-Chip Interconnection）相连，多颗GPU之间则是透过第5代NVLink相连。它採用18通道（Link）的高速差分讯号对（High-Speed Differential Pair），能够提供总共高达1.8 TB/s的双向频宽（即单向为900 GB/s），最高能支援576组GPU相连，远高于前代的256组GPU。

第5代NVLink的频远远高出PCIe Gen 5x16的14倍，其1小时的双向传输量总合约为6.32 PB，大约等同于18年4K电影串流的资料量，或是11组Blackwell GPU之间的传数量总合就与整个网际网路相当，对于执行大型AI模型的效能表现扮演重要角色。

（若下方表格无法完整显示，请点选我看图片版）

NVIDIA GB200 NVL72规格表规格NVIDIA GB200 NVL72组态36x GB200 SuperchipFP4 Tensor Core稠密/稀疏运算效能720 / 1440 PFLOPSFP8/FP6 Tensor Core稠密/稀疏运算效能360 / 720 PFLOPSINT8 Tensor Core稠密/稀疏运算效能360 / 720 PFLOPSHBM记忆体架构HBM3eHBM记忆体容量最大13.5 TBHBM记忆体频宽最高576 TB/s处理器组态2592x Arm Neoverse V2核心高速记忆体容量最大30 TBNVLink交换器7xNVLink频宽（双向）130 TB/s

▲ NVLink交换器晶片能够串联最多576组Blackwell GPU组成单一超大GPU，达到扩大运算效能、共享记忆体、执行规模更大模型的能力。

▲ NVLink交换器由2组NVLink交换器晶片构成，并提供144组NVLink端子，无阻塞交换刘量答14.4 TB/s，为GB200 NVL72系统提供高频宽和低延迟资料交换能力。

▲ GB200 NVL72机柜具有18组GB200 Superchip运算节点，总共包含72组Blackwell GPU与36组Grace CPU。

▲ GB200 NVL72机柜背面则有称为NVLink Spine（NVLink脊椎）的资料连接缆线，GPU串联在一起。

NVIDIA不但透过CUDA确立了AI运算软体与框架的领先优势，随着Blackwell架构推出的第5代NVLink也支援串联更多GPU，进而提供更庞大的运算能力以及记忆体总容量，让竞争对手望尘莫及。

（回到GTC 2024春季场系列报导目录）

CB科技站

GTC 24：Blackwell架构详解！看懂B100、B200、GB200、GB200 NVL72成员的纠结瓜葛

不同散热与介面组态

透过高速互连频宽组成超大GPU

与本文相关的文章