最新消息:关注人工智能 AI赋能新媒体运营

GTC 24:Blackwell架构详解!看懂B100、B200、GB200、GB200 NVL72成员的纠结瓜葛

科技智能 admin 浏览 评论
GTC 24:Blackwell架构详解!看懂B100、B200、GB200、GB200 NVL72成员的纠结瓜葛

身为目前最强的AI加速运算单元,Blackwell GPU不但具有强悍的效能,还可透过串接多组GPU方式构建「超大型GPU」,带来更高的总体效能与吞吐量。

不同散热与介面组态

NVIDIA推出了多种Blackwell GPU组态,包含整合8组GPU的HGX形式超级电脑,以及整合2组GPU搭配1组Grace CPU的GB200运算节点,而它们又可以彼此串连成为更大型的运算丛集。

延伸阅读:GTC 24:Blackwell架构详解(上),全新架构带来5倍效能表现GTC 24:Blackwell架构详解(下),看懂B100、B200、GB200、GB200 NVL72成员的纠结瓜葛(本文)GTC 2024春季场系列报导目录

NVIDIA在GTC大会上主要推广的型号为整合2组Blackwell GPU与1组Grace CPU的GB200 Superchip,NVIDIA推出的GB200 Superchip运算节点(Compute Node)则是将2组GB200 Superchip安置于1U高度的伺服器,并採用水冷散热方案,能让单组GB200 Superchip的TDP达到2700W,完全解放效能表现。

此外NVIDIA也会推出採用SXG介面的B200与B100等GPU,且都能够以8组GPU组成HGX B200或HGX B100伺服器,2者主要的差异在于B200的TDP最高可达1000W,而B100仅为800W。

NVIDIA超大规模与高效能运算副总裁暨总经理Ian Buck也在媒体访谈中补充说明,若将B200安置于伺服器并搭配水冷散热方案,则可将TDP上调至1200W,进一步提高运算效能。

另一方面,在散热与供电许可的範围下,B200与B100 GPU能够直接与现有H100 HGX或相容伺服器进行GPU替换(Drop-in Replace),提供更大的升级弹性并节省升级费用。

(若下方表格无法完整显示,请点选我看图片版)

GB200 Superchip规格表规格GB200 Superchip组态Grace CPU + 2 Blackwell GPUFP4 Tensor Core稠密/稀疏运算效能20 / 40 PFLOPSFP8/FP6 Tensor Core稠密/稀疏运算效能10 / 20 PFLOPSINT8 Tensor Core稠密/稀疏运算效能10 / 20 PFLOPSFP16/BF16 Tensor Core稠密/稀疏运算效能5 / 10 PFLOPSFP32 Tensor Core稠密/稀疏运算效能2.5 / 5 PFLOPSFP64 Tensor Core稠密运算效能90 TFLOPS (0.09PFLOPS)HBM记忆体架构HBM3e 8x2-sitesHBM记忆体容量最大384 GBHBM记忆体频宽最高16 TB/s处理器组态72x Arm Neoverse V2核心处理器L1快取记忆体每核心64KB i-cache + 64KB d-cache处理器L2快取记忆体每核心1MB处理器L3快取记忆体114MBLPDDR5X记忆体容量最大480 GBLPDDR5X记忆体频宽最高512 GB/s解压缩引擎有影像解码器2x 7 NVDEC、2x 7 NVJPEGMulti-Instance GPU(MIG)执行个体2x 7尺寸型式(Form factor)Superchip模组NVLink版本NVLink v5NVLink频宽(双向)2x 1.8 TB/sPCIe Gen 6频宽(双向)2x 256 GB/sTDP最高2700W伺服器组态NVIDIA GB200 NVL72最高可达576 GPUs

?(若下方表格无法完整显示,请点选我看图片版)

NVIDIA Blackwell HGX规格表规格HGX B200HGX B100组态8x Blackwell GPU?FP4 Tensor Cor运算效能144 PFLOPS112 PFLOPSFP8/FP6/INT8 Tensor Core运算效能72 PFLOPS56 PFLOPS高速记忆体容量最大1.5 TB聚合记忆体频宽最高64 TB/s聚合NVLink频宽14.4 TB/s单一GPU规格TDP最高1000W最高800WFP4 Tensor Cor运算效能18 PFLOPS14 PFLOPSFP8/FP6/INT8 Tensor Core运算效能9 PFLOPS7 PFLOPSFP16/BF16 Tensor Core运算效能4.5 PFLOPS3.5 PFLOPSFP32 Tensor Cor运算效能2.2 PFLOPS1.8 PFLOPSFP64 Tensor Cor运算效能40 TFLOPS30 TFLOPSGPU记忆体组态HBM3eGPU记忆体频宽最高8 TB/s互连介面NVLink(1.8 TB/s)、PCIe Gen6(256 GB/s)伺服器组态8 GPU(NVIDIA HGX B100 伙伴与NVIDIA认证系统)8 GPU(NVIDIA HGX B200 伙伴与NVIDIA认证系统)

Blackwell GPU的实体图片,更多详细介绍可看笔者的前篇报导。 ▲ Blackwell GPU的实体图片,更多详细介绍可看笔者的前篇报导。

GB200 Superchip整合2组Blackwell GPU与1组Grace CPU。 ▲ GB200 Superchip整合2组Blackwell GPU与1组Grace CPU。

GB200 Superchip的实体图片,上方为2组Blackwell GPU,中央则为Grace CPU与LPDDR5x记忆体。 ▲ GB200 Superchip的实体图片,上方为2组Blackwell GPU,中央则为Grace CPU与LPDDR5x记忆体。

每组Blackwell GPU内建容量为384 GB的HBM3e高频宽记忆体。 ▲ 每组Blackwell GPU内建容量为384 GB的HBM3e高频宽记忆体。

Grace CPU则在外部配置最大480 GB LPDDR5X记忆体。 ▲ Grace CPU则在外部配置最大480 GB LPDDR5X记忆体。

GB200 Superchip运算节点整合2组GB200 Superchip,搭配水冷散热方案,安置于1U高度的伺服器。(左方为去除水冷头的情况) ▲ GB200 Superchip运算节点整合2组GB200 Superchip,搭配水冷散热方案,安置于1U高度的伺服器。(左方为去除水冷头的情况)

此外客户也可以选则整合8组SXG介面Blackwell GPU的HGX B200或HGX B100伺服器。 ▲ 此外客户也可以选则整合8组SXG介面Blackwell GPU的HGX B200或HGX B100伺服器。

透过高速互连频宽组成超大GPU

Blackwell GPU的另一大创新功能,就是能够透过NVLink串联最多576组Blackwell GPU,让整个丛集犹如组成单一超大GPU,达到扩大运算效能、共享记忆体、执行规模更大模型的能力。

而NVIDIA也推出了GB200 NVL72伺服器,它的机柜(Rack)具有18组GB200 Superchip运算节点以及9组NVLink交换器(每组交换器具有2组NVLink交换器晶片所),能在由72组GPU组成的NVL72网域丛集中,以130 TB/s的频宽交换资料。而跨多台机柜的GPU资料则会透过InfiniBand网路传输。

相对于Blackwell GPU晶片内部的2组裸晶透过频宽高达10 TB/s的NV-HBI(NVIDIA High-Bandwidth Interface)晶片对晶片互连(Chip-to-Chip Interconnection)相连,多颗GPU之间则是透过第5代NVLink相连。它採用18通道(Link)的高速差分讯号对(High-Speed Differential Pair),能够提供总共高达1.8 TB/s的双向频宽(即单向为900 GB/s),最高能支援576组GPU相连,远高于前代的256组GPU。

第5代NVLink的频远远高出PCIe Gen 5x16的14倍,其1小时的双向传输量总合约为6.32 PB,大约等同于18年4K电影串流的资料量,或是11组Blackwell GPU之间的传数量总合就与整个网际网路相当,对于执行大型AI模型的效能表现扮演重要角色。

(若下方表格无法完整显示,请点选我看图片版)

NVIDIA GB200 NVL72规格表规格NVIDIA GB200 NVL72组态36x GB200 SuperchipFP4 Tensor Core稠密/稀疏运算效能720 / 1440 PFLOPSFP8/FP6 Tensor Core稠密/稀疏运算效能360 / 720 PFLOPSINT8 Tensor Core稠密/稀疏运算效能360 / 720 PFLOPSHBM记忆体架构HBM3eHBM记忆体容量最大13.5 TBHBM记忆体频宽最高576 TB/s处理器组态2592x Arm Neoverse V2核心高速记忆体容量最大30 TBNVLink交换器7xNVLink频宽(双向)130 TB/s

NVLink交换器晶片能够串联最多576组Blackwell GPU组成单一超大GPU,达到扩大运算效能、共享记忆体、执行规模更大模型的能力。 ▲ NVLink交换器晶片能够串联最多576组Blackwell GPU组成单一超大GPU,达到扩大运算效能、共享记忆体、执行规模更大模型的能力。

NVLink交换器由2组NVLink交换器晶片构成,并提供144组NVLink端子,无阻塞交换刘量答14.4 TB/s,为GB200 NVL72系统提供高频宽和低延迟资料交换能力。 ▲ NVLink交换器由2组NVLink交换器晶片构成,并提供144组NVLink端子,无阻塞交换刘量答14.4 TB/s,为GB200 NVL72系统提供高频宽和低延迟资料交换能力。

GB200 NVL72机柜具有18组GB200 Superchip运算节点,总共包含72组Blackwell GPU与36组Grace CPU。 ▲ GB200 NVL72机柜具有18组GB200 Superchip运算节点,总共包含72组Blackwell GPU与36组Grace CPU。

GB200 NVL72机柜背面则有称为NVLink Spine(NVLink脊椎)的资料连接缆线,GPU串联在一起。 ▲ GB200 NVL72机柜背面则有称为NVLink Spine(NVLink脊椎)的资料连接缆线,GPU串联在一起。

NVIDIA不但透过CUDA确立了AI运算软体与框架的领先优势,随着Blackwell架构推出的第5代NVLink也支援串联更多GPU,进而提供更庞大的运算能力以及记忆体总容量,让竞争对手望尘莫及。

(回到GTC 2024春季场系列报导目录)

发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论