最新消息:关注人工智能 AI赋能新媒体运营

GTC 24:Blackwell全新架构带来5倍效能表现

科技智能 admin 浏览 评论
GTC 24:Blackwell全新架构带来5倍效能表现

NVIDIA在GTC 24春季场发表了具有6大创新的Blackwell架构GPU,不但提供更强悍的效能,更降低25倍总体拥有成本,还能透过先进管理功能缩短伺服器停机时间。

裸晶尺寸达到现今光罩极限

Blackwell是专为资料中心处理生成式AI而设计GPU,它採用TSMC(台积电)4NP製程节点,由2.08兆个电晶体构成,是目前世界上最大型的GPU。其晶片由2组裸晶(Die)所构成,每组裸晶的尺寸达到现今半导体製程中光罩的极限,并透过频宽高达10 TB/s的NV-HBI(NVIDIA High-Bandwidth Interface)晶片对晶片互连(Chip-to-Chip Interconnection)相连,让2组裸晶成为单一晶片并确保记忆体一致性(Coherent),能够共享容量高达192 GB的HBM3e高频宽记忆体。

延伸阅读:GTC 24:Blackwell架构详解(上),全新架构带来5倍效能表现(本文)GTC 24:Blackwell架构详解(下),看懂B100、B200、GB200、GB200 NVL72成员的纠结瓜葛GTC 2024春季场系列报导目录

Blackwell在Tensor核心(硬体层面)与TensorRT-LLM、Nemo运算框架(软体层面)协同运作之下支援第2代Transformer引擎,能够加速大型语言模型与混合专家(Mixture-of-Experts)AI模型在训练与推论时的运算效能,并且能够支援包含由社群定义的FP4与FP6资料类型的浮点运算,以及由社群定义的微扩充格式(Microscaling Formats),能够提供高準确度与高吞吐量的运算成效。

全新的Micro-Tensor Scaling技术能够支援动态範围管理演算法(Dynamic Range Management Algorithm)、精细粒度扩充(Fine-Grain Scaling),并支援FP4资料类型运算,且最佳化运算效能与精準度,让Blackwell的FP4 Tensor核心Core能够达到双倍记忆体参数频宽,并让GPU能够容纳双倍尺度的AI模型。

?

NVIDIA创办人暨执行长黄仁勋在GTC 2024春季场开幕演说中展示Blackwell GPU(左)以及前代Hopper架构的H100,可以明显看出2者的尺寸差异。 ▲ NVIDIA创办人暨执行长黄仁勋在GTC 2024春季场开幕演说中展示Blackwell GPU(左)以及前代Hopper架构的H100,可以明显看出2者的尺寸差异。

Blackwell GPU本体由提供多种2.08兆个电晶体构成,是目前世界上最大型的GPU并提供多种先进平台功能。 ▲ Blackwell GPU本体由提供多种2.08兆个电晶体构成,是目前世界上最大型的GPU并提供多种先进平台功能。

GB200 Superchip上具有2组Blackwell GPU,可以看到Blackwell GPU晶片是由2组裸晶构成。 ▲ GB200 Superchip上具有2组Blackwell GPU,可以看到Blackwell GPU晶片是由2组裸晶构成。

Blackwell GPU在FP8资料类型的运算效能为Hopper的2.5倍,若改用新的FP4资料类型则可达到5倍运算效能。 ▲ Blackwell GPU在FP8资料类型的运算效能为Hopper的2.5倍,若改用新的FP4资料类型则可达到5倍运算效能。

与先前Pascal架构相比,Blackwell在8年内达到超1,000倍的效能提升。 ▲ 与先前Pascal架构相比,Blackwell在8年内达到超1,000倍的效能提升。

根据NVIDIA提供的数据,Blackwell架构的GB200 NVL72能带来30倍于前代HGX H100的大型语言Token输出效能。 ▲ 根据NVIDIA提供的数据,Blackwell架构的GB200 NVL72能带来30倍于前代HGX H100的大型语言Token输出效能。

在1.8T GPT MoE模型的训练部分,GB200 NVL72具有4倍于HGX H100的表现。 ▲ 在1.8T GPT MoE模型的训练部分,GB200 NVL72具有4倍于HGX H100的表现。

强化伺服器竞争力

Blackwell GPU也加入了许多专为企业与资料中心应用设计的功能,例如RAS引擎(Reliability, Availability,and Serviceability Engine,可靠性、可用性和可维护性引擎)会透过完整的自我检查机制搭配由AI驱动的大数据分析,预测系统中可能会出状况的检查点(Chickpoint),让维护团队可以即早处理,或是在非不得以需要关机时,也可以安排在冲击最小的时间简进行维护,大幅缩短伺服器的停机时间(Downtime)。

NVIDIA也将机密运算(Confidential Computing)功能由CPU推广至GPU,扩大可信任执行环境(Trusted Execution Environment,TEE)的範围,让Blackwell 成为首款支援TEE-I/O的GPU,能够提供更快、更安全、可证明(Evidence-Based Attestable)的资安保护,并且提供几乎等同于未加密模式的资料吞吐效能,让客户能够确保AI智慧财产权,并确保机密AI训练、推论理与联邦学习(Federated Learning)的安全性。

为了提高资料传输的效率,NVIDIA也一改传统资料分析和资料库运算负载透过CPU处理资料缓慢又繁琐的流程,让Blackwell GPU加速支援包括Apache Spark在内的资料库框架,并内建解压缩效能高达800 GB/s的解压缩引擎,并支援LZ4、Snappy、Deflate等最新压缩格式,全面加速资料库查询(Database Query)管线效能。

Blackwell GPU搭配频宽高达8 TB/s的HBM3e高频宽记忆体以及透过NVLink-C2C互连技术连接至Grace CPU,可以提供18倍于传统CPU或6倍于前代H100 GPU的查询效能测试(Query Benchmark),达成资料分析和资料科学(Data Science)的最高运算效能。

上述的效能、运算密度、电力效率、RAS改善,对伺服器的成本都有正面帮助,另一方面NVIDIA也在Blackwell世代积极推动从空冷转换到水冷的散热方案,透过散热工作液体循环于机架内的CPU、GPU等高温元件以及外部散热器(Radiator,功能等同于个人电脑水冷系统的散热排),进一步降低机房空调的能源消耗。

整体而言,在执行万亿组参数的AI模型条件下,採用水冷方案的GB200能较採用空冷的H100降低25倍总体拥有成本(Total Cost of Ownership,TCO),对于资料中心来说相当有吸引力。

GB200 NVL72在TCO与电力消耗部分的表现优于HGX H100约25倍。 ▲ GB200 NVL72在TCO与电力消耗部分的表现优于HGX H100约25倍。

受益于特化架构与解压缩引擎的优势,GB200 NVL72在资料库查询的效率校传统x86架构系统高出18倍。 ▲ 受益于特化架构与解压缩引擎的优势,GB200 NVL72在资料库查询的效率校传统x86架构系统高出18倍。

Blackwell GPU不但是目前最强的AI加速运算单元,而且还可透过串接多组GPU方式进行水平式扩充(Scale Out),大幅强化总体效能与吞吐量,笔者将于下篇文章进行详细说明。

(回到GTC 2024春季场系列报导目录)

发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论