最新消息:关注人工智能 AI赋能新媒体运营

微软公开Fairwater架构,串联多座数据中心形成AI超级工厂

科技资讯 admin 浏览

微软在周二(11月18日)举行的Microsoft Ignite年度技术大会上公布了Fairwater的最新成员——位于佐治亚州亚特兰大的数据中心园区。该园区将与今年9月在威斯康星州发布的AI数据中心、多代AI超级计算机,以及更广泛的Azure全球数据中心网络互联,共同构成全球首个行星级AI超级工厂。

微软于9月首次提出Fairwater这一品牌名称,作为新一代AI数据中心站点级的统称。每一座Fairwater都是AI超级工厂的组成单元,采用全新一代AI数据中心架构设计。

传统云数据中心主要用于运行大量独立的小型工作负载,例如托管网站、电子邮件或企业应用,而Fairwater站点则不同,它通过单一网络连接数十万个最新的NVIDIA GPU,以AI超级计算机的形式运行,其性能远超当前全球最快的超级计算机,能够以前所未有的速度执行AI训练与推理任务。最新落成的亚特兰大站点同样整合了数十万个最新的NVIDIA GB200与NVIDIA GB300 GPU。

Fairwater采用统一且连贯的NVIDIA Blackwell GPU集群,通过扁平化网络突破传统Clos架构的限制,支持数十万颗GPU协同运算。每机架最多可容纳72颗Blackwell GPU,通过NVLink提供低延迟与1.8TB/s带宽,并配备14TB共享内存。机架间则通过双层以太网互联形成大型集群,实现每GPU 800Gbps的连接速率,结合SONiC网络操作系统与高频遥测技术,构建低延迟、高可靠且具成本效益的AI网络。

微软通过专用AI WAN光纤网络连接多个Fairwater站点,全年铺设光纤超过12万英里,使不同代际的超级计算机能够跨州协同工作,形成行星级AI超级工厂。Fairwater还支持多种工作负载的动态调度,包括预训练、微调、强化学习与合成数据生成,从而全面提升GPU使用效率。

微软指出,Fairwater的设计目标是最大化计算密度,降低机柜内及机柜间的延迟,提升系统性能。其中,冷却技术的升级是提升密度的关键手段之一。Fairwater采用园区级液体冷却系统,通过封闭循环方式使用冷却液,初次灌注的用水量约等于20户家庭一年的用水量。只要水质保持在化学标准范围内,便无需更换,理论上可连续使用超过6年,大幅降低水资源消耗,提升可持续性。此外,液冷具备更高的热传导效率,使机架与机柜的功率密度达到更高水平,支持更高密度的计算部署。

另一项提升密度的措施是采用双层数据中心建筑结构。由于许多AI工作负载对延迟极为敏感,线缆长度会显著影响性能。在Fairwater中,每颗GPU都需与所有其他GPU互联,而双层设计可在三维空间中布局机柜,最大限度缩短线缆长度,从而改善延迟、带宽、可靠性与成本。

传统数据中心通常采用大型单层钢结构,原因包括单层更易承重、便于气流管理、布线和电力配置,以及避免大型设备震动。因此,为缩短线缆而采用双层设计的Fairwater极为罕见,只有AI超级计算机才需要将所有GPU互联成一台巨型机器。

亚特兰大被选为站点的另一重要原因,是当地电网极为稳定,能够在3×9(99.9%)成本基础上实现4×9(99.99%)的电力可用性,因此无需部署传统数据中心常见的冗余电力设备,从而节省了成本、空间与建设时间。