最新消息:关注人工智能 AI赋能新媒体运营

亚马逊发布Trainium3芯片与Trainium3超算服务器

科技资讯 admin 浏览

Amazon于本周举行的年度技术大会re:Invent 2025上,发布了全新的AWS Trainium3芯片及Trainium3 UltraServers服务器,前者为AWS的第四代AI专用芯片,后者是采用Trainium3芯片的高性能AI服务器。此外,Amazon也公布了下一代Trainium4将支持GPU。

AWS Trainium

AWS Trainium是AWS专为AI训练与推理设计的AI芯片系列,旨在提供高性能的同时降低成本。新版Trainium3采用3纳米制程,搭载HBM3e高带宽内存,内存带宽接近前一代的4倍,芯片互连采用自研的NeuronLink-v4,能效提升了40%。

Trainium3 UltraServers

Trainium3 UltraServers每台服务器最多可安装144颗Trainium3芯片,而上一代Trainium2 UltraServers最多仅能安装64颗Trainium2芯片,因此新款的计算能力最高可达362 petaflops,远超Trainium2 UltraServers的83.2 petaflops。

此外,Trainium3 UltraServers采用AWS全新研发的NeuronSwitch-v1交换器,并通过NeuronLink-v4构建全互连架构,使服务器内每颗Trainium3芯片之间均能以每秒2TB的高速带宽进行数据交换。

这使得Trainium3 UltraServers最高可提供4.4倍的性能、3.9倍的内存带宽,以及超过4倍的每瓦能效,为训练和部署前沿模型提供最优的性价比,涵盖强化学习、混合专家模型、推理架构与长上下文模型等。

客户应用与成本优势

Amazon表示,包括Anthropic、Karakuri、Metagenomi、NetoAI、Ricoh与Splash Music等客户,已通过Trainium将训练与推理成本降低最多50%。专注于实时生成视频的中国AI初创企业Decart使用Trainium3进行实时视频生成,其推理速度比GPU快4倍,但成本仅为GPU的一半,使原本依赖大量GPU的视频生成模型得以大规模部署与实时交互。

这是因为Decart的实时视频生成属于高吞吐量的推理负载,瓶颈在于帧与数据的同步处理能力与内存带宽,而非纯计算力。Trainium在FP8推理、内存带宽与并行优化方面优于GPU,加上实例费率更低,使视频推理速度可达GPU的4倍、执行时间缩短,整体成本因此仅为GPU的一半。

下一代Trainium4

Amazon还宣布,下一代Trainium4将支持NVIDIA的NVLink Fusion高速互连技术,使Trainium4、AWS自研的Graviton CPU,以及AWS高性能网络接口EFA,能够与GPU在同一MGX机架中协同工作,提供同时支持GPU与Trainium的高性能、高性价比机架级AI基础设施。