亚马逊发布Trainium3芯片与Trainium3超算服务器

Amazon于本周举行的年度技术大会re:Invent 2025上，发布了全新的AWS Trainium3芯片及Trainium3 UltraServers服务器，前者为AWS的第四代AI专用芯片，后者是采用Trainium3芯片的高性能AI服务器。此外，Amazon也公布了下一代Trainium4将支持GPU。

AWS Trainium

AWS Trainium是AWS专为AI训练与推理设计的AI芯片系列，旨在提供高性能的同时降低成本。新版Trainium3采用3纳米制程，搭载HBM3e高带宽内存，内存带宽接近前一代的4倍，芯片互连采用自研的NeuronLink-v4，能效提升了40%。

Trainium3 UltraServers

Trainium3 UltraServers每台服务器最多可安装144颗Trainium3芯片，而上一代Trainium2 UltraServers最多仅能安装64颗Trainium2芯片，因此新款的计算能力最高可达362 petaflops，远超Trainium2 UltraServers的83.2 petaflops。

此外，Trainium3 UltraServers采用AWS全新研发的NeuronSwitch-v1交换器，并通过NeuronLink-v4构建全互连架构，使服务器内每颗Trainium3芯片之间均能以每秒2TB的高速带宽进行数据交换。

这使得Trainium3 UltraServers最高可提供4.4倍的性能、3.9倍的内存带宽，以及超过4倍的每瓦能效，为训练和部署前沿模型提供最优的性价比，涵盖强化学习、混合专家模型、推理架构与长上下文模型等。

客户应用与成本优势

Amazon表示，包括Anthropic、Karakuri、Metagenomi、NetoAI、Ricoh与Splash Music等客户，已通过Trainium将训练与推理成本降低最多50%。专注于实时生成视频的中国AI初创企业Decart使用Trainium3进行实时视频生成，其推理速度比GPU快4倍，但成本仅为GPU的一半，使原本依赖大量GPU的视频生成模型得以大规模部署与实时交互。

这是因为Decart的实时视频生成属于高吞吐量的推理负载，瓶颈在于帧与数据的同步处理能力与内存带宽，而非纯计算力。Trainium在FP8推理、内存带宽与并行优化方面优于GPU，加上实例费率更低，使视频推理速度可达GPU的4倍、执行时间缩短，整体成本因此仅为GPU的一半。

下一代Trainium4

Amazon还宣布，下一代Trainium4将支持NVIDIA的NVLink Fusion高速互连技术，使Trainium4、AWS自研的Graviton CPU，以及AWS高性能网络接口EFA，能够与GPU在同一MGX机架中协同工作，提供同时支持GPU与Trainium的高性能、高性价比机架级AI基础设施。

CB科技站

亚马逊发布Trainium3芯片与Trainium3超算服务器

AWS Trainium

Trainium3 UltraServers

客户应用与成本优势

下一代Trainium4

与本文相关的文章