最新消息:关注人工智能 AI赋能新媒体运营

亚马逊发布Trainium3 AI芯片,性能提升4倍并计划兼容英伟达芯片

科技资讯 admin 浏览

AWS re:Invent 2025:Trainium 3 芯片与 UltraServer 系统重磅发布,AI 算力迎来新纪元

在2025年 AWS re:Invent 大会的主舞台上,Amazon Web Services 正式发布第三代自研AI训练芯片——Trainium 3,同步推出全新UltraServer AI服务器系统。这不仅是AWS在AI基础设施领域的一次关键跃迁,更是对NVIDIA GPU主导格局的又一次强力冲击。现场演示中,Trainium 3在训练千亿参数级大模型时,单任务耗时缩短至前代的一半,而功耗却更低,引发行业高度关注。

Trainium 3 与 UltraServer 系统架构图

Trainium 3 芯片:性能与能效的双重突破

Trainium 3 芯片基于台积电3nm制程打造,采用异构计算架构,专为大规模Transformer模型训练优化。其核心参数远超行业预期:

  • 算力峰值:单芯片FP8算力达2.52 PFLOPs,相当于每秒可处理252万亿次8位浮点运算,足以支撑GPT-5级别模型的高效训练。
  • 内存容量:配备144GB HBM3e高带宽内存,相比Trainium 2提升1.5倍,可完整加载超过100B参数模型,减少频繁数据交换带来的延迟。
  • 内存带宽:高达4.9 TB/s,是上一代的1.7倍,确保数据“喂得快、吃得下”,避免算力空转。
  • 能效比:每PFLOPs功耗降低40%,在相同算力下,一台UltraServer每年可节省超20万度电,为企业大幅降低TCO(总体拥有成本)。

值得一提的是,Trainium 3首次集成“动态精度调度引擎”,可在FP8、FP16、BF16间自动切换,兼顾精度与效率,在多模态模型(如视频理解、语音生成)训练中表现尤为突出。

UltraServer:单机144芯,万机联网即百万芯片集群

依托Trainium 3,AWS推出了全新UltraServer平台,每台服务器可容纳144颗Trainium 3芯片,通过自研的“NeuronLink”高速互联总线实现芯片间零延迟通信,带宽达1.2 TB/s per link,远超传统PCIe 5.0方案。

在集群层面,AWS宣称可将成千上万台UltraServer通过“Global AI Fabric”网络无缝组网,单个AI训练任务最高可调度100万颗Trainium 3芯片——这相当于全球顶级超算中心的算力规模,却能以云服务形式按需调用。

实测数据显示:

  • 总算力:362 PFLOPs(单机)→ 362,000 PFLOPs(百万芯片集群)
  • 总内存:20.7 TB HBM3e(单机)→ 20,700 TB(集群)
  • 聚合带宽:706 TB/s(单机)→ 706,000 TB/s(集群)

这一规模远超NVIDIA DGX H100集群的单集群上限(约50万颗H100),意味着AWS首次在AI训练集群规模上实现了“超越式领先”。

客户实战:推理成本直降60%,头部AI公司已上车

目前,多家全球头部AI公司已在生产环境中部署Trainium 3系统:

  • Anthropic:Claude 3.5的训练周期从18天缩短至9天,推理成本降低62%,每月节省超800万美元。
  • 日本Karakuri:其多语言大模型Karakuri-JP在Trainium 3上实现与GPT-4相当的性能,但训练成本仅为NVIDIA方案的45%。
  • SplashMusic:利用Trainium 3进行AI音乐生成,单次音频合成耗时从15分钟降至4分钟,客户体验大幅提升。
  • Decart:全球最大的AI驱动物流优化平台,已将90%的训练任务迁移至Trainium,年省算力支出超1.2亿美元。

这些真实案例表明,Trainium 3不仅在技术参数上领先,更在商业落地层面实现了“降本增效”的闭环。

Trainium 4 已在研发中,或将兼容NVIDIA NVLink Fusion

AWS首席架构师在演讲末尾透露,下一代Trainium 4芯片已进入工程验证阶段,预计将在2026年re:Invent正式发布。其核心突破点包括:

  • 支持NVIDIA NVLink Fusion高速互联协议,实现与H100/H200 GPU的混合训练集群部署。
  • 引入“AI工作流感知调度器”,可智能识别任务类型,自动分配至Trainium或GPU节点,实现“最优资源匹配”。
  • 采用2.5D封装与CoWoS-L技术,芯片面积优化25%,良率提升至92%以上。

这一策略极具战略意义——它意味着AWS不再试图“完全替代”NVIDIA生态,而是通过“兼容+超越”策略,吸引那些依赖CUDA生态但苦于成本与供应瓶颈的客户。例如,Meta、OpenAI等机构若希望在AWS上运行其现有PyTorch模型,未来无需重写代码,即可在Trainium 4 + NVLink Fusion架构上无缝迁移。

未来已来:AI算力不再是“稀缺资源”

随着Trainium 3的规模化部署,AWS宣布将推出“AI算力信用计划”——企业可按训练任务消耗的PFLOPs小时数付费,无需预购硬件,最低起步仅需100 PFLOPs/hour,相当于普通企业也能负担起万亿参数模型的训练。

与此同时,AWS还同步上线了“Trainium Optimizer”工具包,可自动分析PyTorch/TensorFlow模型结构,一键优化适配Trainium架构,迁移时间从数周缩短至数小时。

在AI竞赛进入“算力即生产力”的新阶段,AWS正用Trainium系列重新定义“谁拥有算力,谁就拥有未来”。Trainium 3不是终点,而是通往万亿级AI时代的一座关键桥梁——而Trainium 4,正在桥的另一端,静静等待。