最新消息:关注人工智能 AI赋能新媒体运营

【AWS GAI战略2】训练兆级参数模型没问题!AWS揭3款云端运算新服务迎战GAI

科技智能 admin 浏览 评论
图片来源:

AWS

每年的AWS re:Invent全球大会,都有个惯例,由AWS执行长在主题演讲中,一口气揭露年度战略和旗下产品新突破。

今年也不例外,新上任的AWS执行长Matt Garman在12月3日的主题演讲中,不只谈起AWS过去18年来的服务发展基石「运算、储存、资料库和AI推论」,还点出:「今日,运算面临的最大问题是AI,特别是生成式AI。」意味着,AWS运算服务新一年的发展策略,就是满足生成式AI需求,他也在接下来的演讲中,说明AWS如何实现这目标。

?云端运算亮点1? 满足数十亿参数模型训练的执行个体

Matt Garman自己是AWS运算部门出身,曾任AWS运算服务Amazon EC2团队主管多年。

他回顾,AWS运算服务自2006推出第一代EC2执行个体(编按:执行个体是指在云端环境中执行的虚拟机器)后,每年都有新进展,比如前几年揭露的Nitro系统、去年问世的Graviton4处理器,前者不只突破虚拟化基础设施架构,将绑在一起的基础设施管理功能分解、卸载到专用硬件和软件上,把服务器资源交给执行个体,大幅减少执行成本,后者则是更强更节能的处理器,用来支援不少云端运算新服务,广受市场好评。

但即便有这样的成绩,Matt Garman认为,AWS目前还面临一道严峻的运算课题,也就是生成式AI的运算需求,特别是大型语言模型(LLM)、扩散模型和高效能深度学习模型等模型训练的运算资源需求。

也由于,目前绝大多数的AI应用都仰赖GPU算力,为因应更强大的模型算力需求,AWS进一步延伸自己与GPU大厂Nvidia十多年的合作,在今年大会中揭露了新一代P6系列EC2执行个体。这个P6执行个体,将採用Nvidia最新的Blackwell GPU,「预计2025年上市,提供比目前GPU执行个体快上2.5倍的运算能力。」

不只与异业联手开发,Matt Garman还揭露,AWS自研AI加速晶片Trainuim2驱动的EC2执行个体Amazon EC2 Trn2 Instances正式上架了,先从美国东部区域开始提供。

这个执行个体专为生成式AI和深度学习设计,尤其是为LLM等大型模型训练所设计,效能比目前的GPU EC2执行个体好上3到4成。

其中,单一个EC2 Trn2执行个体,由16颗Trainium2晶片组成,由NeuronLink高频宽高速连接,可提供低延迟的20.8 pflops算力,适合用来训练和部署数十亿参数规模的模型。

但如果AI模型规模更大,需要更多算力呢?

?云端运算亮点2? 满足兆级参数模型训练的执行个体

AWS还有一手,也就是Matt Garman在大会中亮相的另一款执行个体Amazon EC2 Trn2 UltraServers预览版,能满足大模型训练和部署需求。

AWS公用运算部门资深副总裁Peter DeSantis在今年大会中秀出实体Trn2 UltraServers服务器,对应AWS新推出的EC2 Trn2 UltraServers执行个体预览版,可满足兆级参数模型的训练、部署算力需求。(图片来源/AWS)

这个Trn2 UltraServers以NeuronLink高速连接4台Trn2服务器,搭载64颗Trainium2晶片,形成一柜大型服务器,可分别提供83.2 pflops和332.8 pflops的密集与稀疏运算效能。AWS公用运算部门资深副总裁Peter DeSantis还在大会首日现场,秀出实体的Trn2 UltraServers服务器机柜。

使用者可以运用这台服务器的云端算力资源,来扩展生成式AI工作负载,像是训练兆级参数的大模型,也能用来加速这类规模模型的即时推论工作。

不过,AWS还不满足于Trn2 UltraServers的算力。Matt Garman更透露,AWS正与专门打造LLM的AI新创Anthropic联手,正开发一套由多台Trn2 UltraServers服务器组成的EC2 UltraCluster运算丛集,并取名为Project Rainier。

「它将由数十万个Trainium2 晶片组成!」Matt Garman点出,Project Rainier将提供Anthropic目前用来训练模型的5倍算力。甚至AWS预期,Project Rainier届时将成为世界上最大的AI运算丛集,供Anthropic用来训练和部署新一代模型。

AWS运算服务的战略,还不只如此。

Matt Garman预告,明年,AWS将推出新一代自研AI加速晶片Trainium3,一样专门为GAI设计。「这将是AWS第一款採用3奈米製程节点,将提供比Trainuim2高出2倍的算力,效能还提高40%,」他说。

从P6系列执行个体、EC2 Trn2执行个体,再到能满足兆级参数模型训练和部署的EC2 Trn2 UltraServers,甚至是运算资源规模更上层楼的Project Rainier,正是AWS今年度云端运算战略如何满足GAI需求的实例。

?Anthropic为何要用数十万颗Trainium 2训练新模型?

在今年度re:Invent大会中,Anthropic共同创办人Tom Brown还现身说法,解释Anthropic为何相中AWS自研晶片Trainium 2,用来打造下一代超大AI运算丛集。

Tom Brown说明,模型推论速度要够快,不只靠硬件规格,关键还在于服务器中的收缩阵列(Systolic Arrays)要时时发挥作用。

也就是说,收缩阵列要能持续依序接收模型输入值,而不会突然卡住、得等待输入值从记忆体或其他地方送进来。「就好比玩俄罗斯方块一样,方块结合得越紧密,就越有效率、成本也越低,」他如此比喻。

在与AWS解决这个问题的过程中,Anthropic发现,Trainium 2晶片的设计,非常适合执行低阶程序语言,而且还能记录系统中每条指令的执行时间。

这意味着,开发者可以清楚知道,收缩阵列何时正常工作、何时卡住,以及为何卡住,让核心(Kernel)程序的开发更快更简单。

也因为Trainium 2晶片的这个优点,Anthropic决定与AWS共同打造新一代运算丛集Project Rainier,将由数十万个Trainium 2晶片组成,Anthropic还要用来训练下一代Claude模型。

「这个丛集规模是我们所使用过的算力的5倍之大,」Tom Brown解释,这意味着,Anthropic的开发速度将更快,而Claude模型使用者,则能以更便宜的价格使用更聪明的模型和AI代理,来执行更重要的专案。

?相关报导?

发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论