
看准移动装置端的AI应用潜力,Arm发布新的Lumex运算子系统(Compute Subsystem,CSS),全面更新旗下的移动CPU和GPU,搭配全新的SME2(Scalable Matrix Extension 2)可扩展指令集,宣称AI性能最高提升5倍。
Arm手机策略总监蔡武男表示,如今用户已经习惯在智能手机屏幕上进行触控操作,但随着AI在移动设备上的普及,未来将带来全新的人机交互方式。新一代用户可能不再依赖触控,而是通过语音与手机对话,让AI根据需求自动执行任务。尽管移动设备可以依赖云端进行AI推理,但由于移动设备的移动性,网络环境可能不稳定,导致在无信号或信号较差的区域影响AI体验。此外,完全依赖云端进行AI推理也会显著增加服务提供商的成本。
强化AI性能,提升能效与实时性
鉴于AI在移动设备中的重要性日益提升,本地执行AI应用具备更高的即时性和低延迟优势,同时考虑到移动设备使用电池供电,还需具备更高的能源效率。为此,Arm推出全新的Lumex CSS运算平台,并搭载SME2指令集。该指令集显著提升了Lumex CSS的CPU AI处理性能,最高提升达5倍;在语音类任务中,延迟可降低4.7倍,音频生成速度则提升2.8倍。
Arm以运动App“智能瑜伽教练”为例,在SME2指令集加速下,文字转语音生成速度可提升2.4倍,用户可以更即时地获得AI的瑜伽指导。
根据Arm展示的AI加速效果,未搭载SME2指令集的CPU在神经网络任务处理中性能远低于GPU,而搭载SME2的CPU则明显提升了神经网络处理能力,缩小了与GPU之间的性能差距,甚至在部分测试项目中超越了GPU。
为吸引软件开发者,Arm也推出KleidiAI库,帮助设备充分发挥SME2的性能。目前KleidiAI支持主流AI框架,如PyTorch ExecuTorch、Google LiteRT、ONNX Runtime等。
Arm预计未来将把SME2扩展至更多CPU平台,并预测到2030年,搭载SME和SME2的设备将新增超过30亿台,带来超过1000亿TOPS的算力提升。
全新CPU与GPU架构升级
Lumex CSS针对3纳米制程进行了优化实现,包含采用SME2的Armv9.3 CPU集群、性能提升2倍的Arm Mali G1-Ultra GPU、DSU(Arm C1-DSU)以及KleidiAI库。
在CPU方面,Lumex CSS改变了原有的Cortex命名体系,采用全新的C1命名方式,并将CPU划分为五个等级:
- C1-Ultra:旗舰级性能核心,相当于此前的Cortex-X925,在SME2加持下单线程性能提升25%,适用于大模型推理、内容创作、生成式AI、计算摄影等高性能需求场景。
- C1-Pro:能效核心,作为辅助核心配合C1-Ultra运行,持续性能提升16%,适用于视频播放、流式推理等任务。
- C1-Premium:兼顾性能与面积,面积缩小35%,适用于次旗舰级移动设备,适合语音助手、多任务处理。
- C1-Nano:强调能效,效率提升26%,面积更小,适用于移动穿戴设备或小型设备。
- C1-Pico:强调超低功耗,适用于物联网设备。
蔡武男指出,Arm自2025年5月宣布转型以来,已从单纯的IP提供商转变为提供整合与灵活平台方案的公司,旨在加速合作伙伴将产品推向市场。
Arm根据不同市场提供运算平台方案,除了Lumex CSS面向移动设备,还有面向数据中心的Arm Neoverse、面向汽车领域的Arm Zena、专为PC设计的Arm Niva,以及适用于IoT物联网的Arm Orbis。