Google推理框架LiteRT高级硬件加速上线，跨平台GPU、NPU加速支持更完善

Google 更新了设备端推理框架 LiteRT，宣布在 Google I/O 2025 预告的高级硬件加速能力已正式纳入 LiteRT 产品栈，并向开发者开放。此次更新补全了 GPU 与 NPU 的加速支持，其中 GPU 支持从 I/O 2025 时最初在 Android 上推出的路径，扩展至 Android、iOS、macOS、Windows、Linux 和 Web，使设备端 AI 推理在移动端、桌面端和网页端之间更加一致。

LiteRT 技术栈在 TensorFlow Lite 的基础上进一步演进。过去 TensorFlow Lite 主要服务于传统机器学习推理，而 LiteRT 的定位是承接新一代设备端 AI 需求，涵盖更广泛的硬件加速与跨平台部署能力。

LiteRT 的 GPU 加速支持覆盖 Android、iOS、macOS、Windows、Linux 和 Web，并通过下一代 GPU 引擎 ML Drift，对接 OpenCL、OpenGL、Metal 和 WebGPU 等后端。在 Android 设备上，LiteRT 会优先使用 OpenCL 以获得更高性能，必要时回退至 OpenGL；其他平台则使用各自平台的 GPU 后端，例如 macOS 使用 Metal，Windows 和 Linux 使用 WebGPU。Google 表示，在多种模型的平均场景下，LiteRT 的 GPU 性能比原有 TensorFlow Lite GPU 委派快约 1.4 倍。

LiteRT 的性能提升源于从输入到输出的整体延迟缩短。Google 优化了设备端推理流程，减少对 CPU 执行额外等待和数据处理的依赖，并降低数据在不同硬件间迁移时产生的延迟。

Google 指出，当前 NPU 的挑战并非单点性能，而是生态系统碎片化。面对不同芯片平台和厂商工具链的差异，开发者通常需要采用多种方式才能将同一模型部署到不同设备，导致运维成本上升。LiteRT 的目标是将这些差异统一到一套机制中，让开发者能够以一致的方式启用 NPU 加速，并在设备不支持或条件不足时，自动回退到 GPU 或 CPU 以保持可用性。

在 NPU 部署流程上，Google 将流程简化为三个步骤：可选的 AOT 预编译、在 Android 上配合 Google Play 设备端 AI 将模型与运行时分发至兼容设备，以及由 LiteRT 执行环境负责启用 NPU 委派，并在条件不足时回退至 GPU 或 CPU。同时，LiteRT 提供 AOT 和设备端 JIT 两种编译策略，供开发者在启动速度与首次执行开销之间进行权衡。

LiteRT 仍以 .tflite 格式作为跨平台部署的统一基础，开发者可使用 PyTorch、TensorFlow 和 JAX 等主流训练框架转换模型，使来自不同训练框架的模型都能接入同一套设备端推理与硬件加速能力，降低因训练框架不同而导致的部署差异。

CB科技站

Google推理框架LiteRT高级硬件加速上线，跨平台GPU、NPU加速支持更完善

与本文相关的文章