CUDA Tile 重磅发布:英伟达的“开放”是真松绑,还是新围墙?
近日,英伟达在 GTC 2025 大会上正式推出 CUDA Tile —— 这是自 CUDA 2007 年问世以来,最具颠覆性的编程模型变革之一。不同于以往对底层线程和内存的精细操控,CUDA Tile 将 GPU 重新定义为一个“分块处理器”(tile processor),开发者只需描述“做什么”,而不再需要操心“怎么做”。
这一变化的核心,是引入了全新的低层中间表示 —— Tile IR。它像一个“智能编译器大脑”,自动完成 tile 大小划分、共享内存分配、线程调度、内存访问优化等繁琐任务。过去,开发者必须为每一代 GPU 架构(如 Ampere、Hopper、Blackwell)手动调优代码,而现在,一段简洁的算法描述,就能被编译器自动适配到最佳执行路径。

吉姆·凯勒放话:CUDA 的“围墙”要倒了?
英伟达首席架构师、曾主导苹果 A 系列芯片与 AMD Zen 架构的传奇人物吉姆·凯勒(Jim Keller),在发布会后罕见公开表态:“CUDA Tile 可能是 CUDA 从封闭走向开放的第一步。”
他的理由直击行业痛点:
- 抽象层级提升,代码不再绑定硬件:过去,CUDA 代码中充斥着对 SM 数量、Warp 大小、L2 缓存延迟等硬件细节的硬编码。而 Tile IR 抽象掉了这些,代码更接近数学表达式,而非硬件指令。
- 与 Triton、MLIR 等开源框架天然兼容:Tile 的“分块”思想,与 OpenAI 的 Triton、LLVM 的 MLIR、Google 的 XLA 等主流 AI 编译器高度一致。这意味着,未来用 Triton 写的模型,可能无需重写,就能通过 Tile IR 在 CUDA 上高效运行——反之亦然。
业内普遍认为,这是英伟达首次在编程模型层面,主动向“跨架构可移植性”低头。要知道,过去十年,CUDA 的成功建立在“性能无敌+生态垄断”之上,而如今,它开始主动降低迁移成本。
但别急着欢呼:新围墙,可能更坚固
尽管表面开放,但许多专家指出,CUDA Tile 的本质,是“用更高阶的封闭,替代低阶的封闭”。
关键事实是:
- Tile IR 仍是英伟达私有技术,未开源,也未提交给 LLVM 或 Khronos 等开放标准组织。
- 性能巅峰仍依赖英伟达硬件:虽然编译器能自动优化,但真正的极致性能(如 FP8 精度、Transformer Engine、HBM3e 带宽)仍需 Blackwell 或未来架构的硬件支持。没有英伟达 GPU,Tile IR 就像没有发动机的跑车。
- 工具链深度绑定:NVIDIA Nsight、CUDA Toolkit、cuBLAS、cuDNN 等全套生态,依然是运行 Tile 程序的唯一可靠路径。第三方编译器(如 ROCm)目前无法解析 Tile IR。
换句话说:你不再需要懂 GPU 架构,但你必须用英伟达的芯片、英伟达的软件、英伟达的云服务,才能发挥它的全部威力。
行业风向:AMD、Intel 正在悄悄“抄作业”
值得注意的是,CUDA Tile 的发布,恰好发生在 AMD 推出 ROCm 6.0、Intel 发布 oneAPI 2025 的关键节点。
AMD 的 ROCm 正在加速支持 PyTorch 2.4 的原生编译器后端,而 Intel 的 Xe GPU 已能在部分 AI 框架中实现“一次编写,多卡运行”。更关键的是,开源项目如 MLIR 和 Triton 已成为多家厂商的共同语言。
有分析师指出,英伟达此举,或许是“主动防御”:与其让开发者被 Triton 带走,不如自己先拥抱它,把“开放”的主导权握在手里。这就像苹果推出 Metal 时,不是放弃控制,而是把 OpenGL 的混乱统一成自己的标准。
对开发者意味着什么?
无论你是 AI 研究员、HPC 工程师,还是游戏引擎开发者,CUDA Tile 都将带来实实在在的改变:
- 新手友好:无需再背诵 Warp Shuffle、Shared Memory Bank Conflict,5 行代码就能跑通矩阵乘法。
- 科研加速:算法论文可直接用 Tile IR 表达,无需为移植到不同平台重写代码。
- 企业风险降低:不再被锁定在单一供应商,至少在“代码层”有了更多选择权。
但现实是:如果你追求极致性能,尤其是在大模型训练、科学计算领域,英伟达仍是唯一能提供完整软硬协同解决方案的公司。迁移?理论上可行,实践中成本依然高昂。
结语:不是开放,而是“升级版垄断”
CUDA Tile 不是 CUDA 的终结,而是它的进化。它降低了入门门槛,提升了开发效率,也向行业释放了“我们愿意合作”的信号。但它没有放弃对底层的掌控——反而用更聪明的方式,把开发者锁进了一个更优雅、更高效、也更难以逃离的生态。
未来五年,GPU 编程的战场,将不再是“谁的 API 更强大”,而是“谁的编译器更智能、谁的工具链更无缝、谁的云平台更便宜”。
CUDA Tile,是英伟达的一次“战略性让步”,但它的终极目标,依然是让全世界都离不开它。