图片版权:Will Buckner (CC BY 2.0 DEED)
NVIDIA周一(12月15日)宣布,已收购高性能计算(HPC)开源调度系统Slurm的主要开发与维护公司SchedMD。未来,NVIDIA将继续保持Slurm的开源和中立地位,同时增强其在AI与HPC集群层面的软件控制能力。双方未披露交易金额。
Slurm最早于2002年由美国劳伦斯利弗莫尔国家实验室(Lawrence Livermore National Laboratory,LLNL)开发,是一套负责集群资源分配、作业调度与队列管理的开源系统。在TOP500超级计算机中,有65%的系统采用Slurm,已被视为HPC管理软件的行业标准。随着大型语言模型和生成式AI的训练规模持续扩大,Slurm也逐渐成为AI训练与推理不可或缺的基础架构。
成立于2010年的SchedMD并非Slurm的原始开发者,而是在Slurm被学术界和产业界广泛采用后,承担其长期维护、功能开发与商业支持的公司,主导了Slurm的版本演进、核心功能更新与发布节奏。
NVIDIA表示,该公司与SchedMD的合作已超过十年,未来将持续投资Slurm的开发,以维持其在HPC及AI领域作为领先开源调度器的地位。同时,NVIDIA将加速推动SchedMD及Slurm与新一代NVIDIA系统的整合,优化整体计算基础设施上的工作负载,并支持多元硬件与软件环境,使客户能够使用Slurm运行异构集群。
NVIDIA还将继续为SchedMD现有的数百家客户提供Slurm开源软件的技术支持、培训与开发服务。
市场分析认为,相较于NVIDIA旗下的CUDA、NCCL等加速计算软件主要提升GPU性能,Slurm位于更上层,负责工作负载的排队、CPU与GPU资源的分配,以及在异构集群中的调度。随着AI集群规模快速扩张,调度与资源管理直接影响训练效率与整体成本。通过此次收购,NVIDIA的角色也从单纯的AI硬件供应商,进一步扩展至数据中心与AI集群的核心控制层。