四台 Mac Studio 集群跑通万亿参数模型,本地部署大模型有了新路径
近期 WWDC 期间,人工智能软件平台 LM Studio 与苹果公司展示了一套本地算力方案。四台搭载 M3 Ultra 芯片的 Mac Studio 组成集群,成功运行了月之暗面的 Kimi K2.6 模型。该模型总参数量为一万亿,采用 MoE(混合专家)架构,推理时实际激活约 320 亿参数。按 FP16 精度计算,加载完整权重需要约 2TB 内存。
传统数据中心通常需要 8 到 16 张高端 GPU 才能满足这一显存需求。此次演示通过 macOS 的 RDMA-over-Thunderbolt 技术,利用 Thunderbolt 5 接口将四台设备的内存打通,合并为一个逻辑上的 2TB 内存池。集群在现场的生成速度约为每秒 28 个 token,整机功耗低于常规的 GPU 算力中心。
配合硬件集群,LM Studio 同步推出了 LM Link 工具。该组件基于 Tailscale Mesh VPN 架构建立加密通道,允许用户通过 MacBook 或 iPhone 远程调用这套 Mac Studio 集群。推理过程中的数据全程在本地闭环处理,不经过第三方云服务器。
这套方案将大模型推理的算力成本从云端月租转向硬件买断。对于需要长期高频调用模型的企业,本地集群在长周期运营中具备成本优势。Apple Silicon 的统一内存架构与多设备互联能力,正在成为大模型本地部署的可行选项。消费级硬件集群性能的提升,也在拉低 AI 应用的组织门槛。去中心化的算力网络未来可能获得更多发展空间。