苹果联手LM Studio：4台Mac Studio运行万亿参数大模型

四台 Mac Studio 集群跑通万亿参数模型，本地部署大模型有了新路径

近期 WWDC 期间，人工智能软件平台 LM Studio 与苹果公司展示了一套本地算力方案。四台搭载 M3 Ultra 芯片的 Mac Studio 组成集群，成功运行了月之暗面的 Kimi K2.6 模型。该模型总参数量为一万亿，采用 MoE（混合专家）架构，推理时实际激活约 320 亿参数。按 FP16 精度计算，加载完整权重需要约 2TB 内存。

传统数据中心通常需要 8 到 16 张高端 GPU 才能满足这一显存需求。此次演示通过 macOS 的 RDMA-over-Thunderbolt 技术，利用 Thunderbolt 5 接口将四台设备的内存打通，合并为一个逻辑上的 2TB 内存池。集群在现场的生成速度约为每秒 28 个 token，整机功耗低于常规的 GPU 算力中心。

配合硬件集群，LM Studio 同步推出了 LM Link 工具。该组件基于 Tailscale Mesh VPN 架构建立加密通道，允许用户通过 MacBook 或 iPhone 远程调用这套 Mac Studio 集群。推理过程中的数据全程在本地闭环处理，不经过第三方云服务器。

这套方案将大模型推理的算力成本从云端月租转向硬件买断。对于需要长期高频调用模型的企业，本地集群在长周期运营中具备成本优势。Apple Silicon 的统一内存架构与多设备互联能力，正在成为大模型本地部署的可行选项。消费级硬件集群性能的提升，也在拉低 AI 应用的组织门槛。去中心化的算力网络未来可能获得更多发展空间。

CB科技站

苹果联手LM Studio：4台Mac Studio运行万亿参数大模型

四台 Mac Studio 集群跑通万亿参数模型，本地部署大模型有了新路径

与本文相关的文章