最新消息:关注人工智能 AI赋能新媒体运营

苹果联手LM Studio:4台Mac Studio运行万亿参数大模型

科技资讯 admin 浏览

四台 Mac Studio 集群跑通万亿参数模型,本地部署大模型有了新路径

近期 WWDC 期间,人工智能软件平台 LM Studio 与苹果公司展示了一套本地算力方案。四台搭载 M3 Ultra 芯片的 Mac Studio 组成集群,成功运行了月之暗面的 Kimi K2.6 模型。该模型总参数量为一万亿,采用 MoE(混合专家)架构,推理时实际激活约 320 亿参数。按 FP16 精度计算,加载完整权重需要约 2TB 内存。

传统数据中心通常需要 8 到 16 张高端 GPU 才能满足这一显存需求。此次演示通过 macOS 的 RDMA-over-Thunderbolt 技术,利用 Thunderbolt 5 接口将四台设备的内存打通,合并为一个逻辑上的 2TB 内存池。集群在现场的生成速度约为每秒 28 个 token,整机功耗低于常规的 GPU 算力中心。

配合硬件集群,LM Studio 同步推出了 LM Link 工具。该组件基于 Tailscale Mesh VPN 架构建立加密通道,允许用户通过 MacBook 或 iPhone 远程调用这套 Mac Studio 集群。推理过程中的数据全程在本地闭环处理,不经过第三方云服务器。

这套方案将大模型推理的算力成本从云端月租转向硬件买断。对于需要长期高频调用模型的企业,本地集群在长周期运营中具备成本优势。Apple Silicon 的统一内存架构与多设备互联能力,正在成为大模型本地部署的可行选项。消费级硬件集群性能的提升,也在拉低 AI 应用的组织门槛。去中心化的算力网络未来可能获得更多发展空间。