M4 算力被破解？Claude 利用 Mac mini 隐蔽训练，真相曝光

Mac mini 能训练大模型？工程师用 M4 芯片干了件没人敢想的事

过去几年，苹果的神经引擎（ANE）一直被当作“推理专用”的黑盒子。它能跑图像识别、语音转文字，但想用它训练模型？业内普遍认为：不可能。硬件没这个能力，软件也不给机会。

但今年春天，一位名叫 Manjeet Singh 的独立工程师，带着一台普通的 Mac mini M4，打破了这个共识。

他没用任何官方工具链，也没靠云服务。在开源社区成员的协助下，他直接深入 M4 芯片的底层指令集，绕过 CoreML，用汇编和自定义驱动，让 ANE 做了本该属于 GPU 的事——训练一个 110M 参数的 Transformer 模型。

结果呢？

在训练过程中，整机功耗稳定在 0.8–1.2 瓦之间。对比之下，NVIDIA A100 训练同样规模模型时，功耗超过 400 瓦。也就是说，Manjeet 的 Mac mini 用不到百分之一的电力，完成了几乎相同的任务。

这不是“跑得慢”，而是“效率高到离谱”。根据他公开的测试数据，ANE 在训练单层 Transformer 时的能效达到约 6.6 TFLOPS/W，是 A100 的 80 倍，H100 的 50 倍以上。这不是理论值，是实测——用的是 macOS 上跑的自定义内核，没有虚拟化，没有框架包装。

不是硬件不行，是苹果不让干

很多人以为，NPU 不能训练，是因为算力弱。但 M4 的 ANE 实际有 35 TFLOPS 的峰值理论算力，远超许多消费级显卡的 INT8 性能。真正卡住它的，是苹果的软件封锁。

CoreML 只开放推理接口，训练相关的寄存器、内存映射、数据流控制全部被屏蔽。Manjeet 的突破，不是靠更强的芯片，而是靠“钻空子”——他和社区一起，逆向分析了 macOS 的内核扩展、MIL（Metal Intermediate Language）编译产物，甚至解析了芯片固件中的 E5 二进制结构，最终找到了直接操控 ANE 算子的路径。

这不是黑客行为，而是典型的“开源精神”：公开代码、分享方法、不卖概念。他的项目已在 GitHub 开源，代码清晰、注释完整，连如何编译自定义内核模块都写得明明白白。

现在，你家的 Mac 也能训练模型了

你不需要花 5 万块买一台 Mac Studio。也不用租云服务器按小时付费。

只要你有一台 M1/M2/M3/M4 的 Mac，哪怕只是 2022 年的 Mac mini，就能在本地训练小型语言模型。Manjeet 已经成功在 8GB 内存的 Mac mini 上，用 12 小时完成了 Stories110M 的完整训练——包括前向传播、反向传播、梯度更新，全部在 ANE 上完成。

训练时，风扇几乎不转。你甚至可以一边跑模型，一边刷网页、看视频，系统毫无卡顿。

这不意味着你能用它训练 GPT-4。但对独立开发者、学生、研究者来说，这已经足够了。你可以：

微调一个中文问答模型，专用于你的知识库
训练一个本地语音指令模型，不依赖云端
快速迭代你的图像分类器，不用等云平台排队

过去，这类实验需要申请学校集群、申请 AWS 免费额度，或者咬牙买一张 3090。现在，你只需要打开终端，运行一行命令。

苹果会封杀吗？

当然可能。苹果一向对底层控制极为严格。目前这个方法依赖的是 macOS 15 的某些未公开接口，未来系统更新可能直接堵死。

但问题在于：堵得住吗？

这个技术路径是开源的，已经在 Reddit、Hacker News、X 上被成千上万的开发者复现。有人甚至用它在 iPad Pro 上训练了小型图像生成器。一旦形成生态，苹果再想封，代价远比想象中高。

更重要的是，这背后是用户对“本地 AI”的真实需求。没人想让自己的私人对话、照片、笔记，全发到云端。越来越多的人希望：AI，就该在我手上。

未来，你的 Mac 可能比你想象的更聪明

这不是“AI 革命”的口号，而是实实在在的工具解放。

过去，AI 是大公司的专利。现在，一个学生用 500 块买的二手 Mac，就能在卧室里训练出属于自己的模型。

未来，你的 MacBook 可能不再只是写文档、看视频的工具。它会悄悄学习你的写作习惯，帮你自动整理笔记；它会记住你常问的问题，给出精准回答，而不需要联网；它甚至能根据你的作息，优化你的日程安排——全部在本地运行，不上传，不泄露。

Manjeet 没有卖课、没有融资、没有发布会。他只是把代码放到了 GitHub 上，然后说：

“你们可以试试。别信那些说‘不可能’的人。”

现在，轮到你了。

CB科技站