最新消息:关注人工智能 AI赋能新媒体运营

M4 算力被破解?Claude 利用 Mac mini 隐蔽训练,真相曝光

科技资讯 admin 浏览

Mac mini 能训练大模型?工程师用 M4 芯片干了件没人敢想的事

过去几年,苹果的神经引擎(ANE)一直被当作“推理专用”的黑盒子。它能跑图像识别、语音转文字,但想用它训练模型?业内普遍认为:不可能。硬件没这个能力,软件也不给机会。

但今年春天,一位名叫 Manjeet Singh 的独立工程师,带着一台普通的 Mac mini M4,打破了这个共识。

他没用任何官方工具链,也没靠云服务。在开源社区成员的协助下,他直接深入 M4 芯片的底层指令集,绕过 CoreML,用汇编和自定义驱动,让 ANE 做了本该属于 GPU 的事——训练一个 110M 参数的 Transformer 模型。

结果呢?

在训练过程中,整机功耗稳定在 0.8–1.2 瓦之间。对比之下,NVIDIA A100 训练同样规模模型时,功耗超过 400 瓦。也就是说,Manjeet 的 Mac mini 用不到百分之一的电力,完成了几乎相同的任务。

这不是“跑得慢”,而是“效率高到离谱”。根据他公开的测试数据,ANE 在训练单层 Transformer 时的能效达到约 6.6 TFLOPS/W,是 A100 的 80 倍,H100 的 50 倍以上。这不是理论值,是实测——用的是 macOS 上跑的自定义内核,没有虚拟化,没有框架包装。

不是硬件不行,是苹果不让干

很多人以为,NPU 不能训练,是因为算力弱。但 M4 的 ANE 实际有 35 TFLOPS 的峰值理论算力,远超许多消费级显卡的 INT8 性能。真正卡住它的,是苹果的软件封锁。

CoreML 只开放推理接口,训练相关的寄存器、内存映射、数据流控制全部被屏蔽。Manjeet 的突破,不是靠更强的芯片,而是靠“钻空子”——他和社区一起,逆向分析了 macOS 的内核扩展、MIL(Metal Intermediate Language)编译产物,甚至解析了芯片固件中的 E5 二进制结构,最终找到了直接操控 ANE 算子的路径。

这不是黑客行为,而是典型的“开源精神”:公开代码、分享方法、不卖概念。他的项目已在 GitHub 开源,代码清晰、注释完整,连如何编译自定义内核模块都写得明明白白。

现在,你家的 Mac 也能训练模型了

你不需要花 5 万块买一台 Mac Studio。也不用租云服务器按小时付费。

只要你有一台 M1/M2/M3/M4 的 Mac,哪怕只是 2022 年的 Mac mini,就能在本地训练小型语言模型。Manjeet 已经成功在 8GB 内存的 Mac mini 上,用 12 小时完成了 Stories110M 的完整训练——包括前向传播、反向传播、梯度更新,全部在 ANE 上完成。

训练时,风扇几乎不转。你甚至可以一边跑模型,一边刷网页、看视频,系统毫无卡顿。

这不意味着你能用它训练 GPT-4。但对独立开发者、学生、研究者来说,这已经足够了。你可以:

  • 微调一个中文问答模型,专用于你的知识库
  • 训练一个本地语音指令模型,不依赖云端
  • 快速迭代你的图像分类器,不用等云平台排队

过去,这类实验需要申请学校集群、申请 AWS 免费额度,或者咬牙买一张 3090。现在,你只需要打开终端,运行一行命令。

苹果会封杀吗?

当然可能。苹果一向对底层控制极为严格。目前这个方法依赖的是 macOS 15 的某些未公开接口,未来系统更新可能直接堵死。

但问题在于:堵得住吗?

这个技术路径是开源的,已经在 Reddit、Hacker News、X 上被成千上万的开发者复现。有人甚至用它在 iPad Pro 上训练了小型图像生成器。一旦形成生态,苹果再想封,代价远比想象中高。

更重要的是,这背后是用户对“本地 AI”的真实需求。没人想让自己的私人对话、照片、笔记,全发到云端。越来越多的人希望:AI,就该在我手上。

未来,你的 Mac 可能比你想象的更聪明

这不是“AI 革命”的口号,而是实实在在的工具解放。

过去,AI 是大公司的专利。现在,一个学生用 500 块买的二手 Mac,就能在卧室里训练出属于自己的模型。

未来,你的 MacBook 可能不再只是写文档、看视频的工具。它会悄悄学习你的写作习惯,帮你自动整理笔记;它会记住你常问的问题,给出精准回答,而不需要联网;它甚至能根据你的作息,优化你的日程安排——全部在本地运行,不上传,不泄露。

Manjeet 没有卖课、没有融资、没有发布会。他只是把代码放到了 GitHub 上,然后说:

“你们可以试试。别信那些说‘不可能’的人。”

现在,轮到你了。