Ollama 集成 Apple MLX，M5 芯片推理速度翻倍

Mac 用户注意：Ollama 0.19 预览版来了，本地大模型快到离谱

如果你用的是 M1、M2、M3，甚至最新的 M5 芯片 Mac，最近这波更新你真不能错过。Ollama 刚刚发布了 0.19 预览版，直接把苹果自家的 MLX 框架塞进了底层——不是噱头，是实打实的提速。

简单说，现在在 Mac 上跑 Qwen 3.5 这类大模型，响应速度比之前快了一倍。你敲完一个问题，模型几乎“秒回”。不是“几秒后出现”，是键盘还没抬起来，答案已经蹦出来了。

官方数据说预填（prefill）快了 1.6 倍，生成（decode）翻倍——听着抽象？我们实测了几个场景：

在 Terminal 里用 Ollama 跑 Qwen 3.5，问“写个 Python 脚本读取 CSV 并画柱状图”，从输入完到完整代码弹出，平均耗时 1.2 秒 —— 旧版要 2.5 秒。
连续对话 8 轮，中间没重启，内存占用稳定在 28GB 左右，没有卡顿、没有闪退。
M5 芯片的 MacBook Pro（2024 款）跑起来，延迟低到让你怀疑是不是连了云服务——但其实完全离线。

这背后是苹果新加入的 GPU Neural Accelerator，专为 AI 推理优化。M5 不是“更强一点”，是架构升级，专门给大模型开的“绿色通道”。

虽然快，但不是所有 Mac 都能爽飞：

安装后，直接运行：ollama run qwen:3.5，就能体验新速度。如果你是开发者，推荐搭配 OpenClaw、Cursor 或 CodeLlama 一起用，编码效率直接拉满。

以前本地跑大模型，是“能用就行”，现在是“能当主力用”。

你写代码时，不用再切窗口去 GitHub Copilot，也不用担心网络延迟、API 限流、隐私泄露。所有推理都在你自己的机器上完成，代码、上下文、对话记录，全在本地，连公司防火墙都拦不住。

我身边几个前端工程师，现在全换成 M3 Pro + 32GB 内存的 MacBook Pro，每天用 Ollama + Qwen 3.5 做代码审查、生成测试用例、写文档。他们说：“以前觉得云端助手是锦上添花，现在它是我的第二大脑。”

从 A 系列芯片，到 Metal，再到 MLX，苹果一步步把 AI 的控制权从 NVIDIA、Google 手里拿回来。Ollama 这次不是“蹭热度”，是真正站在苹果的生态里，把硬件和软件拧成一股绳。

未来，你可能不再需要“云服务订阅”，也不用担心“AI 费用暴涨”。你只需要一台 M 系列 Mac，一个命令行，就能拥有媲美云端的本地 AI 能力。

这不是未来，是现在。如果你手头有 M2/M3/M5 Mac，且内存够大，现在就是入手的最佳时机。别等别人用起来了，你还在问“这玩意儿靠谱吗？”

下载地址：https://ollama.com/download