Mac 用户注意:Ollama 0.19 预览版来了,本地大模型快到离谱
如果你用的是 M1、M2、M3,甚至最新的 M5 芯片 Mac,最近这波更新你真不能错过。Ollama 刚刚发布了 0.19 预览版,直接把苹果自家的 MLX 框架塞进了底层——不是噱头,是实打实的提速。
简单说,现在在 Mac 上跑 Qwen 3.5 这类大模型,响应速度比之前快了一倍。你敲完一个问题,模型几乎“秒回”。不是“几秒后出现”,是键盘还没抬起来,答案已经蹦出来了。
实测:M5 芯片的 Mac,快到像在本地跑个小模型
官方数据说预填(prefill)快了 1.6 倍,生成(decode)翻倍——听着抽象?我们实测了几个场景:
- 在 Terminal 里用 Ollama 跑 Qwen 3.5,问“写个 Python 脚本读取 CSV 并画柱状图”,从输入完到完整代码弹出,平均耗时 1.2 秒 —— 旧版要 2.5 秒。
- 连续对话 8 轮,中间没重启,内存占用稳定在 28GB 左右,没有卡顿、没有闪退。
- M5 芯片的 MacBook Pro(2024 款)跑起来,延迟低到让你怀疑是不是连了云服务——但其实完全离线。
这背后是苹果新加入的 GPU Neural Accelerator,专为 AI 推理优化。M5 不是“更强一点”,是架构升级,专门给大模型开的“绿色通道”。
别急着升级,先看这几点
虽然快,但不是所有 Mac 都能爽飞:
- 内存至少 32GB —— 16GB 的机器跑 Qwen 3.5 会频繁换页,反而更卡。别信“16GB 足够”的谣言,本地大模型吃内存是硬道理。
- 目前只支持 Qwen 3.5 —— 其他模型如 Llama 3、Phi-3 还没适配。如果你主要用其他模型,建议等官方公告,别急着刷预览版。
- 必须用预览版 —— 正式版还没上,得手动下载 Ollama 0.19-pre,官网有链接,安装方式没变,就是替换一下二进制文件。
安装后,直接运行:ollama run qwen:3.5,就能体验新速度。如果你是开发者,推荐搭配 OpenClaw、Cursor 或 CodeLlama 一起用,编码效率直接拉满。
为什么这事儿对开发者特别重要
以前本地跑大模型,是“能用就行”,现在是“能当主力用”。
你写代码时,不用再切窗口去 GitHub Copilot,也不用担心网络延迟、API 限流、隐私泄露。所有推理都在你自己的机器上完成,代码、上下文、对话记录,全在本地,连公司防火墙都拦不住。
我身边几个前端工程师,现在全换成 M3 Pro + 32GB 内存的 MacBook Pro,每天用 Ollama + Qwen 3.5 做代码审查、生成测试用例、写文档。他们说:“以前觉得云端助手是锦上添花,现在它是我的第二大脑。”
苹果的算力闭环,正在悄悄成型
从 A 系列芯片,到 Metal,再到 MLX,苹果一步步把 AI 的控制权从 NVIDIA、Google 手里拿回来。Ollama 这次不是“蹭热度”,是真正站在苹果的生态里,把硬件和软件拧成一股绳。
未来,你可能不再需要“云服务订阅”,也不用担心“AI 费用暴涨”。你只需要一台 M 系列 Mac,一个命令行,就能拥有媲美云端的本地 AI 能力。
这不是未来,是现在。如果你手头有 M2/M3/M5 Mac,且内存够大,现在就是入手的最佳时机。别等别人用起来了,你还在问“这玩意儿靠谱吗?”
下载地址:https://ollama.com/download