M4 MacBook Pro 24GB内存本地AI性能极限测试

在 M4 MacBook 上跑通 Qwen 3.5-9B：我的离线 AI 实战记录

去年底，我入手了一台 24GB 内存的 M4 MacBook Pro，原本只是冲着性能和续航，没想到它后来成了我日常开发中最重要的“协作者”。我不用 OpenAI，不连 Claude，也不依赖任何云端服务——所有 AI 助手，都跑在本地。

起初我也试过各种方案：Gemma 4B 跑得快，但写个函数都容易漏边界条件；Llama 3 8B 稍好一点，但上下文一长就忘前文；GPT-OSS 20B？内存直接爆掉，系统卡到连终端都打不开。直到我试了 Qwen 3.5-9B 的 Q4_K_S 量化版——它不惊艳，但够稳。

实测下来，用 llama.cpp + LM Studio，在不重启应用、不关其他窗口的前提下，它能稳定跑出 38~42 tokens/秒。写代码时，我一边看 5000 行的项目文档，一边让它帮我梳理逻辑，响应几乎没延迟。更关键的是，128K 上下文不是噱头——我真用它读过整本 PDF 技术手册，然后问它“第三章第二节提到的算法，和第五章的实现有什么区别？”它答得出来。

怎么调的？没玄学，就几个参数

我没用什么黑科技，也没改模型结构。就三个设置：

Temperature = 0.6：太高容易胡说，太低像机器人，0.6 刚好能让我觉得它“有想法”但不乱发挥。
Top_p = 0.95：保留足够多的候选词，避免它总选最保守的答案。
启用思维链（chain-of-thought）：在 prompt 里加一句“请先分析问题，再逐步推理，最后给出答案”，模型就会自动拆解步骤，而不是直接蹦结果。这招对写代码、读文档特别有用。

前端我用的是 Pi（一个轻量级本地 UI）和 OpenCode 插件，直接集成进 VS Code。每次调用，我都能手动控制上下文长度——比如只传当前文件 + 最近 3 次对话，避免信息过载。不需要 API 密钥，不用注册，不上传任何代码。

它不是全能助手，但它是“懂你”的搭档

我承认，它比不上 GPT-4 或 Claude 3 那种“啥都能接”的感觉。它会搞错函数参数，会重复解释同一个点，有时还会卡在循环逻辑里。但正因如此，它逼我变得更清晰。

以前用云端模型，我习惯说：“帮我优化这段代码。”——然后等结果。现在我会说：“这段代码在处理并发时可能有竞态条件，你看看哪里可能出问题？为什么？有没有更安全的写法？”——它才会认真回应。

它不像一个“外包程序员”，更像一个坐我旁边、会查文档、会问“你确定是这个意思吗？”的同事。它记得我上周提过的需求，记得我讨厌用 async/await，记得我总把日志写在错误位置——全靠本地内存，不靠云。

为什么这事儿值得你试试

我不是在吹本地模型有多强。我是想说：当你不再依赖一个黑箱，你才真正掌控了工具。

去年我帮一个创业公司做内部系统，客户要求所有数据不能出内网。我用这台 M4 Pro + Qwen 3.5-9B，全程离线开发，连测试数据都没传出去。没有月费，没有隐私风险，没有 API 限速。晚上回家，打开笔记本，还能接着昨天的对话继续。

现在，我用它：

读 GitHub 上的开源项目，总结架构设计
写 Shell 脚本时，让它帮我检查语法和边界情况
整理会议记录，自动提炼行动项
甚至帮我看懂一段晦涩的 RFC 文档

我不需要它“聪明”，我需要它“可靠”。而 Qwen 3.5-9B 在 M4 上，做到了。

如果你也厌倦了“AI 服务”背后那些看不见的条款、收费和数据收集——这台 MacBook，就是你重新拿回控制权的起点。不需要 1TB 显存，不需要订阅费，只需要一个能跑起来的模型，和一点耐心。

你不需要“最强”的 AI。你只需要一个，真正属于你的 AI。

Ollama LM Studio llama.cpp Qwen 3.5-9B

CB科技站

M4 MacBook Pro 24GB内存本地AI性能极限测试

在 M4 MacBook 上跑通 Qwen 3.5-9B：我的离线 AI 实战记录

怎么调的？没玄学，就几个参数

它不是全能助手，但它是“懂你”的搭档

为什么这事儿值得你试试

与本文相关的文章