在 M4 MacBook 上跑通 Qwen 3.5-9B:我的离线 AI 实战记录
去年底,我入手了一台 24GB 内存的 M4 MacBook Pro,原本只是冲着性能和续航,没想到它后来成了我日常开发中最重要的“协作者”。我不用 OpenAI,不连 Claude,也不依赖任何云端服务——所有 AI 助手,都跑在本地。
起初我也试过各种方案:Gemma 4B 跑得快,但写个函数都容易漏边界条件;Llama 3 8B 稍好一点,但上下文一长就忘前文;GPT-OSS 20B?内存直接爆掉,系统卡到连终端都打不开。直到我试了 Qwen 3.5-9B 的 Q4_K_S 量化版——它不惊艳,但够稳。
实测下来,用 llama.cpp + LM Studio,在不重启应用、不关其他窗口的前提下,它能稳定跑出 38~42 tokens/秒。写代码时,我一边看 5000 行的项目文档,一边让它帮我梳理逻辑,响应几乎没延迟。更关键的是,128K 上下文不是噱头——我真用它读过整本 PDF 技术手册,然后问它“第三章第二节提到的算法,和第五章的实现有什么区别?”它答得出来。
怎么调的?没玄学,就几个参数
我没用什么黑科技,也没改模型结构。就三个设置:
- Temperature = 0.6:太高容易胡说,太低像机器人,0.6 刚好能让我觉得它“有想法”但不乱发挥。
- Top_p = 0.95:保留足够多的候选词,避免它总选最保守的答案。
- 启用思维链(chain-of-thought):在 prompt 里加一句“请先分析问题,再逐步推理,最后给出答案”,模型就会自动拆解步骤,而不是直接蹦结果。这招对写代码、读文档特别有用。
前端我用的是 Pi(一个轻量级本地 UI)和 OpenCode 插件,直接集成进 VS Code。每次调用,我都能手动控制上下文长度——比如只传当前文件 + 最近 3 次对话,避免信息过载。不需要 API 密钥,不用注册,不上传任何代码。
它不是全能助手,但它是“懂你”的搭档
我承认,它比不上 GPT-4 或 Claude 3 那种“啥都能接”的感觉。它会搞错函数参数,会重复解释同一个点,有时还会卡在循环逻辑里。但正因如此,它逼我变得更清晰。
以前用云端模型,我习惯说:“帮我优化这段代码。”——然后等结果。现在我会说:“这段代码在处理并发时可能有竞态条件,你看看哪里可能出问题?为什么?有没有更安全的写法?”——它才会认真回应。
它不像一个“外包程序员”,更像一个坐我旁边、会查文档、会问“你确定是这个意思吗?”的同事。它记得我上周提过的需求,记得我讨厌用 async/await,记得我总把日志写在错误位置——全靠本地内存,不靠云。
为什么这事儿值得你试试
我不是在吹本地模型有多强。我是想说:当你不再依赖一个黑箱,你才真正掌控了工具。
去年我帮一个创业公司做内部系统,客户要求所有数据不能出内网。我用这台 M4 Pro + Qwen 3.5-9B,全程离线开发,连测试数据都没传出去。没有月费,没有隐私风险,没有 API 限速。晚上回家,打开笔记本,还能接着昨天的对话继续。
现在,我用它:
- 读 GitHub 上的开源项目,总结架构设计
- 写 Shell 脚本时,让它帮我检查语法和边界情况
- 整理会议记录,自动提炼行动项
- 甚至帮我看懂一段晦涩的 RFC 文档
我不需要它“聪明”,我需要它“可靠”。而 Qwen 3.5-9B 在 M4 上,做到了。
如果你也厌倦了“AI 服务”背后那些看不见的条款、收费和数据收集——这台 MacBook,就是你重新拿回控制权的起点。不需要 1TB 显存,不需要订阅费,只需要一个能跑起来的模型,和一点耐心。
你不需要“最强”的 AI。你只需要一个,真正属于你的 AI。