智谱AI开源GLM-4.7-Flash，30B参数性能超越阿里与OpenAI模型

GLM-4.7-Flash 开源：30B 模型的新标杆，本地部署也能跑出大模型的体验

今天凌晨，智谱AI正式开源了 GLM-4.7-Flash —— 一个在300亿参数规模下，却只激活30亿参数的“轻量猛兽”。它不是又一个参数堆砌的演示品，而是一个真正能跑在普通服务器、甚至消费级显卡上的实用模型。在代码能力、数学推理和工具调用上，它已经悄悄超越了当前主流的 Qwen3-30B 和 GPT-OSS-20B，成为开发者口中“最像大模型的中小模型”。

不是“小模型”，是“聪明的精简版”

GLM-4.7-Flash 使用的是 MoE（混合专家）架构，总参数300亿，但每次推理只激活其中约30亿。这就像一支精锐特种部队——人不多，但每个都顶得上三个普通士兵。结果就是：你用一张A100或4090，就能跑出过去需要多卡才能支撑的推理速度。

实测数据摆在面前：

代码能力：SWE-bench Verified 得分 59.2，比 Qwen3-30B 高出近8分，能准确修复复杂项目中的真实 bug，不是“看起来像能写代码”，而是真能帮你改代码。
数学与推理：AIME25（美国数学邀请赛级别）得分 91.6，GPQA（专家级问答）75.2，面对专业级问题，它不再靠“猜”，而是有逻辑地拆解。
工具调用：τ?-Bench 79.5，BrowseComp 42.8，在需要调用搜索、API、计算器的复杂任务中，表现远超同级模型，真正能当“AI助手”用。

这些不是实验室里的“美化数据”。不少开发者已经在自己的项目里实测：用它跑本地代码助手，响应快、准确率高，再也不用担心“它说的代码跑不起来”。

开箱即用，不用折腾

最让开发者感动的，不是性能有多强，而是它有多好用。

你不需要自己编译、调参、改配置。Hugging Face 上直接就能下载，一行代码就能加载：

```python from transformers import AutoTokenizer, AutoModelForCausalLM model = AutoModelForCausalLM.from_pretrained("zai-org/GLM-4.7-Flash", device_map="auto") tokenizer = AutoTokenizer.from_pretrained("zai-org/GLM-4.7-Flash") ```

如果你用的是 vLLM 或 SGLang 这类高性能推理框架，支持也已合并进主分支。vLLM 用户可以直接开启 tensor parallel 和 speculative decoding，让吞吐量翻倍；SGLang 用户还能用 EAGLE 算法，把响应速度再压低20%以上。

有人在 Reddit 上说：“我之前用 Qwen3-30B，跑起来卡得像PPT，换上 GLM-4.7-Flash，同样的机器，响应快了一倍，还省了30%显存。”

为什么它能火？因为它解决了真实痛点

过去两年，大模型越做越大，但真正落地的，往往是那些能跑在本地、不依赖云服务、不烧钱的模型。GLM-4.7-Flash 正是瞄准了这个缺口。

它不追求“全球第一”的榜单排名，而是专注一件事：让你的本地AI助手变得真正好用。

你可以在家里用它：

写 Python 脚本自动处理Excel报表
调试你公司内部的遗留系统代码
让AI帮你查资料、总结会议纪要，不上传数据到云端

一位在创业公司做产品原型的开发者说：“我们没预算买GPT-4 API，但又不想用免费版的AI工具。这个模型一跑起来，我直接把整个客服问答系统换掉了——准确率更高，还免费。”

现在就能用

模型已开源，无需申请，无需审核，直接下载使用：

https://huggingface.co/zai-org/GLM-4.7-Flash

如果你正在寻找一个能跑在本地、不卡顿、不依赖网络、还能写代码、能推理、能调工具的模型——GLM-4.7-Flash，可能是你今年见过最务实的开源选择。

CB科技站