智谱发布0.9B轻量级GLM-OCR，性能领先，千次仅0.1元

GLM-OCR 正式开源：0.9B 小模型，干翻行业大模型

今天，智谱正式发布并开源了 GLM-OCR —— 一个只有 0.9B 参数、却在真实文档解析中全面碾压主流大模型的 OCR 工具。不是噱头，不是实验室数据，而是企业每天都在用的发票、合同、表格、手写笔记，它都能稳稳拿下来。

在权威评测 OmniDocBench V1.5 上，GLM-OCR 以 94.6 分登顶，超过 Gemini-3-Pro、Qwen-VL、GPT-4o 等千亿级模型。这不是靠参数堆出来的“纸面冠军”，是实打实能处理你电脑里那些乱七八糟扫描件的真本事。

你遇到的文档难题，它都解决了

我们不是在做“能识别文字”的工具，而是在解决你每天被文件折磨的痛点：

复杂表格：合并单元格、跨页表头、嵌套结构？GLM-OCR 直接输出标准 HTML，复制粘贴进 Excel 一气呵成，不用再手动对齐。
卡证票据：身份证、营业执照、医疗单据、火车票……识别后直接输出结构化 JSON，对接系统再也不用写一堆正则。
手写公式 & 代码截图：老师批改的数学作业、程序员贴出来的报错截图，它认得清，不乱码，不漏符号。
印章、多语言混排：公章、私章、中英日韩混排的合同，它不瞎猜，不误识别，准确率远超传统 OCR。

跑得快，还便宜到离谱

你可能以为这么强的模型，用起来肯定贵。但 GLM-OCR 的价格，直接把行业打穿了：

每秒处理 1.86 页 PDF —— 普通 OCR 一秒钟连半页都啃不动，它能连贯跑完。
API 费用低至 0.2 元/百万 Token，处理 1000 张 A4 扫描件，成本不到 0.5 元。
部署简单：支持 vLLM、Ollama、本地运行，不需要高端 GPU，一台普通服务器就能跑起来。

对比市面上动辄 5 元/千页的传统 OCR 服务，它的成本不到十分之一。不是“性价比高”，是根本不在一个价格维度。

怎么做到的？没玄学，全是实打实的优化

GLM-OCR 没有依赖千亿参数的“暴力破解”，而是从底层重构了 OCR 的处理逻辑：

基于 GLM-V 架构，自研 CogViT 视觉编码器，专为文档图像优化，不把文字当普通图片看。
引入“多 Token 预测损失（MTP）”技术，让模型在识别时能同时预测多个可能的字符组合，减少误判。
全任务强化学习训练，不是只学“认字”，而是学“怎么读懂一张表、怎么理解一个章、怎么还原一段代码”。
4 倍下采样 + SwiGLU 激活函数，让模型在低算力下依然保持高精度，不靠算力堆，靠设计赢。

现在就能用，开源 + API 都免费

GLM-OCR 已在 GitHub 和 Hugging Face 全量开源，代码、权重、推理脚本一应俱全，企业、个人、研究者都可以直接下载、修改、商用。

同时，智谱开放平台已上线 API 服务，新用户赠送 100 万 Token 免费额度，足够你处理 2000+ 张文档，零成本试用。

别再用那些识别错字、表格错位、手写认不出来的老工具了。GLM-OCR 不是下一个 OCR，它是你该换掉旧系统的理由。

???? GitHub：https://github.com/THUDM/GLM-OCR
???? Hugging Face：https://huggingface.co/THUDM/GLM-OCR
???? API 试用：https://open.bigmodel.cn/service/api/glmodr

GLM-OCR OCR模型文档解析多模态OCR

CB科技站