最新消息:关注人工智能 AI赋能新媒体运营

智谱发布0.9B轻量级GLM-OCR,性能领先,千次仅0.1元

科技资讯 admin 浏览

GLM-OCR 正式开源:0.9B 小模型,干翻行业大模型

今天,智谱正式发布并开源了 GLM-OCR —— 一个只有 0.9B 参数、却在真实文档解析中全面碾压主流大模型的 OCR 工具。不是噱头,不是实验室数据,而是企业每天都在用的发票、合同、表格、手写笔记,它都能稳稳拿下来。

在权威评测 OmniDocBench V1.5 上,GLM-OCR 以 94.6 分登顶,超过 Gemini-3-Pro、Qwen-VL、GPT-4o 等千亿级模型。这不是靠参数堆出来的“纸面冠军”,是实打实能处理你电脑里那些乱七八糟扫描件的真本事。

QQ20260203-085726.png

你遇到的文档难题,它都解决了

我们不是在做“能识别文字”的工具,而是在解决你每天被文件折磨的痛点:

  • 复杂表格:合并单元格、跨页表头、嵌套结构?GLM-OCR 直接输出标准 HTML,复制粘贴进 Excel 一气呵成,不用再手动对齐。
  • 卡证票据:身份证、营业执照、医疗单据、火车票……识别后直接输出结构化 JSON,对接系统再也不用写一堆正则。
  • 手写公式 & 代码截图:老师批改的数学作业、程序员贴出来的报错截图,它认得清,不乱码,不漏符号。
  • 印章、多语言混排:公章、私章、中英日韩混排的合同,它不瞎猜,不误识别,准确率远超传统 OCR。

QQ20260203-085732.png

跑得快,还便宜到离谱

你可能以为这么强的模型,用起来肯定贵。但 GLM-OCR 的价格,直接把行业打穿了:

  • 每秒处理 1.86 页 PDF —— 普通 OCR 一秒钟连半页都啃不动,它能连贯跑完。
  • API 费用低至 0.2 元/百万 Token,处理 1000 张 A4 扫描件,成本不到 0.5 元。
  • 部署简单:支持 vLLM、Ollama、本地运行,不需要高端 GPU,一台普通服务器就能跑起来。

对比市面上动辄 5 元/千页的传统 OCR 服务,它的成本不到十分之一。不是“性价比高”,是根本不在一个价格维度。

怎么做到的?没玄学,全是实打实的优化

GLM-OCR 没有依赖千亿参数的“暴力破解”,而是从底层重构了 OCR 的处理逻辑:

  • 基于 GLM-V 架构,自研 CogViT 视觉编码器,专为文档图像优化,不把文字当普通图片看。
  • 引入“多 Token 预测损失(MTP)”技术,让模型在识别时能同时预测多个可能的字符组合,减少误判。
  • 全任务强化学习训练,不是只学“认字”,而是学“怎么读懂一张表、怎么理解一个章、怎么还原一段代码”。
  • 4 倍下采样 + SwiGLU 激活函数,让模型在低算力下依然保持高精度,不靠算力堆,靠设计赢。

现在就能用,开源 + API 都免费

GLM-OCR 已在 GitHub 和 Hugging Face 全量开源,代码、权重、推理脚本一应俱全,企业、个人、研究者都可以直接下载、修改、商用。

同时,智谱开放平台已上线 API 服务,新用户赠送 100 万 Token 免费额度,足够你处理 2000+ 张文档,零成本试用。

别再用那些识别错字、表格错位、手写认不出来的老工具了。GLM-OCR 不是下一个 OCR,它是你该换掉旧系统的理由。

???? GitHub:https://github.com/THUDM/GLM-OCR
???? Hugging Face:https://huggingface.co/THUDM/GLM-OCR
???? API 试用:https://open.bigmodel.cn/service/api/glmodr