百度开源Unlimited OCR：5天Star破万长文档解析破纪录

百度开源3B参数端到端OCR模型 Unlimited OCR，首次引入R-SWA机制

百度发布并开源了参数量3B的端到端OCR模型——Unlimited OCR，瞄准书籍、论文等长文档解析场景。项目上线后迅速登顶GitHub和HuggingFace四项趋势榜，开源5天即收获超过一万颗GitHub Star。

Unlimited OCR推理时实际激活参数约570M，并首次引入Reference Sliding Window Attention（R-SWA）机制。这一设计打破了过往“逐页解析再拼接”的惯用路线，可直接对数十页文档做一次性连续解析。解码阶段的KV Cache被控制在恒定规模，这意味着显存占用和计算开销不再随着输出长度增长而急剧膨胀。

在OmniDocBench v1.6基准测试中，该模型以93.92%的得分刷新纪录。真实场景下，其推理速度比DeepSeek OCR快约12.7%，当输出长度达到6000 Tokens时，速度优势进一步拉大到35%。这为海量文档数字化工作和大模型长程记忆管理提供了一条新路径。

百度开源OCR Unlimited OCR 长文档解析端到端模型

CB科技站

百度开源Unlimited OCR：5天Star破万长文档解析破纪录

百度开源3B参数端到端OCR模型 Unlimited OCR，首次引入R-SWA机制

与本文相关的文章