百度开源3B参数端到端OCR模型 Unlimited OCR,首次引入R-SWA机制
百度发布并开源了参数量3B的端到端OCR模型——Unlimited OCR,瞄准书籍、论文等长文档解析场景。项目上线后迅速登顶GitHub和HuggingFace四项趋势榜,开源5天即收获超过一万颗GitHub Star。
Unlimited OCR推理时实际激活参数约570M,并首次引入Reference Sliding Window Attention(R-SWA)机制。这一设计打破了过往“逐页解析再拼接”的惯用路线,可直接对数十页文档做一次性连续解析。解码阶段的KV Cache被控制在恒定规模,这意味着显存占用和计算开销不再随着输出长度增长而急剧膨胀。
在OmniDocBench v1.6基准测试中,该模型以93.92%的得分刷新纪录。真实场景下,其推理速度比DeepSeek OCR快约12.7%,当输出长度达到6000 Tokens时,速度优势进一步拉大到35%。这为海量文档数字化工作和大模型长程记忆管理提供了一条新路径。