中国首个古文字OCR评测基准开源，视觉大模型表现不佳

古文字识别新突破：Chronicles-OCR 唤醒沉睡三千年的汉字

当AI能看懂Python代码、识别卫星图像，却读不懂甲骨文上一道刻痕时，我们才意识到：技术的边界，不在算力，而在对文明的理解。

近日，腾讯混元大模型联合SSV数字文化实验室、故宫博物院，以及北京大学、复旦大学、中山大学等多所高校，共同发布“Chronicles-OCR”——中国首个完整覆盖汉字“七体演变”（甲骨文、金文、小篆、隶书、楷书、行书、草书）的古文字识别评测基准。这不是又一个AI演示项目，而是一次面向历史的严肃尝试：让机器真正“看见”汉字的来路。

2800张真迹，每一笔都来自考古现场

为确保数据的真实性，团队从故宫、国家图书馆、中国社会科学院考古研究所等机构调取原始拓片与高清影像，精选2800张高质量图像。每一张都经过多位古文字学家交叉校对，标注精度远超普通OCR数据集。

对于甲骨文、金文等早期文字，专家逐字标注单字位置与释文；而对于汉唐以后成熟的隶、楷、行、草字体，则保留原始简牍、碑刻的阅读顺序，完整还原古人“从右到左、自上而下”的书写脉络。这不是“识别字形”，而是复原一场三千年前的阅读体验。

顶尖AI全军覆没：GPT-5、Gemini、Claude 都认不出甲骨文

项目组测试了全球28个主流多模态大模型，包括GPT-5、Gemini 3.1 Pro、Claude Opus 4.7等当前最先进系统。结果令人震惊——在端到端古文字识别任务中，所有模型准确率均低于30%。最高分仅为27.1%，连“认出一个字”都成难题。

更意外的是，当开启模型的“推理模式”（试图“理解上下文”）时，识别准确率反而进一步下降。这说明：AI不是“想太多”，而是“根本没看见”。它们习惯用现代排版逻辑去套用古籍，却对甲骨上歪斜的刻痕、青铜器上模糊的铸痕毫无感知。

AI在“看”什么？它在看青铜锈迹，而不是笔画

深入分析发现，这些模型在分类字体时，更关注图像的“材质纹理”——比如龟甲的裂纹、青铜器的锈斑、竹简的纤维——而非字形本身的结构特征。换句话说，AI把“年代感”当成了“字形”，就像一个不懂中文的人，靠纸张发黄程度来判断是不是古书。

一位参与项目的故宫文物修复师说：“我们修一件甲骨，要看它怎么刻、怎么用力、哪个笔画是二次补刻。AI连‘刀锋方向’都辨不清，谈何识字？”

这不是技术的失败，而是文明的提醒

汉字从殷墟的卜辞，到敦煌的写经，再到今天的屏幕字体，从未断裂。每一个字，都是祖先手写的记忆。而今天最强大的AI，却连最基础的“认字”都做不到。

Chronicles-OCR 的价值，不在于它有多高准确率，而在于它敢于把AI的短板，摆在所有人面前。它开源了全部数据与评估标准，不为炫技，只为邀请更多人一起解决这个“无人问津”的问题——

如果你是AI研究员，这是一份清晰的考卷；如果你是历史爱好者，这是一次参与修复文明的机会；如果你只是普通人，它提醒我们：科技再强，也别忘了低头看看脚下走过的路。

现在，你也可以下载数据集，试试你的模型，能不能认出那道三千年前的刻痕。

Chronicles-OCR 古文字识别 OCR基准多模态大模型评测

CB科技站