古文字识别新突破:Chronicles-OCR 唤醒沉睡三千年的汉字
当AI能看懂Python代码、识别卫星图像,却读不懂甲骨文上一道刻痕时,我们才意识到:技术的边界,不在算力,而在对文明的理解。
近日,腾讯混元大模型联合SSV数字文化实验室、故宫博物院,以及北京大学、复旦大学、中山大学等多所高校,共同发布“Chronicles-OCR”——中国首个完整覆盖汉字“七体演变”(甲骨文、金文、小篆、隶书、楷书、行书、草书)的古文字识别评测基准。这不是又一个AI演示项目,而是一次面向历史的严肃尝试:让机器真正“看见”汉字的来路。

2800张真迹,每一笔都来自考古现场
为确保数据的真实性,团队从故宫、国家图书馆、中国社会科学院考古研究所等机构调取原始拓片与高清影像,精选2800张高质量图像。每一张都经过多位古文字学家交叉校对,标注精度远超普通OCR数据集。
对于甲骨文、金文等早期文字,专家逐字标注单字位置与释文;而对于汉唐以后成熟的隶、楷、行、草字体,则保留原始简牍、碑刻的阅读顺序,完整还原古人“从右到左、自上而下”的书写脉络。这不是“识别字形”,而是复原一场三千年前的阅读体验。
顶尖AI全军覆没:GPT-5、Gemini、Claude 都认不出甲骨文
项目组测试了全球28个主流多模态大模型,包括GPT-5、Gemini 3.1 Pro、Claude Opus 4.7等当前最先进系统。结果令人震惊——在端到端古文字识别任务中,所有模型准确率均低于30%。最高分仅为27.1%,连“认出一个字”都成难题。
更意外的是,当开启模型的“推理模式”(试图“理解上下文”)时,识别准确率反而进一步下降。这说明:AI不是“想太多”,而是“根本没看见”。它们习惯用现代排版逻辑去套用古籍,却对甲骨上歪斜的刻痕、青铜器上模糊的铸痕毫无感知。
AI在“看”什么?它在看青铜锈迹,而不是笔画
深入分析发现,这些模型在分类字体时,更关注图像的“材质纹理”——比如龟甲的裂纹、青铜器的锈斑、竹简的纤维——而非字形本身的结构特征。换句话说,AI把“年代感”当成了“字形”,就像一个不懂中文的人,靠纸张发黄程度来判断是不是古书。
一位参与项目的故宫文物修复师说:“我们修一件甲骨,要看它怎么刻、怎么用力、哪个笔画是二次补刻。AI连‘刀锋方向’都辨不清,谈何识字?”
这不是技术的失败,而是文明的提醒
汉字从殷墟的卜辞,到敦煌的写经,再到今天的屏幕字体,从未断裂。每一个字,都是祖先手写的记忆。而今天最强大的AI,却连最基础的“认字”都做不到。
Chronicles-OCR 的价值,不在于它有多高准确率,而在于它敢于把AI的短板,摆在所有人面前。它开源了全部数据与评估标准,不为炫技,只为邀请更多人一起解决这个“无人问津”的问题——
如果你是AI研究员,这是一份清晰的考卷; 如果你是历史爱好者,这是一次参与修复文明的机会; 如果你只是普通人,它提醒我们:科技再强,也别忘了低头看看脚下走过的路。
现在,你也可以下载数据集,试试你的模型,能不能认出那道三千年前的刻痕。