腾讯混元联合发布首个古文字OCR评测基准Chronicles-OCR

中国首个古文字识别基准发布：让AI真正“读懂”三千年前的字

5月18日，腾讯混元、SSV数字文化实验室联合安阳师范学院甲骨文信息处理重点实验室、中科院信息工程研究所、南开大学，正式发布全球首个覆盖汉字“七体之变”完整演化脉络的古文字识别评测基准——Chronicles-OCR。这不是又一个AI模型的宣传噱头，而是一次真正面向历史、面向学术、面向文化传承的技术行动。

甲骨文、金文、小篆、隶书、楷书、行书、草书——这七种字体跨越三千年，从商周祭祀的龟甲兽骨，到汉唐碑刻、宋元手卷，每一个笔画都藏着时代的密码。但今天，就连最先进的AI模型，也很难认出一块甲骨上残缺的“日”字，或是一枚青铜器上模糊的“鼎”字。

Chronicles-OCR 数据集由十余位古文字专家历时两年打磨，涵盖2,800张高精度图像，每一张都经过多轮交叉校验：甲骨拓片来自殷墟实拍，金文来自国家博物馆馆藏器物，篆隶楷行草则严格按历史分期选取碑帖原貌。所有图像均经过色彩还原、去噪、比例标准化处理，确保不是“修图后的理想样本”，而是真实出土、真实保存状态下的古文字影像。

项目组没有简单地让AI“看图识字”，而是设计了四项真正贴近研究者需求的挑战任务：

跨时代字符检测：在一片模糊的青铜器纹饰中，定位出哪个是“王”，哪个是“年”——没有现代排版、没有标点、没有上下文，AI必须靠笔画结构自己判断。
细粒度古字识别：“水”字在甲骨文中有十多种写法，AI能否区分是“河流”还是“流动”？测试中，表现最好的模型准确率仅27.1%，远低于现代汉字识别95%以上的水平。
古文转写：将一幅战国竹简上的墨迹，逐字转为现代规范汉字，同时保留异体字和通假字的原始形态。
字体分类：不是靠“纸张颜色”或“器物纹理”猜字体，而是必须识别笔画的起收、转折、连笔特征——结果发现，多数模型靠“看材质”瞎猜，根本没看字形。

测试了包括GPT-5、Gemini 1.5 Pro、Claude 3.5 Opus等在内的28个主流大模型，结果令人警醒：

在甲骨文检测任务中，几乎所有模型“全军覆没”——它们习惯了现代文档的整齐排版，面对无规则、无边框、残缺不全的古文字，完全无从下手。
开启“思考模式”（Reasoning）后，模型表现反而更差。不是因为不够聪明，而是因为“想太多”：它们开始编造解释，把不认识的字强行“合理化”，导致错误率上升。
最讽刺的是，AI在识别“石碑上的字”时，优先分析的是石质裂纹和风化痕迹，而不是字本身的结构——这说明，它们学到的不是“字”，而是“老物件的表面特征”。

这不是AI的失败，而是我们对“理解历史”的认知还太浅。我们以为AI能“看懂”文字，其实它只是在匹配统计模式。而真正的古文字研究，需要的是对笔法、时代、地域、用途的综合判断——这需要的不是算力，而是知识。

开源，不是终点，而是起点

Chronicles-OCR 全部数据、标注、评测代码已开源，面向全球高校、文博机构和研究者免费开放。没有商业壁垒，没有API调用限制，只有纯粹的学术共享。

我们希望看到：北大考古系的学生用它训练自己的模型；河南安阳的博物馆用它辅助整理新出土甲骨；故宫的数字化团队用它提升碑帖扫描的自动识别精度。

这不是一场AI竞赛，而是一场文化抢救。每多识别一个甲骨文，就多解开一段被遗忘的历史；每让一个模型少错认一个字，就少误导一次学术研究。

当AI能真正认出“妇好”墓中青铜器上的铭文，而不是靠“猜”；当它能区分西周金文和春秋金文的细微差异，而不是只看“年代久远”；当它不再把“虫”字误认为“蛇”、把“目”字误读为“自”——那时，我们才敢说，AI真的开始“读史”了。

多模态大语言模型 Chronicles-OCR 古文字识别视觉感知评测

CB科技站

腾讯混元联合发布首个古文字OCR评测基准Chronicles-OCR

中国首个古文字识别基准发布：让AI真正“读懂”三千年前的字

开源，不是终点，而是起点

与本文相关的文章