最新消息:关注人工智能 AI赋能新媒体运营

腾讯混元联合发布首个古文字OCR评测基准Chronicles-OCR

科技资讯 admin 浏览

中国首个古文字识别基准发布:让AI真正“读懂”三千年前的字

5月18日,腾讯混元、SSV数字文化实验室联合安阳师范学院甲骨文信息处理重点实验室、中科院信息工程研究所、南开大学,正式发布全球首个覆盖汉字“七体之变”完整演化脉络的古文字识别评测基准——Chronicles-OCR。这不是又一个AI模型的宣传噱头,而是一次真正面向历史、面向学术、面向文化传承的技术行动。

甲骨文、金文、小篆、隶书、楷书、行书、草书——这七种字体跨越三千年,从商周祭祀的龟甲兽骨,到汉唐碑刻、宋元手卷,每一个笔画都藏着时代的密码。但今天,就连最先进的AI模型,也很难认出一块甲骨上残缺的“日”字,或是一枚青铜器上模糊的“鼎”字。

Chronicles-OCR 数据集由十余位古文字专家历时两年打磨,涵盖2,800张高精度图像,每一张都经过多轮交叉校验:甲骨拓片来自殷墟实拍,金文来自国家博物馆馆藏器物,篆隶楷行草则严格按历史分期选取碑帖原貌。所有图像均经过色彩还原、去噪、比例标准化处理,确保不是“修图后的理想样本”,而是真实出土、真实保存状态下的古文字影像。

项目组没有简单地让AI“看图识字”,而是设计了四项真正贴近研究者需求的挑战任务:

  • 跨时代字符检测:在一片模糊的青铜器纹饰中,定位出哪个是“王”,哪个是“年”——没有现代排版、没有标点、没有上下文,AI必须靠笔画结构自己判断。
  • 细粒度古字识别:“水”字在甲骨文中有十多种写法,AI能否区分是“河流”还是“流动”?测试中,表现最好的模型准确率仅27.1%,远低于现代汉字识别95%以上的水平。
  • 古文转写:将一幅战国竹简上的墨迹,逐字转为现代规范汉字,同时保留异体字和通假字的原始形态。
  • 字体分类:不是靠“纸张颜色”或“器物纹理”猜字体,而是必须识别笔画的起收、转折、连笔特征——结果发现,多数模型靠“看材质”瞎猜,根本没看字形。

测试了包括GPT-5、Gemini 1.5 Pro、Claude 3.5 Opus等在内的28个主流大模型,结果令人警醒:

  • 在甲骨文检测任务中,几乎所有模型“全军覆没”——它们习惯了现代文档的整齐排版,面对无规则、无边框、残缺不全的古文字,完全无从下手。
  • 开启“思考模式”(Reasoning)后,模型表现反而更差。不是因为不够聪明,而是因为“想太多”:它们开始编造解释,把不认识的字强行“合理化”,导致错误率上升。
  • 最讽刺的是,AI在识别“石碑上的字”时,优先分析的是石质裂纹和风化痕迹,而不是字本身的结构——这说明,它们学到的不是“字”,而是“老物件的表面特征”。

这不是AI的失败,而是我们对“理解历史”的认知还太浅。我们以为AI能“看懂”文字,其实它只是在匹配统计模式。而真正的古文字研究,需要的是对笔法、时代、地域、用途的综合判断——这需要的不是算力,而是知识。

开源,不是终点,而是起点

Chronicles-OCR 全部数据、标注、评测代码已开源,面向全球高校、文博机构和研究者免费开放。没有商业壁垒,没有API调用限制,只有纯粹的学术共享。

我们希望看到:北大考古系的学生用它训练自己的模型;河南安阳的博物馆用它辅助整理新出土甲骨;故宫的数字化团队用它提升碑帖扫描的自动识别精度。

这不是一场AI竞赛,而是一场文化抢救。每多识别一个甲骨文,就多解开一段被遗忘的历史;每让一个模型少错认一个字,就少误导一次学术研究。

当AI能真正认出“妇好”墓中青铜器上的铭文,而不是靠“猜”;当它能区分西周金文和春秋金文的细微差异,而不是只看“年代久远”;当它不再把“虫”字误认为“蛇”、把“目”字误读为“自”——那时,我们才敢说,AI真的开始“读史”了。

QQ20260519-092228.jpg