
Hugging Face
由微软及OpenAI赞助、起源于哈佛法学院图书馆研究计画的机构资料计画(Institutional Data Initiative,IDI),上周开源了AI资料集Institutional Books 1.0,内含98.3万本的哈佛藏书,总计3.86亿页,以及2,420亿个Token与245种语言,而这也是IDI所释出的首个公共领域图书。
IDI于去年12月正式启动,IDI执行董事Greg Leppert表示,AI的进步引起人们对那些存在于文件深度的高品质资料的浓厚兴趣,并準备进一步协助机构将这些资料供应给所有人;IDI将与图书馆、大学、文化团队及政府机构等知识机构合作,帮助它们建立、分析与发布馆藏资料,以支援所有用途,包括AI在内。
IDI将致力于开发AI工具以扩大及加速上述任务,也会加以评估并研究其影响,以及找出最佳实践来推动最负责任的资料使用,同时确认机构的管理职责。
简单地说,IDI将会建立容易取得又易懂的资料集,以让知识机构与AI模型开发商拥有一致的目标,像是资料的完整性、全面性及可用性等,以让每个人都能透过这些资料看到知识世界的全貌。
Institutional Books 1.0所纳入的馆藏,是在哈佛图书馆参与Google图书(Google Books)专案时便曾数位化的内容,其中有40%是英文,有20个明确的主题,大多数是在19及20世纪出版,在资料集中不仅包含单纯的文字,还有每一本书的元资料,包括作者、年份、语言及来源等。
此外,该资料集也进行了优化,让系统辨识出每一行文字的位置与类型,并依据辨识结果,把原本利用光学文字辨识(OCR)撷取出的文字重新排列及组合,让内容更接近原书的排版与逻辑结构。
IDI未来还会继续扩充该资料集,例如正与波士顿公共图书馆合作,以扫描数百万页的报纸,有鉴于报纸的版面设计很难提取文字,需要利用新方法来提高準确度及可存取能力,继之将研究这些资料对AI模型的行为与资讯检索能力的影响,以便其它机构也能了解自身馆藏的潜力。
此外,IDI也积极寻求所有类型的资料合作,包括科学及生物医学资料,虽然会优先考虑开源,但也会秉持着对机构的尊重以妥善处理相关资料。