哈佛开源含有2,420亿Token的AI资料集Institutional Books 1.0

图片来源:

Hugging Face

由微软及OpenAI赞助、起源于哈佛法学院图书馆研究计画的机构资料计画（Institutional Data Initiative，IDI），上周开源了AI资料集Institutional Books 1.0，内含98.3万本的哈佛藏书，总计3.86亿页，以及2,420亿个Token与245种语言，而这也是IDI所释出的首个公共领域图书。

IDI于去年12月正式启动，IDI执行董事Greg Leppert表示，AI的进步引起人们对那些存在于文件深度的高品质资料的浓厚兴趣，并準备进一步协助机构将这些资料供应给所有人；IDI将与图书馆、大学、文化团队及政府机构等知识机构合作，帮助它们建立、分析与发布馆藏资料，以支援所有用途，包括AI在内。

IDI将致力于开发AI工具以扩大及加速上述任务，也会加以评估并研究其影响，以及找出最佳实践来推动最负责任的资料使用，同时确认机构的管理职责。

简单地说，IDI将会建立容易取得又易懂的资料集，以让知识机构与AI模型开发商拥有一致的目标，像是资料的完整性、全面性及可用性等，以让每个人都能透过这些资料看到知识世界的全貌。

Institutional Books 1.0所纳入的馆藏，是在哈佛图书馆参与Google图书（Google Books）专案时便曾数位化的内容，其中有40%是英文，有20个明确的主题，大多数是在19及20世纪出版，在资料集中不仅包含单纯的文字，还有每一本书的元资料，包括作者、年份、语言及来源等。

此外，该资料集也进行了优化，让系统辨识出每一行文字的位置与类型，并依据辨识结果，把原本利用光学文字辨识（OCR）撷取出的文字重新排列及组合，让内容更接近原书的排版与逻辑结构。

IDI未来还会继续扩充该资料集，例如正与波士顿公共图书馆合作，以扫描数百万页的报纸，有鉴于报纸的版面设计很难提取文字，需要利用新方法来提高準确度及可存取能力，继之将研究这些资料对AI模型的行为与资讯检索能力的影响，以便其它机构也能了解自身馆藏的潜力。

此外，IDI也积极寻求所有类型的资料合作，包括科学及生物医学资料，虽然会优先考虑开源，但也会秉持着对机构的尊重以妥善处理相关资料。

CB科技站

哈佛开源含有2,420亿Token的AI资料集Institutional Books 1.0

与本文相关的文章