英国国家数据图书馆计划遇阻，数据可用性亟待提升

英国国家数据图书馆：AI的希望，还是数据的泥潭？

英国政府喊出了一个响亮的口号：用公共数据点燃人工智能的未来。国家数据图书馆（NDL）被寄予厚望——它承诺为科研机构、初创公司和公共部门打开一扇大门，让那些躺在政府服务器里的海量数据真正“活起来”，推动医疗、交通、教育和气候应对等关键领域的创新。1亿英镑的投入，是政府2028年前向科学与技术部拨款19亿英镑的一部分，听起来诚意满满。

但现实没那么乐观。

开放数据研究所（ODI）最近做的一个实地调研，像一盆冷水泼了下来。他们搭建了一个叫“NDL-Lite”的测试平台，接入了超过10万个公共数据集——本以为能淘到金矿，结果发现，很多数据根本没法用。标题乱七八糟：“犯罪率”可能指的是报告数量，也可能是逮捕人数；“交通拥堵”数据有的是2019年的，有的是2023年的，却没标注清楚。更糟的是，80%以上的数据集缺少基本的元数据：谁收集的？怎么收集的？什么时候更新的？这些信息，恰恰是AI模型判断数据是否可信的关键。

结果呢？AI系统没法依赖这些“半残”的政府数据，只能转头去抓取新闻网站、社交媒体、商业平台的数据——这些地方的信息，没人监管，没人验证，真假难辨。一个预测城市空气污染的模型，如果靠的是推特上用户随手发的“今天雾霾好严重”，那它的预测，还能信吗？

数据不是越多越好，而是越准越好

ODI的教授Elena Simperl说得直白：“我们有海量数据，但越来越难找到能用的数据。”

这不是技术问题，是管理问题。

举个例子：“犯罪”这个词，在不同地区、不同部门的数据库里，定义完全不同。有的地方把轻微盗窃算进去，有的只算暴力案件。没有统一标准，数据根本没法合并分析。一个想研究“城市安全趋势”的团队，可能要花半年时间手动清洗数据，而不是直接用AI跑模型。

更讽刺的是，NDL的建设成本其实不高——ODI测算，整合现有数据的基础设施投入，远低于政府每年花在数据采集上的费用。真正花钱的是“修数据”：给每一份文件打标签、补元数据、统一格式、定期更新。这事儿没人愿意做，因为它不显眼，不出政绩，但却是AI能否落地的命门。

政府在行动，但动作太慢

政府发言人说，他们正在推动“数字公共基础设施现代化”，要让数据“更容易共享”。听起来没错，但具体怎么做？什么时候能见效？没人说得清。

对比一下：德国的“数据空间”计划，已强制要求公共机构在数据发布时附带机器可读的元数据；加拿大“开放政府数据门户”要求所有数据集每季度必须更新，否则自动下架；澳大利亚甚至为“数据质量评分”设立了公开排行榜，让公众监督。

英国呢？目前还在“试点”“探索”“研究”阶段。而AI技术的发展，可不会等你慢慢修数据。

别让1亿英镑，变成一场数字秀

NDL不是不能成，但必须立刻行动：

制定全国统一的公共数据元数据标准，谁发布，谁负责更新；
设立“数据健康检查”机制，对过期、模糊、无标签的数据自动预警；
让数据科学家、开发者、市民能直接反馈数据问题，形成闭环；
公开NDL的进度仪表盘——不是只发新闻稿，而是让大家看得见哪些数据集“已修复”，哪些“仍瘫痪”。

如果政府继续把NDL当成一个“形象工程”，那它最终只会成为AI界的“数据坟场”——堆满了文件，却没人敢用。1亿英镑投进去，换来的不是创新，而是更多依赖商业数据巨头的“黑箱模型”。

英国不是没有数据，而是没有把数据当回事。

是时候了——别让AI的未来，输在起跑线的数据上。

CB科技站

英国国家数据图书馆计划遇阻，数据可用性亟待提升

英国国家数据图书馆：AI的希望，还是数据的泥潭？

数据不是越多越好，而是越准越好

政府在行动，但动作太慢

别让1亿英镑，变成一场数字秀

与本文相关的文章