最新消息:关注人工智能 AI赋能新媒体运营

英国国家数据图书馆计划遇阻,数据可用性亟待提升

科技资讯 admin 浏览

英国国家数据图书馆:AI的希望,还是数据的泥潭?

英国政府喊出了一个响亮的口号:用公共数据点燃人工智能的未来。国家数据图书馆(NDL)被寄予厚望——它承诺为科研机构、初创公司和公共部门打开一扇大门,让那些躺在政府服务器里的海量数据真正“活起来”,推动医疗、交通、教育和气候应对等关键领域的创新。1亿英镑的投入,是政府2028年前向科学与技术部拨款19亿英镑的一部分,听起来诚意满满。

但现实没那么乐观。

开放数据研究所(ODI)最近做的一个实地调研,像一盆冷水泼了下来。他们搭建了一个叫“NDL-Lite”的测试平台,接入了超过10万个公共数据集——本以为能淘到金矿,结果发现,很多数据根本没法用。标题乱七八糟:“犯罪率”可能指的是报告数量,也可能是逮捕人数;“交通拥堵”数据有的是2019年的,有的是2023年的,却没标注清楚。更糟的是,80%以上的数据集缺少基本的元数据:谁收集的?怎么收集的?什么时候更新的?这些信息,恰恰是AI模型判断数据是否可信的关键。

结果呢?AI系统没法依赖这些“半残”的政府数据,只能转头去抓取新闻网站、社交媒体、商业平台的数据——这些地方的信息,没人监管,没人验证,真假难辨。一个预测城市空气污染的模型,如果靠的是推特上用户随手发的“今天雾霾好严重”,那它的预测,还能信吗?

数据不是越多越好,而是越准越好

ODI的教授Elena Simperl说得直白:“我们有海量数据,但越来越难找到能用的数据。”

这不是技术问题,是管理问题。

举个例子:“犯罪”这个词,在不同地区、不同部门的数据库里,定义完全不同。有的地方把轻微盗窃算进去,有的只算暴力案件。没有统一标准,数据根本没法合并分析。一个想研究“城市安全趋势”的团队,可能要花半年时间手动清洗数据,而不是直接用AI跑模型。

更讽刺的是,NDL的建设成本其实不高——ODI测算,整合现有数据的基础设施投入,远低于政府每年花在数据采集上的费用。真正花钱的是“修数据”:给每一份文件打标签、补元数据、统一格式、定期更新。这事儿没人愿意做,因为它不显眼,不出政绩,但却是AI能否落地的命门。

政府在行动,但动作太慢

政府发言人说,他们正在推动“数字公共基础设施现代化”,要让数据“更容易共享”。听起来没错,但具体怎么做?什么时候能见效?没人说得清。

对比一下:德国的“数据空间”计划,已强制要求公共机构在数据发布时附带机器可读的元数据;加拿大“开放政府数据门户”要求所有数据集每季度必须更新,否则自动下架;澳大利亚甚至为“数据质量评分”设立了公开排行榜,让公众监督。

英国呢?目前还在“试点”“探索”“研究”阶段。而AI技术的发展,可不会等你慢慢修数据。

别让1亿英镑,变成一场数字秀

NDL不是不能成,但必须立刻行动:

  • 制定全国统一的公共数据元数据标准,谁发布,谁负责更新;
  • 设立“数据健康检查”机制,对过期、模糊、无标签的数据自动预警;
  • 让数据科学家、开发者、市民能直接反馈数据问题,形成闭环;
  • 公开NDL的进度仪表盘——不是只发新闻稿,而是让大家看得见哪些数据集“已修复”,哪些“仍瘫痪”。

如果政府继续把NDL当成一个“形象工程”,那它最终只会成为AI界的“数据坟场”——堆满了文件,却没人敢用。1亿英镑投进去,换来的不是创新,而是更多依赖商业数据巨头的“黑箱模型”。

英国不是没有数据,而是没有把数据当回事。

是时候了——别让AI的未来,输在起跑线的数据上。