主流媒体集体封禁“时光机”:一场关于记忆与版权的暗战
最近,互联网档案馆(Internet Archive)的“时光机”(Wayback Machine)突然被《纽约时报》、Reddit、《USA Today》母公司甘尼特集团(Gannett)等数十家主流媒体和平台屏蔽。这不是一次技术故障,而是一场有组织的“数字断电”——这些机构通过阻止“时光机”的爬虫程序(ia_archiverbot)访问其网站,切断了这个全球最大网络历史存档工具对自身内容的抓取。
“时光机”自2001年上线以来,已保存超过9000亿个网页快照。它曾是记者挖掘旧新闻、学者研究网络变迁、公众追溯政治承诺的“数字考古工具”。可如今,它却成了AI公司眼中的“免费数据矿”,也成了出版商眼中的“版权盗贼”。

讽刺的是,他们刚靠它写出了重磅报道
就在封禁令发布前几周,《USA Today》团队刚刚完成一篇揭露美国移民拘留数据造假的深度调查。他们追踪的是2018年被删除的政府网页——正是“时光机”保存的快照,让他们找到了原始数据,揭穿了官方说法。
“我们依赖它,”一位参与报道的记者私下表示,“但公司高层说,‘不能让AI用它偷我们的文章去训练模型。’”
这成了一个荒诞的循环:媒体一边用“时光机”找回真相,一边又亲手切断它的电源。甘尼特集团发言人对媒体表示:“我们有责任保护原创内容不被未经授权地用于商业AI训练。”可他们没说的是,这些AI模型训练的数据,很多正是从他们自己网站上爬走的——只不过,这次是通过第三方存档库,而不是直接爬取。
23家媒体,三种封禁方式
据电子前沿基金会(EFF)统计,目前至少有23家主流新闻网站采取了不同形式的限制:
- 完全屏蔽:《纽约时报》和Reddit直接在robots.txt中禁止ia_archiverbot访问,任何尝试抓取都会被拒绝。
- 隐形过滤:《卫报》没有封禁爬虫,但通过技术手段,将自家内容从互联网档案馆的API和搜索结果中“隐身”——你搜得到,但点不开;存得下,但查不到。
- 选择性删除:一些地方媒体和博客平台开始主动向互联网档案馆提交“删除请求”,要求移除过去十年的旧文章,理由是“内容过时”或“法律风险”。
这种“温柔封杀”比直接屏蔽更危险——它让历史变得模糊,而非消失。用户以为档案还在,点进去却发现“页面不存在”。
记者与数字守护者站在一起
这场封禁激起了新闻界的强烈反弹。百余名在职记者,包括MSNBC主持人蕾切尔·玛多(Rachel Maddow)、普利策奖得主、调查记者联盟成员,联名签署公开信支持互联网档案馆。
“我们不是反对版权,”信中写道,“我们反对的是,当权者用版权当借口,抹去公众可查的历史。”
电子前沿基金会(EFF)指出,互联网档案馆的存档行为在美国法律中长期被视为“合理使用”——它不盈利、不替代原内容、服务于公共利益。但AI公司却把这当成“数据金矿”:Stability AI、Meta、OpenAI等公司都被曝出使用Wayback Machine的快照训练模型,甚至用它来“补全”训练数据中的空白。
我们正在失去的,不只是文章
互联网档案馆负责人马克·格雷厄姆(Mark Graham)说:“这不是关于AI有没有权利用数据,而是关于社会有没有权利记住自己。”
想想看:2008年奥巴马竞选网站上的政策承诺,2016年特朗普推特的原始版本,2020年乔治·弗洛伊德事件期间被删除的警方声明——这些,都曾靠“时光机”保存。如今,随着主流媒体陆续撤回授权,这些数字记忆正在加速蒸发。
更令人担忧的是,这种趋势正在蔓延。YouTube、Twitter(X)、甚至维基百科的部分页面,都开始限制第三方存档。如果连新闻网站都开始“自我删除”,那未来的孩子,怎么知道2020年代的舆论长什么样?
互联网档案馆仍在努力自救:他们正与图书馆、大学合作,建立“去中心化存档网络”;他们也在推动立法,要求AI公司披露训练数据来源。但单靠技术,挡不住资本的逻辑。
你还能做什么?
如果你关心数字历史的存续,你可以:
- 在自己的网站或博客中,允许互联网档案馆抓取(在robots.txt中加入允许规则);
- 定期手动保存重要网页(使用Archive.today或浏览器插件);
- 向你常读的媒体写信,问他们:“你们是否考虑过,封禁‘时光机’,也封住了你们自己的历史?”
我们曾以为互联网是永恒的。现在才明白,它比纸张更脆弱——只要有人按下“删除”,历史就可能永远消失。