多家美媒封禁互联网档案馆爬虫，以防AI训练滥用

主流媒体集体封禁“时光机”：一场关于记忆与版权的暗战

最近，互联网档案馆（Internet Archive）的“时光机”（Wayback Machine）突然被《纽约时报》、Reddit、《USA Today》母公司甘尼特集团（Gannett）等数十家主流媒体和平台屏蔽。这不是一次技术故障，而是一场有组织的“数字断电”——这些机构通过阻止“时光机”的爬虫程序（ia_archiverbot）访问其网站，切断了这个全球最大网络历史存档工具对自身内容的抓取。

“时光机”自2001年上线以来，已保存超过9000亿个网页快照。它曾是记者挖掘旧新闻、学者研究网络变迁、公众追溯政治承诺的“数字考古工具”。可如今，它却成了AI公司眼中的“免费数据矿”，也成了出版商眼中的“版权盗贼”。

机器人黑客

讽刺的是，他们刚靠它写出了重磅报道

就在封禁令发布前几周，《USA Today》团队刚刚完成一篇揭露美国移民拘留数据造假的深度调查。他们追踪的是2018年被删除的政府网页——正是“时光机”保存的快照，让他们找到了原始数据，揭穿了官方说法。

“我们依赖它，”一位参与报道的记者私下表示，“但公司高层说，‘不能让AI用它偷我们的文章去训练模型。’”

这成了一个荒诞的循环：媒体一边用“时光机”找回真相，一边又亲手切断它的电源。甘尼特集团发言人对媒体表示：“我们有责任保护原创内容不被未经授权地用于商业AI训练。”可他们没说的是，这些AI模型训练的数据，很多正是从他们自己网站上爬走的——只不过，这次是通过第三方存档库，而不是直接爬取。

23家媒体，三种封禁方式

据电子前沿基金会（EFF）统计，目前至少有23家主流新闻网站采取了不同形式的限制：

完全屏蔽：《纽约时报》和Reddit直接在robots.txt中禁止ia_archiverbot访问，任何尝试抓取都会被拒绝。
隐形过滤：《卫报》没有封禁爬虫，但通过技术手段，将自家内容从互联网档案馆的API和搜索结果中“隐身”——你搜得到，但点不开；存得下，但查不到。
选择性删除：一些地方媒体和博客平台开始主动向互联网档案馆提交“删除请求”，要求移除过去十年的旧文章，理由是“内容过时”或“法律风险”。

这种“温柔封杀”比直接屏蔽更危险——它让历史变得模糊，而非消失。用户以为档案还在，点进去却发现“页面不存在”。

记者与数字守护者站在一起

这场封禁激起了新闻界的强烈反弹。百余名在职记者，包括MSNBC主持人蕾切尔·玛多（Rachel Maddow）、普利策奖得主、调查记者联盟成员，联名签署公开信支持互联网档案馆。

“我们不是反对版权，”信中写道，“我们反对的是，当权者用版权当借口，抹去公众可查的历史。”

电子前沿基金会（EFF）指出，互联网档案馆的存档行为在美国法律中长期被视为“合理使用”——它不盈利、不替代原内容、服务于公共利益。但AI公司却把这当成“数据金矿”：Stability AI、Meta、OpenAI等公司都被曝出使用Wayback Machine的快照训练模型，甚至用它来“补全”训练数据中的空白。

我们正在失去的，不只是文章

互联网档案馆负责人马克·格雷厄姆（Mark Graham）说：“这不是关于AI有没有权利用数据，而是关于社会有没有权利记住自己。”

想想看：2008年奥巴马竞选网站上的政策承诺，2016年特朗普推特的原始版本，2020年乔治·弗洛伊德事件期间被删除的警方声明——这些，都曾靠“时光机”保存。如今，随着主流媒体陆续撤回授权，这些数字记忆正在加速蒸发。

更令人担忧的是，这种趋势正在蔓延。YouTube、Twitter（X）、甚至维基百科的部分页面，都开始限制第三方存档。如果连新闻网站都开始“自我删除”，那未来的孩子，怎么知道2020年代的舆论长什么样？

互联网档案馆仍在努力自救：他们正与图书馆、大学合作，建立“去中心化存档网络”；他们也在推动立法，要求AI公司披露训练数据来源。但单靠技术，挡不住资本的逻辑。

你还能做什么？

如果你关心数字历史的存续，你可以：

在自己的网站或博客中，允许互联网档案馆抓取（在robots.txt中加入允许规则）；
定期手动保存重要网页（使用Archive.today或浏览器插件）；
向你常读的媒体写信，问他们：“你们是否考虑过，封禁‘时光机’，也封住了你们自己的历史？”

我们曾以为互联网是永恒的。现在才明白，它比纸张更脆弱——只要有人按下“删除”，历史就可能永远消失。

CB科技站