Reddit将封锁Internet Archive的大部分爬梳

图片来源:

The Verge本周报导，社交新闻平台Reddit即将封锁网际网路文件馆（Internet Archive）对该平台的大部分爬梳，原因是许多AI业者都藉由该馆的时光机（Wayback Machine）功能来抓取Reddit内容。

成立于1996年的Internet Archive是个非营利组织，使命是保守网路与文化资产，时光机则是该组织最知名的服务之一，它会定期透过网路爬虫来抓取网站的快照并存档，使用者只要输入网址便能浏览该网页过去的版本。

至于对Reddit而言，网站上的内容是有价的，特别是在AI系统大量搜刮网路上的内容来训练模型之际，它在2024年2月便与Google签署了与AI有关的内容合作协议，继之在同年5月与OpenAI建立类似的合作关係，并在同年6月控告擅自抓取资料的Anthropic。

值得注意的是，儘管许多内容平台都已透过robots.txt文件明文禁止AI新创来爬梳其网站，但内容管理暨云端服务业者Cloudflare日前控诉Perplexity无视这些政策，依然藉由建立新网域或是隐藏自家爬虫来爬梳别人家的内容。

根据报导，Reddit并未指名道姓，仅说该公司逮到许多AI公司（AI companies）利用Wayback Machine来取得Reddit内容。

于是，原本可以爬梳Reddit内容的Internet Archive也要被封锁了，未来仅能爬梳及索引Reddit的首页，不能再爬梳与索引使用者的个人文件、所张贴或回应的内容。

Reddit发言人Tim Rathschmidt向The Verge透露，在Internet Archive能够保护自己的网站并遵守第三方平台政策之前，将会限制其存取能力。

CB科技站