最新消息:关注人工智能 AI赋能新媒体运营

Reddit将封锁Internet Archive的大部分爬梳

科技智能 admin 浏览
图片来源:

Reddit

The Verge本周报导,社交新闻平台Reddit即将封锁网际网路文件馆(Internet Archive)对该平台的大部分爬梳,原因是许多AI业者都藉由该馆的时光机(Wayback Machine)功能来抓取Reddit内容。

成立于1996年的Internet Archive是个非营利组织,使命是保守网路与文化资产,时光机则是该组织最知名的服务之一,它会定期透过网路爬虫来抓取网站的快照并存档,使用者只要输入网址便能浏览该网页过去的版本。

至于对Reddit而言,网站上的内容是有价的,特别是在AI系统大量搜刮网路上的内容来训练模型之际,它在2024年2月便与Google签署了与AI有关的内容合作协议,继之在同年5月与OpenAI建立类似的合作关係,并在同年6月控告擅自抓取资料的Anthropic。

值得注意的是,儘管许多内容平台都已透过robots.txt文件明文禁止AI新创来爬梳其网站,但内容管理暨云端服务业者Cloudflare日前控诉Perplexity无视这些政策,依然藉由建立新网域或是隐藏自家爬虫来爬梳别人家的内容。

根据报导,Reddit并未指名道姓,仅说该公司逮到许多AI公司(AI companies)利用Wayback Machine来取得Reddit内容。

于是,原本可以爬梳Reddit内容的Internet Archive也要被封锁了,未来仅能爬梳及索引Reddit的首页,不能再爬梳与索引使用者的个人文件、所张贴或回应的内容。

Reddit发言人Tim Rathschmidt向The Verge透露,在Internet Archive能够保护自己的网站并遵守第三方平台政策之前,将会限制其存取能力。