Cloudflare推出封锁AI内容爬虫的工具

image credit：mcmurryjulie (pixabay.com)

有鑒于OpenAI、Google等AI业者以网页机器人（bot）未经同意撷取网路论坛或内容出版商公开网页的内容，Cloudflare推出防範工具。

生成式AI正夯，推升业者对模型训练和推论的需求。有的AI业者会明白揭露网页撷取机器人的存在，但不是大家都如此。例如美国女演员Scarlett Johansson指控OpenAI未经同意使用其声音整合到个人助理服务，Perplexity则被控冒充合法用户以撷取别的网站内容。

Cloudflare去年就宣布了能封锁网页爬虫机器人的服务给任何Cloudflare方案的用户，最基础的称为Bot Fight Mode。这服务利用攻击签章比对、启发式技术、机器学习和行为分析技术，辨别好的或坏的机器人。所谓好的AI机器人（AI bot）是会寻找robots.txt，试图遵守合法规範，也不非法使用网页内容训练模型或执行RAG（reinforcement augmented generation）应用。Clouflare还提供了验证机器人目录，允许「好机器人」如GoogleBot注册，以便Cloudflare客户有权放行。

不过针对排斥所有AI机器人的网站，Cloudflare最近又加入了一键封锁所有AI机器人的服务，提供给免费或付费用户。用户可以在Cloudflare控制台的「设定」>「Bots」专页中的AI Scrapers and Crawlers滑钮。

本功能会随着Cloudflare加入新的机器人指纹而自动更新。

内容业者对AI爬虫机器人已不再容忍，继去年纽约时报控告OpenAI和微软未经同意掠取网站内容用于训练AI模型，上个月这二家大厂又被非营利的调查报导出版业者Mother Jones控告侵权。

CB科技站

Cloudflare推出封锁AI内容爬虫的工具

与本文相关的文章