
image credit:mcmurryjulie (pixabay.com)
有鑒于OpenAI、Google等AI业者以网页机器人(bot)未经同意撷取网路论坛或内容出版商公开网页的内容,Cloudflare推出防範工具。
生成式AI正夯,推升业者对模型训练和推论的需求。有的AI业者会明白揭露网页撷取机器人的存在,但不是大家都如此。例如美国女演员Scarlett Johansson指控OpenAI未经同意使用其声音整合到个人助理服务,Perplexity则被控冒充合法用户以撷取别的网站内容。
Cloudflare去年就宣布了能封锁网页爬虫机器人的服务给任何Cloudflare方案的用户,最基础的称为Bot Fight Mode。这服务利用攻击签章比对、启发式技术、机器学习和行为分析技术,辨别好的或坏的机器人。所谓好的AI机器人(AI bot)是会寻找robots.txt,试图遵守合法规範,也不非法使用网页内容训练模型或执行RAG(reinforcement augmented generation)应用。Clouflare还提供了验证机器人目录,允许「好机器人」如GoogleBot注册,以便Cloudflare客户有权放行。
不过针对排斥所有AI机器人的网站,Cloudflare最近又加入了一键封锁所有AI机器人的服务,提供给免费或付费用户。用户可以在Cloudflare控制台的「设定」>「Bots」专页中的AI Scrapers and Crawlers滑钮。
本功能会随着Cloudflare加入新的机器人指纹而自动更新。
内容业者对AI爬虫机器人已不再容忍,继去年纽约时报控告OpenAI和微软未经同意掠取网站内容用于训练AI模型,上个月这二家大厂又被非营利的调查报导出版业者Mother Jones控告侵权。