最新消息:关注人工智能 AI赋能新媒体运营

Cloudflare推出封锁AI内容爬虫的工具

科技智能 admin 浏览 评论

image credit:mcmurryjulie (pixabay.com)

有鑒于OpenAI、Google等AI业者以网页机器人(bot)未经同意撷取网路论坛或内容出版商公开网页的内容,Cloudflare推出防範工具。

生成式AI正夯,推升业者对模型训练和推论的需求。有的AI业者会明白揭露网页撷取机器人的存在,但不是大家都如此。例如美国女演员Scarlett Johansson指控OpenAI未经同意使用其声音整合到个人助理服务,Perplexity则被控冒充合法用户以撷取别的网站内容。

Cloudflare去年就宣布了能封锁网页爬虫机器人的服务给任何Cloudflare方案的用户,最基础的称为Bot Fight Mode。这服务利用攻击签章比对、启发式技术、机器学习和行为分析技术,辨别好的或坏的机器人。所谓好的AI机器人(AI bot)是会寻找robots.txt,试图遵守合法规範,也不非法使用网页内容训练模型或执行RAG(reinforcement augmented generation)应用。Clouflare还提供了验证机器人目录,允许「好机器人」如GoogleBot注册,以便Cloudflare客户有权放行。

不过针对排斥所有AI机器人的网站,Cloudflare最近又加入了一键封锁所有AI机器人的服务,提供给免费或付费用户。用户可以在Cloudflare控制台的「设定」>「Bots」专页中的AI Scrapers and Crawlers滑钮。

本功能会随着Cloudflare加入新的机器人指纹而自动更新。

内容业者对AI爬虫机器人已不再容忍,继去年纽约时报控告OpenAI和微软未经同意掠取网站内容用于训练AI模型,上个月这二家大厂又被非营利的调查报导出版业者Mother Jones控告侵权。

发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论