Cloudflare 要求 AI 企业拆分爬虫,9 月 15 日完成整改
Cloudflare 更新了服务默认规则,所有 AI 厂商必须在 9 月 15 日前把搜索爬虫、模型训练爬虫和 AI 代理专用爬虫拆分开。未完成区分的混合爬虫如果访问带广告的页面,会被系统自动拦截。
新规覆盖面很广,新入驻的客户、老用户新建的站点以及全部免费用户网站统一生效。网站管理员要想放行混合爬虫,只能手动修改后台配置。这一调整直接改变了 AI 企业获取网页训练素材的渠道。
大量站长愿意开放内容给传统搜索引擎收录,却不想让知识产权被 AI 无偿大规模采集训练。Cloudflare 指出,谷歌的爬虫同时具备搜索和 AI 数据采集功能,网站很难做到仅开放搜索、隔绝 AI 训练抓取。谷歌随后回应,推出了专属机器人工具,供站点屏蔽 AI 训练取用而不影响搜索收录。不过,其核心爬虫仍会为搜索内置的 AI 功能采集数据,搜索与 AI 数据需求难以彻底割裂。
Cloudflare 首席执行官表示,机器人流量早已远超人类访问,行业生态急需规范来约束各类抓取行为。
Cloudflare 持续加码内容方保护工具,从 2024 年的防 AI 爬虫工具迭代到了全新的按价值计费模式。过去,平台按抓取次数收费,现在升级为 Pay Per Use,依据内容在 AI 中产生的实际收益结算。数据显示,超过一半的 AI 爬虫反复抓取没有更新的页面,付费机制能减少无效流量,同时为创作者增收。目前该付费方案已联合两家 AI 企业试点,内容被 AI 产品调用后,站长可以直接获取收益。
在版权监管趋严的环境下,新规倒逼 AI 企业提升抓取透明度,也让网页创作者掌握了更多内容控制权。