OpenAI不久前推出AI浏览器Atlas,加入Perplexity Comet、Opera Neon的行列。一项研究显示,由OpenAI和Perplexity AI推出的AI浏览器因其流量难以和真人区分,能绕过内容付费墙,使原本付费才能看到的内容被曝光。而且AI浏览器可能会尝试使用不同方法来绕过付费墙。
根据《哥伦比亚新闻评论》(Columbia Journalism Review, CJR)的测试,至少Atlas及Comet可能对媒体机构造成营收威胁,因为AI浏览器更难以识别。研究团队在测试中,要求OpenAI ChatGPT和Perplexity聊天机器人从MIT Technology Review网站提取9000字的付费内容,二者都表示无法访问,因为该杂志封锁了爬虫;但如果他们要求Atlas和Comet做同样的事,则都成功完成。
至于为何AI浏览器可以突破付费墙,研究团队认为原因有二。一是对网站而言,Atlas和Comet的AI代理与使用标准Chrome的真人无异。当网页爬虫或机器设备访问网站时,会显示数字ID表明是何种软件发出请求及其目的。出版商此时可以选择拒绝使用机器人排除协议(Robots Exclusion Protocol, REP)的特定爬虫,许多厂商也确实如此做了。
但研究AI的新创公司Tollbit近日一份《State of the Bots》报告指出,下一代AI代理越来越难以与人类区分。从网站日志来看,Atlas和Comet访问网站留下的记录与人类使用Chrome的正常日志完全一致,因此封禁它们也可能误伤真实用户访问。因此,出版商要检测、监控或封禁这些AI代理变得越来越困难。
第二个原因是AI代理无法被有效阻挡。以MIT Technology Review和《国家地理杂志》为例,它们均使用客户端付费墙技术。这类技术在网页加载时同时加载文字,但随后会弹出一层遮挡层,要求用户登录或订阅。虽然人类看不到下方的文字,但AI代理仍能直接读取。相比之下,《华尔街日报》或《彭博》采用服务器端付费墙,服务器在用户输入凭证后才会发送完整内容。如果用户已付费,AI浏览器就能正常读取文字。
研究团队指出,虽然OpenAI默认不以Atlas读取的内容训练模型,但可能出现AI浏览器记忆混淆的问题。这意味着,封禁OpenAI爬虫的网页确实不会用于训练大语言模型(LLM),但ChatGPT可能会记住用户曾查看的重要信息。CJR援引《华盛顿邮报》报道称,Atlas很快混淆了哪些内容该记住、哪些不该记住。
CJR研究团队还发现,OpenAI Atlas似乎会避免读取与其有法律诉讼的媒体(如《纽约时报》)网站内容。但当研究人员要求Atlas与这些网站互动时,它仍会尝试使用不同方法绕过付费墙,以满足需求。
首先,AI代理可利用数字面包屑(digital breadcrumbs)反向重构内容。例如,Atlas在被要求从PCMag提取摘要时,即使无法直接访问其官网(因其母公司起诉OpenAI),也能通过推文、其他网站引用、投稿新闻或其他网页内容拼凑出摘要。
研究人员在要求另一家起诉OpenAI的媒体《纽约时报》内容摘要时,Atlas则采取了不同策略:它不是重建内容,而是从另外四家媒体网站获取信息,其中三家已与OpenAI签订内容授权协议。
研究人员也指出内容出版商的困境:即使技术上真能防住Atlas,但那时Atlas可能干脆引导或建议用户前往其他媒体网站。