研究表明AI浏览器能够绕过付费墙

OpenAI不久前推出AI浏览器Atlas，加入Perplexity Comet、Opera Neon的行列。一项研究显示，由OpenAI和Perplexity AI推出的AI浏览器因其流量难以和真人区分，能绕过内容付费墙，使原本付费才能看到的内容被曝光。而且AI浏览器可能会尝试使用不同方法来绕过付费墙。

根据《哥伦比亚新闻评论》（Columbia Journalism Review, CJR）的测试，至少Atlas及Comet可能对媒体机构造成营收威胁，因为AI浏览器更难以识别。研究团队在测试中，要求OpenAI ChatGPT和Perplexity聊天机器人从MIT Technology Review网站提取9000字的付费内容，二者都表示无法访问，因为该杂志封锁了爬虫；但如果他们要求Atlas和Comet做同样的事，则都成功完成。

至于为何AI浏览器可以突破付费墙，研究团队认为原因有二。一是对网站而言，Atlas和Comet的AI代理与使用标准Chrome的真人无异。当网页爬虫或机器设备访问网站时，会显示数字ID表明是何种软件发出请求及其目的。出版商此时可以选择拒绝使用机器人排除协议（Robots Exclusion Protocol, REP）的特定爬虫，许多厂商也确实如此做了。

但研究AI的新创公司Tollbit近日一份《State of the Bots》报告指出，下一代AI代理越来越难以与人类区分。从网站日志来看，Atlas和Comet访问网站留下的记录与人类使用Chrome的正常日志完全一致，因此封禁它们也可能误伤真实用户访问。因此，出版商要检测、监控或封禁这些AI代理变得越来越困难。

第二个原因是AI代理无法被有效阻挡。以MIT Technology Review和《国家地理杂志》为例，它们均使用客户端付费墙技术。这类技术在网页加载时同时加载文字，但随后会弹出一层遮挡层，要求用户登录或订阅。虽然人类看不到下方的文字，但AI代理仍能直接读取。相比之下，《华尔街日报》或《彭博》采用服务器端付费墙，服务器在用户输入凭证后才会发送完整内容。如果用户已付费，AI浏览器就能正常读取文字。

研究团队指出，虽然OpenAI默认不以Atlas读取的内容训练模型，但可能出现AI浏览器记忆混淆的问题。这意味着，封禁OpenAI爬虫的网页确实不会用于训练大语言模型（LLM），但ChatGPT可能会记住用户曾查看的重要信息。CJR援引《华盛顿邮报》报道称，Atlas很快混淆了哪些内容该记住、哪些不该记住。

CJR研究团队还发现，OpenAI Atlas似乎会避免读取与其有法律诉讼的媒体（如《纽约时报》）网站内容。但当研究人员要求Atlas与这些网站互动时，它仍会尝试使用不同方法绕过付费墙，以满足需求。

首先，AI代理可利用数字面包屑（digital breadcrumbs）反向重构内容。例如，Atlas在被要求从PCMag提取摘要时，即使无法直接访问其官网（因其母公司起诉OpenAI），也能通过推文、其他网站引用、投稿新闻或其他网页内容拼凑出摘要。

研究人员在要求另一家起诉OpenAI的媒体《纽约时报》内容摘要时，Atlas则采取了不同策略：它不是重建内容，而是从另外四家媒体网站获取信息，其中三家已与OpenAI签订内容授权协议。

研究人员也指出内容出版商的困境：即使技术上真能防住Atlas，但那时Atlas可能干脆引导或建议用户前往其他媒体网站。

AI浏览器内容提取付费墙绕过

CB科技站

研究表明AI浏览器能够绕过付费墙

与本文相关的文章