谷歌上周五(12月19日)正式起诉数据抓取公司SerpApi,理由是SerpApi绕过了用于保护版权内容的安全技术,非法抓取出现在谷歌搜索结果中的内容,希望法院能阻止SerpApi的恶意行为,并追究其赔偿责任。
SerpApi于2017年在美国成立,是一家提供搜索引擎结果抓取API的数据服务公司,其产品可抓取并结构化多个搜索引擎的搜索结果,如谷歌或必应等。该公司并非搜索引擎的官方合作伙伴,而是通过自动化技术实时获取搜索结果页面的内容,再提供给客户使用。除了谷歌外,Reddit也在今年10月起诉了SerpApi。
谷歌在诉状中解释,谷歌长期在搜索结果中整合大量经授权的第三方内容,例如知识面板中的高清图片、谷歌地图影像,以及谷歌购物的商品图片与数据,这些内容均通过合法授权与合作关系获得,并非免费使用。
然而,SerpApi推出的Google Search API通过自动化方式实时抓取谷歌的搜索结果页面,整理后出售给客户,据估计该API每日发送数亿次请求,两年内增长高达25000%。
谷歌表示,其服务条款和robots.txt文件中均已明确禁止自动化访问搜索结果;更在2025年1月启用SearchGuard,通过JavaScript挑战、CAPTCHA和浏览器验证等技术手段,识别用户是否为真实人类,以阻止未经授权的大规模抓取行为。
SerpApi在被SearchGuard封锁后,开始伪造浏览器和设备信息、假冒地理位置、将一次合法通过的授权凭证分发给全球其他设备使用,并自动绕过CAPTCHA,还在其博客中公开炫耀已破解谷歌的JavaScript挑战,声称将不断突破新的防护机制。
这使谷歌认为SerpApi不仅违反了服务条款,还触犯了规避技术保护措施、销售或传播规避技术保护措施工具等行为,涉嫌违反《数字千年版权法》(DMCA),因此向法院提起诉讼,请求终止SerpApi的服务、销毁相关技术,并追究巨额法定赔偿。