大英百科全书起诉OpenAI：指控AI模型搭便车窃取知识内容

当百科全书遇上ChatGPT：一场关乎知识尊严的世纪对决

曼哈顿联邦法院的法庭里，一场看似安静的诉讼，正悄然改写数字时代的知识规则。大英百科全书公司（Encyclopaedia Britannica）和它旗下的梅里亚姆—韦伯斯特词典，正式将OpenAI告上法庭——不是因为抄袭，而是因为一种更隐蔽、更致命的掠夺：用数十年来由数千名学者、编辑和语言专家精心打磨的条目，喂养一台机器，然后把答案免费送回给全世界。

这不是简单的“用数据训练模型”那么简单。大英百科全书的律师在诉状中指出，OpenAI在未获授权、未付任何费用的情况下，系统性抓取了近十万篇受版权保护的原文，用于训练其GPT系列模型。这些内容不是网络杂音，而是经过严格审核、反复修订、具有极高权威性的知识成果——每一句定义、每一条历史叙述，背后都是人力与时间的沉淀。

“AI背诵原文”：不是巧合，是实锤

最让传统出版机构愤怒的，不是AI“学”了他们的内容，而是它“记得太清楚了”。

诉讼中提交的对比样本显示，在特定提问下，ChatGPT生成的回答与大英百科全书原文几乎一字不差。比如关于“文艺复兴”“牛顿运动定律”或“美式英语拼写规则”的条目，AI输出的句子结构、术语选择、甚至标点节奏，都与原版高度重合。这不是“理解后的重组”，而是“记忆后的复述”。

更可怕的是，这种复现正在蚕食原平台的流量。当用户在搜索引擎中输入“什么是量子纠缠？”，过去他们会点击进入大英百科全书官网，现在，他们直接从ChatGPT获得答案——而且是免费的。根据SimilarWeb数据，2023年以来，大英百科全书网站的自然搜索流量下降了近18%，而同期AI问答平台的访问量激增超过300%。

当AI说错话，却挂着你的名字

版权问题之外，一场更深层的信任危机正在蔓延。

大英百科全书发现，OpenAI的AI模型在回答错误信息时，常常“引用”其品牌作为权威背书。例如，有用户提问：“梅里亚姆—韦伯斯特如何定义‘climate change’？” AI竟生成了一段虚假定义，并标注“来源：Merriam-Webster”。而事实上，该词典从未如此定义过。

这并非孤例。2024年初，美国教育科技公司Edutopia曾测试多个主流AI模型，发现在涉及历史人物、科学术语和法律定义时，约有12%的错误答案会错误标注“据大英百科全书”或“根据韦氏词典”。对于一个拥有256年历史、以“零错误”为生命线的机构而言，这种“冒名顶替”比抄袭更致命——它正在摧毁公众对权威的信任。

不只是大英百科：一场知识界的集体反击

这场诉讼不是孤军奋战。就在同一天，纽约时报也正在对OpenAI和微软提起类似诉讼，指控其用数百万篇新闻报道训练模型，却剥夺了记者的劳动价值与读者的订阅意愿。

而像Perplexity AI这样的“AI搜索新贵”，也因在回答中直接引用《华尔街日报》《经济学人》的付费内容而被多家媒体起诉。就连维基百科，也公开警告其内容正被大量用于AI训练，且“无法控制其被误用”。

行业分析师指出，这场战役的胜负，将决定未来AI产业的“成本结构”：是继续免费收割人类知识遗产，还是为内容支付合理报酬？如果AI可以无代价地“吃掉”百科全书、词典、报纸和学术论文，那么谁还愿意投入十年去写一本好书？谁还愿意花五年去编一套权威词典？

判决将决定：知识，还值不值钱？

2024年6月，美国联邦法官已初步同意将大英百科全书案与《纽约时报》案合并审理，这标志着法院正将AI版权问题提升至系统性层面。双方都已提交关键证据，预计将在2025年初进入庭审阶段。

大英百科全书要求法院：立即禁止OpenAI继续使用其内容训练模型；强制删除已训练的侵权数据；赔偿经济损失；并要求AI在引用其内容时必须明确标注来源——就像搜索引擎必须链接原网页一样。

这不是一场关于“技术进步”的辩论，而是一场关于“谁该为知识付费”的战争。当AI能说出比人类更流畅的答案时，我们是否还要为那些默默无闻的编辑、校对、研究员和作者们，保留一点尊严？

答案，将在纽约的法庭上揭晓。

CB科技站