当百科全书遇上ChatGPT:一场关乎知识尊严的世纪对决
曼哈顿联邦法院的法庭里,一场看似安静的诉讼,正悄然改写数字时代的知识规则。大英百科全书公司(Encyclopaedia Britannica)和它旗下的梅里亚姆—韦伯斯特词典,正式将OpenAI告上法庭——不是因为抄袭,而是因为一种更隐蔽、更致命的掠夺:用数十年来由数千名学者、编辑和语言专家精心打磨的条目,喂养一台机器,然后把答案免费送回给全世界。
这不是简单的“用数据训练模型”那么简单。大英百科全书的律师在诉状中指出,OpenAI在未获授权、未付任何费用的情况下,系统性抓取了近十万篇受版权保护的原文,用于训练其GPT系列模型。这些内容不是网络杂音,而是经过严格审核、反复修订、具有极高权威性的知识成果——每一句定义、每一条历史叙述,背后都是人力与时间的沉淀。
“AI背诵原文”:不是巧合,是实锤
最让传统出版机构愤怒的,不是AI“学”了他们的内容,而是它“记得太清楚了”。
诉讼中提交的对比样本显示,在特定提问下,ChatGPT生成的回答与大英百科全书原文几乎一字不差。比如关于“文艺复兴”“牛顿运动定律”或“美式英语拼写规则”的条目,AI输出的句子结构、术语选择、甚至标点节奏,都与原版高度重合。这不是“理解后的重组”,而是“记忆后的复述”。
更可怕的是,这种复现正在蚕食原平台的流量。当用户在搜索引擎中输入“什么是量子纠缠?”,过去他们会点击进入大英百科全书官网,现在,他们直接从ChatGPT获得答案——而且是免费的。根据SimilarWeb数据,2023年以来,大英百科全书网站的自然搜索流量下降了近18%,而同期AI问答平台的访问量激增超过300%。
当AI说错话,却挂着你的名字
版权问题之外,一场更深层的信任危机正在蔓延。
大英百科全书发现,OpenAI的AI模型在回答错误信息时,常常“引用”其品牌作为权威背书。例如,有用户提问:“梅里亚姆—韦伯斯特如何定义‘climate change’?” AI竟生成了一段虚假定义,并标注“来源:Merriam-Webster”。而事实上,该词典从未如此定义过。
这并非孤例。2024年初,美国教育科技公司Edutopia曾测试多个主流AI模型,发现在涉及历史人物、科学术语和法律定义时,约有12%的错误答案会错误标注“据大英百科全书”或“根据韦氏词典”。对于一个拥有256年历史、以“零错误”为生命线的机构而言,这种“冒名顶替”比抄袭更致命——它正在摧毁公众对权威的信任。
不只是大英百科:一场知识界的集体反击
这场诉讼不是孤军奋战。就在同一天,纽约时报也正在对OpenAI和微软提起类似诉讼,指控其用数百万篇新闻报道训练模型,却剥夺了记者的劳动价值与读者的订阅意愿。
而像Perplexity AI这样的“AI搜索新贵”,也因在回答中直接引用《华尔街日报》《经济学人》的付费内容而被多家媒体起诉。就连维基百科,也公开警告其内容正被大量用于AI训练,且“无法控制其被误用”。
行业分析师指出,这场战役的胜负,将决定未来AI产业的“成本结构”:是继续免费收割人类知识遗产,还是为内容支付合理报酬?如果AI可以无代价地“吃掉”百科全书、词典、报纸和学术论文,那么谁还愿意投入十年去写一本好书?谁还愿意花五年去编一套权威词典?
判决将决定:知识,还值不值钱?
2024年6月,美国联邦法官已初步同意将大英百科全书案与《纽约时报》案合并审理,这标志着法院正将AI版权问题提升至系统性层面。双方都已提交关键证据,预计将在2025年初进入庭审阶段。
大英百科全书要求法院:立即禁止OpenAI继续使用其内容训练模型;强制删除已训练的侵权数据;赔偿经济损失;并要求AI在引用其内容时必须明确标注来源——就像搜索引擎必须链接原网页一样。
这不是一场关于“技术进步”的辩论,而是一场关于“谁该为知识付费”的战争。当AI能说出比人类更流畅的答案时,我们是否还要为那些默默无闻的编辑、校对、研究员和作者们,保留一点尊严?
答案,将在纽约的法庭上揭晓。