《大英百科全书》正式起诉OpenAI:AI训练偷走百年知识财富
近日,拥有250年历史的权威知识权威《大英百科全书》及其旗下韦氏词典,正式向纽约曼哈顿联邦法院提起诉讼,指控人工智能巨头OpenAI在未获授权的情况下,大规模盗用其受版权保护的内容,用于训练ChatGPT等AI模型。这场诉讼不是普通的法律纠纷,而是一场关于知识所有权、数字时代版权边界与科技巨头权力的正面交锋。
近十万篇内容被“复制粘贴”
起诉书披露,OpenAI通过自动化爬虫,非法抓取了近10万条来自《大英百科全书》官网和韦氏词典数据库的条目——包括历史人物传记、科学概念解释、语言定义等核心内容。这些文本被直接喂入AI模型,成为其生成答案的“原材料”。
更令人震惊的是,原告方提供的比对数据显示,ChatGPT在回答某些冷门但精准的问题时,输出的文本与原版百科条目“几乎逐字相同”,甚至连标点、段落结构和专业术语的使用都高度一致。例如,当用户询问“什么是‘马尔萨斯陷阱’?”时,AI给出的解释与百科全书1998年版本的措辞重合度超过90%。
这不是偶然的相似,而是系统性复制。《大英百科全书》指出,这些内容并非公开的“免费资源”,其网站明确标注了版权信息和使用条款,禁止未经授权的商业性抓取和再利用。
流量被AI“截胡”,传统权威遭边缘化
除了内容被盗,真正的伤害在于用户流失。过去,人们想查证一个历史事件、一个医学术语,会主动打开Encyclopedia.com或Merriam-Webster.com。如今,越来越多用户直接在ChatGPT里提问,AI快速生成的答案让他们不再点击原网站。
《大英百科全书》的财报显示,其数字订阅收入在2023年同比下降17%,而同期AI问答平台的用户量激增。公司内部评估认为,AI生成内容正在“系统性蚕食”其核心流量池——这不是技术进步,而是知识生态的劫掠。
“我们花了两个世纪积累信誉、校对内容、聘请专家撰写条目,”一位不愿具名的编辑在内部备忘录中写道,“现在,一个公司用算法偷走我们的成果,再卖给用户,而我们却要为流量下滑买单。”
AI还“冒名顶替”?商标侵权指控浮出水面
诉讼还首次提出“商标侵权”指控。原告发现,ChatGPT在回答问题时,常在答案末尾加上“据《大英百科全书》”“参考韦氏词典”等字样,制造出一种“官方背书”的假象。
例如,当AI生成一段关于“量子纠缠”的解释时,它会说:“根据《大英百科全书》,量子纠缠是……”——但这段内容根本不是来自该百科,而是AI自己编造的“幻觉”内容。这种行为不仅误导用户,更严重损害了百年品牌声誉。
《大英百科全书》强调,他们从未与OpenAI达成任何合作,也未授权其使用品牌名称或内容。这种“借名造势”的做法,已构成对商标权的滥用。
AI公司辩称“合理使用”?专家:站不住脚
面对指控,OpenAI一贯以“合理使用”作为辩护理由,称AI训练属于“转换性使用”,不构成侵权。但法律界普遍认为,这一论点在本次案件中难以成立。
“合理使用”通常适用于评论、教学、研究等非商业性目的,而OpenAI是全球最赚钱的AI公司之一,其模型直接用于商业产品并产生巨额收入。更重要的是,它复制的是“完整、精准、可替代”的内容,而非提取片段用于分析。
哈佛大学知识产权教授Jonathan Zittrain指出:“如果你把《纽约时报》整版文章喂给AI,再让它生成一篇一模一样的新闻稿去卖钱,这叫‘合理使用’吗?显然不是。”
这不是第一战,也不会是最后一战
事实上,这已是《大英百科全书》第二次出手。去年,他们曾起诉AI初创公司Perplexity AI,指控其在回答中直接引用并展示其内容摘要,最终双方达成和解,Perplexity承诺停止抓取其网站内容。
如今,他们把矛头对准了更大的对手——微软投资的OpenAI。这不仅是一场法律战,更是一次宣言:知识不是数据,权威不是可爬取的资源,百年积累的信誉,不该被算法轻易抹去。
目前,案件正在审理中。如果法院支持原告,或将为全球内容创作者树立关键先例——AI公司不能再以“技术中立”为借口,免费吃掉人类智慧的结晶。
对普通用户而言,这不只是版权问题,更是信任问题:当你问AI一个问题,你得到的答案,是来自人类专家的严谨成果,还是被算法重组的拼贴品?