《大英百科全书》起诉OpenAI非法使用十万篇条文训练AI

《大英百科全书》正式起诉OpenAI：AI训练偷走百年知识财富

近日，拥有250年历史的权威知识权威《大英百科全书》及其旗下韦氏词典，正式向纽约曼哈顿联邦法院提起诉讼，指控人工智能巨头OpenAI在未获授权的情况下，大规模盗用其受版权保护的内容，用于训练ChatGPT等AI模型。这场诉讼不是普通的法律纠纷，而是一场关于知识所有权、数字时代版权边界与科技巨头权力的正面交锋。

近十万篇内容被“复制粘贴”

起诉书披露，OpenAI通过自动化爬虫，非法抓取了近10万条来自《大英百科全书》官网和韦氏词典数据库的条目——包括历史人物传记、科学概念解释、语言定义等核心内容。这些文本被直接喂入AI模型，成为其生成答案的“原材料”。

更令人震惊的是，原告方提供的比对数据显示，ChatGPT在回答某些冷门但精准的问题时，输出的文本与原版百科条目“几乎逐字相同”，甚至连标点、段落结构和专业术语的使用都高度一致。例如，当用户询问“什么是‘马尔萨斯陷阱’？”时，AI给出的解释与百科全书1998年版本的措辞重合度超过90%。

这不是偶然的相似，而是系统性复制。《大英百科全书》指出，这些内容并非公开的“免费资源”，其网站明确标注了版权信息和使用条款，禁止未经授权的商业性抓取和再利用。

流量被AI“截胡”，传统权威遭边缘化

除了内容被盗，真正的伤害在于用户流失。过去，人们想查证一个历史事件、一个医学术语，会主动打开Encyclopedia.com或Merriam-Webster.com。如今，越来越多用户直接在ChatGPT里提问，AI快速生成的答案让他们不再点击原网站。

《大英百科全书》的财报显示，其数字订阅收入在2023年同比下降17%，而同期AI问答平台的用户量激增。公司内部评估认为，AI生成内容正在“系统性蚕食”其核心流量池——这不是技术进步，而是知识生态的劫掠。

“我们花了两个世纪积累信誉、校对内容、聘请专家撰写条目，”一位不愿具名的编辑在内部备忘录中写道，“现在，一个公司用算法偷走我们的成果，再卖给用户，而我们却要为流量下滑买单。”

AI还“冒名顶替”？商标侵权指控浮出水面

诉讼还首次提出“商标侵权”指控。原告发现，ChatGPT在回答问题时，常在答案末尾加上“据《大英百科全书》”“参考韦氏词典”等字样，制造出一种“官方背书”的假象。

例如，当AI生成一段关于“量子纠缠”的解释时，它会说：“根据《大英百科全书》，量子纠缠是……”——但这段内容根本不是来自该百科，而是AI自己编造的“幻觉”内容。这种行为不仅误导用户，更严重损害了百年品牌声誉。

《大英百科全书》强调，他们从未与OpenAI达成任何合作，也未授权其使用品牌名称或内容。这种“借名造势”的做法，已构成对商标权的滥用。

AI公司辩称“合理使用”？专家：站不住脚

面对指控，OpenAI一贯以“合理使用”作为辩护理由，称AI训练属于“转换性使用”，不构成侵权。但法律界普遍认为，这一论点在本次案件中难以成立。

“合理使用”通常适用于评论、教学、研究等非商业性目的，而OpenAI是全球最赚钱的AI公司之一，其模型直接用于商业产品并产生巨额收入。更重要的是，它复制的是“完整、精准、可替代”的内容，而非提取片段用于分析。

哈佛大学知识产权教授Jonathan Zittrain指出：“如果你把《纽约时报》整版文章喂给AI，再让它生成一篇一模一样的新闻稿去卖钱，这叫‘合理使用’吗？显然不是。”

这不是第一战，也不会是最后一战

事实上，这已是《大英百科全书》第二次出手。去年，他们曾起诉AI初创公司Perplexity AI，指控其在回答中直接引用并展示其内容摘要，最终双方达成和解，Perplexity承诺停止抓取其网站内容。

如今，他们把矛头对准了更大的对手——微软投资的OpenAI。这不仅是一场法律战，更是一次宣言：知识不是数据，权威不是可爬取的资源，百年积累的信誉，不该被算法轻易抹去。

目前，案件正在审理中。如果法院支持原告，或将为全球内容创作者树立关键先例——AI公司不能再以“技术中立”为借口，免费吃掉人类智慧的结晶。

对普通用户而言，这不只是版权问题，更是信任问题：当你问AI一个问题，你得到的答案，是来自人类专家的严谨成果，还是被算法重组的拼贴品？

OpenAI ChatGPT 版权侵权合理使用

CB科技站