英伟达被指涉盗版电子书训练AI?作者联盟发起集体诉讼
近日,一场席卷科技与出版界的风暴悄然爆发。多家知名书籍作者联合提起集体诉讼,指控英伟达(NVIDIA)在2023年曾主动联系全球最大的盗版电子书平台“安娜档案馆”(Anna’s Archive),试图获取高达500TB的非法复制图书数据,用于训练其自研大语言模型。这一行为被指控为“有组织、有目的的版权侵犯”,并引发全球作家群体的强烈愤怒。
安娜档案馆并非普通网站。它自2022年上线以来,已聚合了来自LibGen、Sci-Hub、Z-Library等数十个盗版资源站的超过2000万册图书,涵盖学术论文、畅销小说、教科书乃至绝版珍本。尽管该平台多次在页面醒目位置声明“所有内容均来自非法来源,我们不拥有版权”,但据诉讼文件披露,英伟达内部邮件显示,其AI研究团队曾于2023年7月直接致信安娜档案馆运营者,询问“能否提供批量下载权限”或“建立API对接”,以加速模型训练进程。
这并非孤例。诉讼中引用的多份内部文档表明,英伟达的AI数据采集团队不仅接触了安娜档案馆,还通过自动化爬虫系统,从LibGen、Sci-Hub、Z-Library等平台批量抓取了数千万本PDF和EPUB文件。这些文件未经作者授权,也未支付任何版权费用。其中一份标注“2023 Q3训练数据源”的PPT中,明确将“Anna’s Archive (500TB)”列为“高价值、低合规成本”数据来源。
“赶超ChatGPT”成了盗版的借口?
时间回到2023年秋季。OpenAI的ChatGPT已席卷全球,微软、谷歌、Meta纷纷加码大模型投入。而英伟达虽坐拥全球90%以上的AI训练芯片市场,却在自家大模型上落后一步。其NeMo、Retro-48B等模型尚未能与GPT-4在文本理解、多轮对话等关键指标上抗衡。
据知情人士透露,当时英伟达内部压力巨大。一位参与模型训练的工程师在匿名邮件中写道:“我们没有时间等出版社授权了。如果不能在10月开发者大会前展示一个能‘读过’大量书籍的模型,投资人会怎么看?”
于是,500TB的盗版电子书成了“捷径”。这些数据被清洗、去重、打标签后,直接输入模型进行预训练。而这一切,发生在英伟达公开宣称“尊重知识产权”“支持创作者”的同一时期。
作者们怒了:这不是技术问题,是道德崩塌
原告方包括多位畅销书作家、诺贝尔文学奖提名者和独立出版人。他们不是反对AI,而是反对“用我们的作品,去打败我们”。
《纽约时报》畅销书作者玛拉·陈(Mara Chen)在诉讼声明中说:“我写了十年小说,靠版税养家。现在,一家市值万亿的公司,用我书里的每一个句子,去训练一个抢我饭碗的机器人,还说这是‘合理使用’?这根本不是技术进步,这是系统性掠夺。”
美国作家协会(SFWA)和国际作者联合会(IFLA)已公开支持此次诉讼。他们指出,英伟达的“合理使用”辩护在法律上站不住脚——美国版权法明确要求,商业性AI训练不属于“转换性使用”,尤其当数据来源非法、训练目的为盈利时。
安娜档案馆:被利用的工具,还是替罪羊?
与此同时,安娜档案馆自身正面临法律围剿。2024年初,其域名被全球多国法院查封,服务器遭扣押,创始人身份成谜。有消息称,该平台已转入暗网,以“镜像站点”形式继续运行。
但值得注意的是,英伟达并未直接从安娜档案馆下载数据——他们使用的,是公开的Torrent链接和公开API。换句话说,英伟达没有“偷”,但“主动捡了别人偷来的东西”,并用它牟利。这种“间接侵权”模式,正在成为科技巨头的灰色标准操作流程。
英伟达沉默,但市场没沉默
面对指控,英伟达至今未发布正式回应。其公关团队仅在一封给媒体的简短声明中称:“我们严格遵守所有适用法律,所有训练数据均来自合法授权渠道。”——但未提供任何证据。
讽刺的是,英伟达的股价在诉讼曝光后不降反升。投资者似乎更关心其H200芯片的订单增长,而非道德争议。但出版界已开始反击:多家出版社宣布,将对使用AI生成内容的平台发起版权追责;作家平台Substack已上线“AI训练数据透明度”标签,允许作者选择是否允许自己的作品被用于AI训练。
这场官司,可能成为AI时代版权的分水岭。如果英伟达胜诉,意味着“用盗版数据训练AI”将成为行业潜规则;如果败诉,全球科技公司或将被迫重新设计数据采集流程——代价高昂,但或许,是保护创作生态的唯一出路。
我们正在见证的,不只是一个公司的丑闻,而是一场关于“谁的智慧值得被尊重”的世纪对决。