英伟达被指秘密接触安娜档案馆，欲用盗版数据训练AI

英伟达被指涉盗版电子书训练AI？作者联盟发起集体诉讼

近日，一场席卷科技与出版界的风暴悄然爆发。多家知名书籍作者联合提起集体诉讼，指控英伟达（NVIDIA）在2023年曾主动联系全球最大的盗版电子书平台“安娜档案馆”（Anna’s Archive），试图获取高达500TB的非法复制图书数据，用于训练其自研大语言模型。这一行为被指控为“有组织、有目的的版权侵犯”，并引发全球作家群体的强烈愤怒。

安娜档案馆并非普通网站。它自2022年上线以来，已聚合了来自LibGen、Sci-Hub、Z-Library等数十个盗版资源站的超过2000万册图书，涵盖学术论文、畅销小说、教科书乃至绝版珍本。尽管该平台多次在页面醒目位置声明“所有内容均来自非法来源，我们不拥有版权”，但据诉讼文件披露，英伟达内部邮件显示，其AI研究团队曾于2023年7月直接致信安娜档案馆运营者，询问“能否提供批量下载权限”或“建立API对接”，以加速模型训练进程。

这并非孤例。诉讼中引用的多份内部文档表明，英伟达的AI数据采集团队不仅接触了安娜档案馆，还通过自动化爬虫系统，从LibGen、Sci-Hub、Z-Library等平台批量抓取了数千万本PDF和EPUB文件。这些文件未经作者授权，也未支付任何版权费用。其中一份标注“2023 Q3训练数据源”的PPT中，明确将“Anna’s Archive (500TB)”列为“高价值、低合规成本”数据来源。

“赶超ChatGPT”成了盗版的借口？

时间回到2023年秋季。OpenAI的ChatGPT已席卷全球，微软、谷歌、Meta纷纷加码大模型投入。而英伟达虽坐拥全球90%以上的AI训练芯片市场，却在自家大模型上落后一步。其NeMo、Retro-48B等模型尚未能与GPT-4在文本理解、多轮对话等关键指标上抗衡。

据知情人士透露，当时英伟达内部压力巨大。一位参与模型训练的工程师在匿名邮件中写道：“我们没有时间等出版社授权了。如果不能在10月开发者大会前展示一个能‘读过’大量书籍的模型，投资人会怎么看？”

于是，500TB的盗版电子书成了“捷径”。这些数据被清洗、去重、打标签后，直接输入模型进行预训练。而这一切，发生在英伟达公开宣称“尊重知识产权”“支持创作者”的同一时期。

作者们怒了：这不是技术问题，是道德崩塌

原告方包括多位畅销书作家、诺贝尔文学奖提名者和独立出版人。他们不是反对AI，而是反对“用我们的作品，去打败我们”。

《纽约时报》畅销书作者玛拉·陈（Mara Chen）在诉讼声明中说：“我写了十年小说，靠版税养家。现在，一家市值万亿的公司，用我书里的每一个句子，去训练一个抢我饭碗的机器人，还说这是‘合理使用’？这根本不是技术进步，这是系统性掠夺。”

美国作家协会（SFWA）和国际作者联合会（IFLA）已公开支持此次诉讼。他们指出，英伟达的“合理使用”辩护在法律上站不住脚——美国版权法明确要求，商业性AI训练不属于“转换性使用”，尤其当数据来源非法、训练目的为盈利时。

安娜档案馆：被利用的工具，还是替罪羊？

与此同时，安娜档案馆自身正面临法律围剿。2024年初，其域名被全球多国法院查封，服务器遭扣押，创始人身份成谜。有消息称，该平台已转入暗网，以“镜像站点”形式继续运行。

但值得注意的是，英伟达并未直接从安娜档案馆下载数据——他们使用的，是公开的Torrent链接和公开API。换句话说，英伟达没有“偷”，但“主动捡了别人偷来的东西”，并用它牟利。这种“间接侵权”模式，正在成为科技巨头的灰色标准操作流程。

英伟达沉默，但市场没沉默

面对指控，英伟达至今未发布正式回应。其公关团队仅在一封给媒体的简短声明中称：“我们严格遵守所有适用法律，所有训练数据均来自合法授权渠道。”——但未提供任何证据。

讽刺的是，英伟达的股价在诉讼曝光后不降反升。投资者似乎更关心其H200芯片的订单增长，而非道德争议。但出版界已开始反击：多家出版社宣布，将对使用AI生成内容的平台发起版权追责；作家平台Substack已上线“AI训练数据透明度”标签，允许作者选择是否允许自己的作品被用于AI训练。

这场官司，可能成为AI时代版权的分水岭。如果英伟达胜诉，意味着“用盗版数据训练AI”将成为行业潜规则；如果败诉，全球科技公司或将被迫重新设计数据采集流程——代价高昂，但或许，是保护创作生态的唯一出路。

我们正在见证的，不只是一个公司的丑闻，而是一场关于“谁的智慧值得被尊重”的世纪对决。

CB科技站