英伟达被曝主动接触“影子图书馆”获取数百万盗版图书训练AI

英伟达被曝主动对接盗版图书馆，作家集体起诉其“用盗版喂AI”

全球AI芯片巨头英伟达（NVIDIA）正面临一场前所未有的版权风暴。一份最新提交至美国加州联邦法院的修正起诉书显示，这家以AI算力闻名的公司，被指控为加速大语言模型训练，主动联系全球最大的盗版电子书平台Anna’s Archive，获取数百万本受版权保护的书籍，总量高达500TB。

原告方由多位知名作家组成，包括曾获美国国家图书奖提名的Abdi Nazemian、畅销书作者Linda Fairstein，以及多位独立出版人。他们提供的内部邮件证据显示，2023年年初，英伟达内部一个名为“Data Acquisition Strategy”的小组，在距离开发者大会（GTC）仅数周时，因训练数据不足陷入焦虑。一名团队成员在邮件中直接向Anna’s Archive发问：“你们能提供多少本英文小说？有没有办法批量下载？如果支付加速费用，能不能拿到500TB的完整数据包？”

更令人震惊的是，Anna’s Archive方面曾明确回复：“我们的资源全部来自非法抓取，法律风险极高。”但英伟达管理层在一周内迅速批准了该计划。据起诉书披露，该公司不仅下载了大量小说、非虚构作品和学术著作，还将其整合进NeMo、Megatron等核心AI模型的训练集，用于提升语言理解与生成能力。

不止Anna’s Archive：英伟达或涉多个“影子图书馆”

起诉书进一步指出，英伟达并非只依赖单一盗版平台。内部文档提及，团队曾评估LibGen（Library Genesis）、Sci-Hub、Z-Library等多个被全球学术界和出版业视为“数字盗版重灾区”的资源库。这些平台长期提供未经授权的学术论文、教科书和商业出版物，累计藏书超千万册。

有证据显示，英伟达的AI数据团队甚至建立了一份“优先级数据源清单”，将Anna’s Archive列为“高价值、高覆盖率”来源，而Sci-Hub则因“医学与工程类文献丰富”被标记为“补充性重点”。一位前雇员在匿名证词中透露：“我们不是被动收集，我们是在‘采购’——就像买服务器一样，只是这次买的是别人的书。”

从自用到帮凶：英伟达被指向客户分发“盗版采集工具”

更严重的指控在于，英伟达不仅自己用盗版数据训练模型，还主动为商业客户提供了可自动抓取网络内容的工具。起诉书称，英伟达的“NVIDIA AI Enterprise”平台中，曾包含一个名为“WebDataCollector”的脚本包，被部分企业客户用于从Z-Library、LibGen等站点批量下载受版权保护的PDF和EPUB文件，再上传至企业私有AI训练环境。

该工具虽被标注为“仅供研究用途”，但实际使用记录显示，多家金融、法律科技公司将其用于训练内部问答系统，涉及大量受版权保护的合同范本、法律判例和商业报告。原告律师指出，这已构成“共同侵权”——英伟达明知这些数据来源非法，仍提供技术便利，甚至在客户支持文档中暗示“数据来源越广，模型效果越好”。

“合理使用”辩解崩塌，行业震动

此前，英伟达曾试图以“合理使用”（Fair Use）为由辩护，声称AI训练属于“转换性使用”，不构成侵权。但随着多封内部邮件、会议纪要和下载日志被公开，这一说法正迅速瓦解。美国作家协会（Authors Guild）已正式介入，称此案“可能重塑AI时代的版权边界”。

出版业巨头企鹅兰登书屋、哈珀柯林斯和麦克米伦也相继发声，表示将联合起诉。据《纽约时报》援引知情人士透露，美国版权局正在评估是否将“AI训练数据来源合法性”纳入新修订的版权指南。与此同时，欧盟委员会已启动对英伟达的初步调查，焦点正是其数据采集行为是否违反《数字服务法案》。

一场关于“AI的代价”的全民拷问

这不是一场简单的法律纠纷，而是一场关于技术狂飙下谁该为“知识的代价”买单的深刻冲突。当AI模型在回答“请总结《百年孤独》的主题”时流畅无比，我们是否想过，它所“阅读”的每一行文字，都可能来自一个被非法上传、无人付费的电子书仓库？

英伟达的股价近期已出现小幅波动，机构投资者开始关注其“数据合规风险”。而对全球数百万作家而言，这不仅是赔偿问题，更是生存问题——如果AI可以免费吃掉他们的作品，谁还愿意写作？

目前，该案仍在审理中。但一个事实已无法回避：在AI的光环之下，我们正目睹一场前所未有的“知识掠夺”——而它的推手，不是黑客，是一家市值超万亿美元的科技巨头。

CB科技站