最新消息:关注人工智能 AI赋能新媒体运营

英伟达被曝主动接触“影子图书馆”获取数百万盗版图书训练AI

科技资讯 admin 浏览

英伟达被曝主动对接盗版图书馆,作家集体起诉其“用盗版喂AI”

全球AI芯片巨头英伟达(NVIDIA)正面临一场前所未有的版权风暴。一份最新提交至美国加州联邦法院的修正起诉书显示,这家以AI算力闻名的公司,被指控为加速大语言模型训练,主动联系全球最大的盗版电子书平台Anna’s Archive,获取数百万本受版权保护的书籍,总量高达500TB。

原告方由多位知名作家组成,包括曾获美国国家图书奖提名的Abdi Nazemian、畅销书作者Linda Fairstein,以及多位独立出版人。他们提供的内部邮件证据显示,2023年年初,英伟达内部一个名为“Data Acquisition Strategy”的小组,在距离开发者大会(GTC)仅数周时,因训练数据不足陷入焦虑。一名团队成员在邮件中直接向Anna’s Archive发问:“你们能提供多少本英文小说?有没有办法批量下载?如果支付加速费用,能不能拿到500TB的完整数据包?”

更令人震惊的是,Anna’s Archive方面曾明确回复:“我们的资源全部来自非法抓取,法律风险极高。”但英伟达管理层在一周内迅速批准了该计划。据起诉书披露,该公司不仅下载了大量小说、非虚构作品和学术著作,还将其整合进NeMo、Megatron等核心AI模型的训练集,用于提升语言理解与生成能力。

不止Anna’s Archive:英伟达或涉多个“影子图书馆”

起诉书进一步指出,英伟达并非只依赖单一盗版平台。内部文档提及,团队曾评估LibGen(Library Genesis)、Sci-Hub、Z-Library等多个被全球学术界和出版业视为“数字盗版重灾区”的资源库。这些平台长期提供未经授权的学术论文、教科书和商业出版物,累计藏书超千万册。

有证据显示,英伟达的AI数据团队甚至建立了一份“优先级数据源清单”,将Anna’s Archive列为“高价值、高覆盖率”来源,而Sci-Hub则因“医学与工程类文献丰富”被标记为“补充性重点”。一位前雇员在匿名证词中透露:“我们不是被动收集,我们是在‘采购’——就像买服务器一样,只是这次买的是别人的书。”

从自用到帮凶:英伟达被指向客户分发“盗版采集工具”

更严重的指控在于,英伟达不仅自己用盗版数据训练模型,还主动为商业客户提供了可自动抓取网络内容的工具。起诉书称,英伟达的“NVIDIA AI Enterprise”平台中,曾包含一个名为“WebDataCollector”的脚本包,被部分企业客户用于从Z-Library、LibGen等站点批量下载受版权保护的PDF和EPUB文件,再上传至企业私有AI训练环境。

该工具虽被标注为“仅供研究用途”,但实际使用记录显示,多家金融、法律科技公司将其用于训练内部问答系统,涉及大量受版权保护的合同范本、法律判例和商业报告。原告律师指出,这已构成“共同侵权”——英伟达明知这些数据来源非法,仍提供技术便利,甚至在客户支持文档中暗示“数据来源越广,模型效果越好”。

“合理使用”辩解崩塌,行业震动

此前,英伟达曾试图以“合理使用”(Fair Use)为由辩护,声称AI训练属于“转换性使用”,不构成侵权。但随着多封内部邮件、会议纪要和下载日志被公开,这一说法正迅速瓦解。美国作家协会(Authors Guild)已正式介入,称此案“可能重塑AI时代的版权边界”。

出版业巨头企鹅兰登书屋、哈珀柯林斯和麦克米伦也相继发声,表示将联合起诉。据《纽约时报》援引知情人士透露,美国版权局正在评估是否将“AI训练数据来源合法性”纳入新修订的版权指南。与此同时,欧盟委员会已启动对英伟达的初步调查,焦点正是其数据采集行为是否违反《数字服务法案》。

一场关于“AI的代价”的全民拷问

这不是一场简单的法律纠纷,而是一场关于技术狂飙下谁该为“知识的代价”买单的深刻冲突。当AI模型在回答“请总结《百年孤独》的主题”时流畅无比,我们是否想过,它所“阅读”的每一行文字,都可能来自一个被非法上传、无人付费的电子书仓库?

英伟达的股价近期已出现小幅波动,机构投资者开始关注其“数据合规风险”。而对全球数百万作家而言,这不仅是赔偿问题,更是生存问题——如果AI可以免费吃掉他们的作品,谁还愿意写作?

目前,该案仍在审理中。但一个事实已无法回避:在AI的光环之下,我们正目睹一场前所未有的“知识掠夺”——而它的推手,不是黑客,是一家市值超万亿美元的科技巨头。