最新消息:关注人工智能 AI赋能新媒体运营

Anthropic秘密启动“巴拿马项目”:AI巨头为何焚毁训练数据?

科技资讯 admin 浏览

“巴拿马项目”曝光:Anthropic买下百万本书,然后烧了

最近,一条关于AI公司Anthropic的新闻在社交媒体上炸开了锅。有人拍到他们雇人从全美各地的二手书店、跳蚤市场和图书馆清仓区大量收购旧书,运进仓库后,用机器切掉书脊、扫描内页,再把剩下的纸张直接送进废纸回收站——一本不剩。

这不是电影桥段,也不是网络段子。2026年初,一份由加州联邦法院公开的内部邮件和物流记录,首次证实了这个代号为“巴拿马项目”(Project Panama)的秘密行动。据文件显示,Anthropic在过去18个月里,采购了超过300万册实体书,总花费超过2.3亿美元。这些书,最终都变成了训练AI模型的数字素材,而实体书,被彻底销毁。

有人把这比作“知识焚书”,也有人说是“版权避险的聪明操作”。但真正让人沉默的,是背后那句没人敢问的问题:当AI想读懂人类写下的所有文字,它有没有权利,把书烧掉?

为什么买书?为什么不直接用网上的电子版?

答案很简单:法律风险太高。

早在2024年,Anthropic就因被指控从盗版电子书网站LibGen和Sci-Hub下载数千万份PDF文件而遭到作家联盟集体起诉。包括《三体》英文译者刘宇昆、普利策奖得主安妮·普鲁在内的上百名作者联合发声,称其“系统性窃取创作成果”。2025年,公司支付了15亿美元和解金,创下AI行业史上最大版权赔偿纪录。

“我们不想再打官司了,”一位不愿具名的Anthropic前法务人员在匿名采访中透露,“每次用盗版数据训练,就像在雷区走路。我们试过买正版电子书授权,但出版商开价高得离谱——一本新书授权费高达50美元,而我们需要的是几百万本。”

于是,他们找到了一条“灰色地带”:美国版权法中的“首次销售原则”(First Sale Doctrine)。简单说,你买了一本书,就有权转卖、借出、甚至撕掉它。Anthropic的律师团队据此主张:我们花钱买了书,扫描后不传播、不出售,只是内部训练,销毁原件是为了防止二次流通——这不违法。

2025年底,美国版权局在一份非正式意见中暗示,这种“购买+扫描+销毁”模式“在现有法律框架下,具有合理辩护空间”。法官们虽未最终裁定,但已有多起类似案件因证据不足被驳回。

被销毁的,真的是珍本古籍吗?

网上流传着一张照片:一堆泛黄的19世纪小说被堆在传送带上,旁边是切割机和扫描仪。配文写着:“人类文明的灰烬。”

但事实没那么戏剧化。

根据《纽约时报》记者实地走访纽约、芝加哥、费城等地的仓库发现,被销毁的95%以上是2000年以后出版的平装本小说、自助书籍、过期教材和畅销书。没有一本是图书馆的特藏本,没有一本是1900年前的古籍,也没有任何手稿或孤本。

“我们只挑那些还在流通、没人要、一美元三本的书,”一位前项目协调员说,“没人会为一本《如何在三个月内减掉20磅》的旧书去告你。”

真正受伤的,是那些靠版税活着的作家。尤其是独立出版人和小众文学作者。他们的书可能只卖了两千本,但每一本被扫描、被AI“消化”后,都意味着潜在读者的流失。“AI读了我写的书,然后生成了更‘完美’的版本——可我连一分钱都没拿到,”作家玛雅·科尔在推特上写道,“这不是创新,是掠夺。”

其他AI公司也在悄悄这么做?

Anthropic不是孤例。

据《华尔街日报》2026年3月的调查,Meta和Google DeepMind也已启动类似计划,只是更隐蔽。Meta通过收购一家二手书电商平台“BookBub Pro”,以“清理库存”名义批量采购;Google则与美国多家公立图书馆合作,以“数字化保存”为名,扫描大量已绝版但仍在版权期内的图书——这些书,未来可能被纳入训练集。

OpenAI至今未公开承认任何实体书采购,但其2025年财报中,“数据采集与合规成本”一项暴涨470%,远超服务器和算力支出。业内普遍猜测,他们也在“走这条路”。

问题来了:如果所有大公司都用同样的方式获取数据,那“版权”还意味着什么?

法律没定罪,但人心已经裂了

目前,美国国会正在审议《AI训练数据透明法案》,要求所有AI公司公开训练数据来源。但法案尚未通过,而Anthropic已经完成了它的“数据清洗”。

有人为他们辩护:“没有这些书,AI怎么理解人类的语言?怎么学会写诗、讲笑话、表达悲伤?”

也有人反问:“那如果我把你写的小说抄一遍,撕掉原稿,说‘我只是为了学习’,你同意吗?”

这不是技术问题,是信任问题。

我们曾以为,图书馆是知识的圣殿,书店是思想的集市。现在,它们成了AI的“原材料供应商”。书被买走,不是为了阅读,而是为了被拆解、被吞咽、被重写。

Anthropic的CEO在内部会议中曾说:“我们要的不是复制人类,是理解人类。”

可当人类的创作被当成可消耗的原料,谁来定义“理解”的边界?

图片里那些被切开的书脊,不是废纸,是无声的控诉。

image.png