苹果、亚马逊、OpenAI被诉非法爬取YouTube数据

苹果、亚马逊、OpenAI被告上法庭：数百万YouTube视频被“偷”来训练AI

一场关乎创作者生存权的诉讼，正在改变AI行业的游戏规则。近日，三个独立的YouTube内容创作者——Ted Entertainment、Matt Fisher 和 Golfholics——联合发起集体诉讼，指控苹果、亚马逊和OpenAI系统性地绕过YouTube的反爬虫机制，非法抓取数百万条视频，用作训练自家AI模型的“饲料”。这不是一次偶然的侵权，而是一场有组织、有技术、有论文佐证的数据掠夺。

焦点集中在名为“Panda-70M”的数据集上。这个由第三方研究团队构建的数据库，包含超过7000万个视频片段，每个片段都精确标注了视频ID、时间戳和URL——这意味着，这些数据不是从公开摘要里“摘”的，而是从原始视频里一刀刀切下来的。原告指出，要获取这些片段，必须反复访问YouTube服务器，绕过其反爬虫限制，甚至可能使用了代理IP、模拟浏览器行为等技术手段。而这一切，苹果团队在2023年发表的STIV视频生成模型论文中，曾明确承认使用了该数据集进行训练。

“我们每天花几个小时拍视频，剪辑、配乐、写脚本，结果AI一夜之间学会了我们的风格，还拿去赚钱。”Matt Fisher在诉讼文件中写道，“他们没问过我们，也没付过一分钱。”

他们要的不是道歉，是赔偿和停手

这场诉讼不是“喊口号”，而是有明确法律武器的反击。原告依据美国《版权法》第504条，要求法院按最高法定赔偿标准——每部被侵权视频最高15万美元——进行赔付。仅Panda-70M中涉及的原告频道内容，就可能触发数千万美元的赔偿额。

更重要的是，他们要求法院下达禁令，禁止三大科技公司继续使用任何通过非法手段获取的YouTube视频训练AI模型。这不只是“赔钱了事”，而是要斩断AI训练的“黑料供应链”。

此外，原告还申请判令被告承担全部诉讼费用、律师费，以及判决前后的利息。这意味着，如果败诉，苹果、亚马逊和OpenAI不仅要赔钱，还要为这场“数据盗窃案”支付高昂的法律代价。

AI训练的“黑箱”里，藏着多少原创者的血汗？

这不是第一起AI训练数据侵权案，但却是最直接、最具体的一起。过去几年，OpenAI、Stability AI、Meta等公司都曾被指控使用Reddit、Twitter、Flickr甚至Netflix的素材训练模型。但这一次，原告是真实存在的创作者，数据来源清晰，技术路径可追溯，证据链完整。

更讽刺的是，苹果一向标榜“隐私优先”“尊重创作者”，其CEO库克也曾公开表示“AI必须建立在道德基础上”。可如今，苹果的研究团队却被指用技术手段绕过平台保护机制，专门抓取创作者的视频——这无异于在自家花园里偷摘邻居的果子，还宣称“这是为了科学进步”。

OpenAI的情况更复杂。继埃隆·马斯克以“反垄断”为由起诉OpenAI后，这次又陷入“数据来源不合法”的泥潭。外界开始质疑：OpenAI的“Sora”视频模型，到底有多少内容是“偷”来的？它的“原创”视频，是否只是对YouTube爆款的复刻？

巨头暗战：挖人、抢技术、打官司，一个都不能少

法律战之外，一场更隐蔽的人才战争正在上演。据知情人士透露，苹果近期向其AI视频团队的核心工程师开出“百万美元奖金+股权锁定”方案，只为留住他们不跳槽到OpenAI。而OpenAI则反向出击，从苹果的硬件部门挖走多名芯片设计专家，目标直指未来AI终端设备的底层架构。

这不是简单的“跳槽”，而是AI时代权力版图的重新划分。谁掌握了高质量视频训练数据，谁就能训练出更逼真的AI视频；谁掌握了顶尖工程师，谁就能把AI嵌入到iPhone、Vision Pro这样的硬件中，形成闭环生态。

这场官司，决定AI的未来是“偷来的”，还是“买来的”

当AI能生成以假乱真的短视频，当你的口吻、你的镜头语言、你的爆款结构被AI模仿得一模一样——你还能靠内容吃饭吗？

这场诉讼的意义，远不止于三个YouTube频道的赔偿。它是一次原创者对技术霸权的集体反击。如果法院支持原告，未来所有AI公司都必须为训练数据付费、获得授权、透明标注来源。如果法院驳回，那意味着：只要技术能绕过防护，数据就可以免费拿。

目前，案件已提交至美国加州北区联邦法院，预计将在未来几个月内进入证据开示阶段。YouTube尚未正式表态，但业内已有人猜测：如果法院认定“绕过反爬虫=侵权”，YouTube可能被迫开放官方API供AI公司合法获取数据——这或将催生一个全新的“AI内容授权市场”。

创作者不是反对AI，他们反对的是不打招呼、不付钱、不尊重的掠夺。

这场官司的结局，将决定AI的未来，是建立在尊重之上，还是建立在偷窃之上。

CB科技站