苹果、亚马逊、OpenAI被告上法庭:数百万YouTube视频被“偷”来训练AI
一场关乎创作者生存权的诉讼,正在改变AI行业的游戏规则。近日,三个独立的YouTube内容创作者——Ted Entertainment、Matt Fisher 和 Golfholics——联合发起集体诉讼,指控苹果、亚马逊和OpenAI系统性地绕过YouTube的反爬虫机制,非法抓取数百万条视频,用作训练自家AI模型的“饲料”。这不是一次偶然的侵权,而是一场有组织、有技术、有论文佐证的数据掠夺。
焦点集中在名为“Panda-70M”的数据集上。这个由第三方研究团队构建的数据库,包含超过7000万个视频片段,每个片段都精确标注了视频ID、时间戳和URL——这意味着,这些数据不是从公开摘要里“摘”的,而是从原始视频里一刀刀切下来的。原告指出,要获取这些片段,必须反复访问YouTube服务器,绕过其反爬虫限制,甚至可能使用了代理IP、模拟浏览器行为等技术手段。而这一切,苹果团队在2023年发表的STIV视频生成模型论文中,曾明确承认使用了该数据集进行训练。
“我们每天花几个小时拍视频,剪辑、配乐、写脚本,结果AI一夜之间学会了我们的风格,还拿去赚钱。”Matt Fisher在诉讼文件中写道,“他们没问过我们,也没付过一分钱。”
他们要的不是道歉,是赔偿和停手
这场诉讼不是“喊口号”,而是有明确法律武器的反击。原告依据美国《版权法》第504条,要求法院按最高法定赔偿标准——每部被侵权视频最高15万美元——进行赔付。仅Panda-70M中涉及的原告频道内容,就可能触发数千万美元的赔偿额。
更重要的是,他们要求法院下达禁令,禁止三大科技公司继续使用任何通过非法手段获取的YouTube视频训练AI模型。这不只是“赔钱了事”,而是要斩断AI训练的“黑料供应链”。
此外,原告还申请判令被告承担全部诉讼费用、律师费,以及判决前后的利息。这意味着,如果败诉,苹果、亚马逊和OpenAI不仅要赔钱,还要为这场“数据盗窃案”支付高昂的法律代价。
AI训练的“黑箱”里,藏着多少原创者的血汗?
这不是第一起AI训练数据侵权案,但却是最直接、最具体的一起。过去几年,OpenAI、Stability AI、Meta等公司都曾被指控使用Reddit、Twitter、Flickr甚至Netflix的素材训练模型。但这一次,原告是真实存在的创作者,数据来源清晰,技术路径可追溯,证据链完整。
更讽刺的是,苹果一向标榜“隐私优先”“尊重创作者”,其CEO库克也曾公开表示“AI必须建立在道德基础上”。可如今,苹果的研究团队却被指用技术手段绕过平台保护机制,专门抓取创作者的视频——这无异于在自家花园里偷摘邻居的果子,还宣称“这是为了科学进步”。
OpenAI的情况更复杂。继埃隆·马斯克以“反垄断”为由起诉OpenAI后,这次又陷入“数据来源不合法”的泥潭。外界开始质疑:OpenAI的“Sora”视频模型,到底有多少内容是“偷”来的?它的“原创”视频,是否只是对YouTube爆款的复刻?
巨头暗战:挖人、抢技术、打官司,一个都不能少
法律战之外,一场更隐蔽的人才战争正在上演。据知情人士透露,苹果近期向其AI视频团队的核心工程师开出“百万美元奖金+股权锁定”方案,只为留住他们不跳槽到OpenAI。而OpenAI则反向出击,从苹果的硬件部门挖走多名芯片设计专家,目标直指未来AI终端设备的底层架构。
这不是简单的“跳槽”,而是AI时代权力版图的重新划分。谁掌握了高质量视频训练数据,谁就能训练出更逼真的AI视频;谁掌握了顶尖工程师,谁就能把AI嵌入到iPhone、Vision Pro这样的硬件中,形成闭环生态。
这场官司,决定AI的未来是“偷来的”,还是“买来的”
当AI能生成以假乱真的短视频,当你的口吻、你的镜头语言、你的爆款结构被AI模仿得一模一样——你还能靠内容吃饭吗?
这场诉讼的意义,远不止于三个YouTube频道的赔偿。它是一次原创者对技术霸权的集体反击。如果法院支持原告,未来所有AI公司都必须为训练数据付费、获得授权、透明标注来源。如果法院驳回,那意味着:只要技术能绕过防护,数据就可以免费拿。
目前,案件已提交至美国加州北区联邦法院,预计将在未来几个月内进入证据开示阶段。YouTube尚未正式表态,但业内已有人猜测:如果法院认定“绕过反爬虫=侵权”,YouTube可能被迫开放官方API供AI公司合法获取数据——这或将催生一个全新的“AI内容授权市场”。
创作者不是反对AI,他们反对的是不打招呼、不付钱、不尊重的掠夺。
这场官司的结局,将决定AI的未来,是建立在尊重之上,还是建立在偷窃之上。