最新消息:关注人工智能 AI赋能新媒体运营

尼尔森旗下Gracenote起诉OpenAI非法抓取媒体元数据训练AI模型

科技资讯 admin 浏览

Gracenote 正式起诉 OpenAI:AI 训练数据涉嫌“偷走”数十年媒体元数据库

尼尔森旗下深耕媒体元数据领域近三十年的巨头 Gracenote,已于近日向美国纽约南区联邦法院正式提起诉讼,指控 OpenAI 在未获授权、未支付任何费用的前提下,大规模抓取其核心数据库,用于训练 ChatGPT 等商业AI产品。这场诉讼不只是技术争议,更是一场关乎内容产业生存权的较量。

Gracenote 的数据库不是简单的“节目列表”。它由数百名专业编辑团队历时数十年手工标注,覆盖全球超过1.5亿部影视、音乐和体育内容,包含每一集的剧情摘要、演员关系图谱、画面特征标签、唯一ID编码,甚至包括“某场景中主角穿的衬衫颜色”这类细节。这些数据被全球超过70家智能电视品牌、流媒体平台和机顶盒厂商依赖,作为节目推荐、搜索和分类的基础。简单说,你电视上看到的“猜你喜欢”,背后八成是 Gracenote 在撑着。

诉状中列出的证据令人震惊:当用户向 ChatGPT 询问《权力的游戏》第七季第3集的剧情时,AI 输出的描述几乎一字不差地复刻了 Gracenote 编辑撰写的官方简介;当被问及《绝命毒师》中沃尔特·怀特的首次制毒场景细节,AI 的回答与 Gracenote 数据库中的专业注释高度重合。这不是“相似”,而是“复制”。更关键的是,Gracenote 指出,OpenAI 不仅复制了文字,还模仿了其独有的“数据关联框架”——一种能自动识别“演员A曾在剧B中饰演角色C,并与导演D合作过”的复杂逻辑网络,这是其专利技术的核心。

“AI 说得出,我们就卖不动了”:元数据市场面临崩塌

Gracenote 的担忧远不止于版权损失。他们警告:如果 AI 能免费“吐出”比他们更精准、更即时的剧集信息,那么智能电视厂商、流媒体平台、甚至苹果和三星的电视系统,都将不再支付每年数千万美元的授权费,转而直接调用 AI 模型获取内容描述。

“我们不是在和另一个数据库竞争,”一位不愿具名的 Gracenote 高管说,“我们是在和一个能凭空‘造’出我们三十年心血的机器竞争。”

据行业分析机构 Statista 数据,2023 年全球媒体元数据市场规模已超 18 亿美元,其中 Gracenote 占据近 60% 的份额。一旦大客户集体转向 AI 生成内容,这个市场可能在两年内萎缩过半。更可怕的是,AI 输出的内容没有责任主体——如果它说错了《黑镜》的播出年份,谁来负责?用户不会去找 OpenAI,只会怪电视“太傻”。

OpenAI 回应:“我们用的是公开数据”

面对指控,OpenAI 发言人仅以一句“训练数据来自公开可获取的互联网内容,符合合理使用原则”轻描淡写回应。但问题在于:Gracenote 的数据虽存在于网络,但并非“公开可自由抓取”。其数据库受严格访问控制,需付费订阅、签署协议,且明确禁止自动化爬取。许多被复制的内容,甚至从未在公开网页上完整发布过——它们只存在于 Gracenote 为付费客户提供的 API 和后台系统中。

更耐人寻味的是,Gracenote 表示,早在 2022 年初,他们就曾主动联系 OpenAI,提出以合理价格授权数据用于研究,甚至愿意提供定制接口。但对方从未正式回应,也未签署任何协议。直到 2023 年中,他们发现 ChatGPT 已能精准复述其独家内容,才决定起诉。

这场官司,可能决定 AI 时代的“内容规则”

这不是第一起 AI 与内容提供商的诉讼,但可能是最具代表性的一场。如果法院认定 OpenAI 的行为构成侵权,那将为整个 AI 行业敲响警钟:你不能靠“偷”别人几十年积累的劳动成果来训练模型。反之,若法院支持“合理使用”,则意味着任何企业都可以合法爬取付费数据库,只要它“训练”了AI。

目前,已有包括迪士尼、环球音乐、新闻集团在内的多家内容巨头密切关注此案。有业内人士直言:“如果 Gracenote 输了,明天早上,Netflix 就会宣布‘停用 Gracenote,改用 AI 自动生成节目描述’。”

对普通用户来说,这场官司的结局,将决定你未来看到的“智能推荐”是来自专业编辑的精心打磨,还是来自一个不知出处、无法追责的AI黑箱。而对创作者、编辑、数据标注员而言——他们可能正站在自己劳动成果被AI“吃掉”的悬崖边上。