尼尔森旗下Gracenote起诉OpenAI非法抓取媒体元数据训练AI模型

Gracenote 正式起诉 OpenAI：AI 训练数据涉嫌“偷走”数十年媒体元数据库

尼尔森旗下深耕媒体元数据领域近三十年的巨头 Gracenote，已于近日向美国纽约南区联邦法院正式提起诉讼，指控 OpenAI 在未获授权、未支付任何费用的前提下，大规模抓取其核心数据库，用于训练 ChatGPT 等商业AI产品。这场诉讼不只是技术争议，更是一场关乎内容产业生存权的较量。

Gracenote 的数据库不是简单的“节目列表”。它由数百名专业编辑团队历时数十年手工标注，覆盖全球超过1.5亿部影视、音乐和体育内容，包含每一集的剧情摘要、演员关系图谱、画面特征标签、唯一ID编码，甚至包括“某场景中主角穿的衬衫颜色”这类细节。这些数据被全球超过70家智能电视品牌、流媒体平台和机顶盒厂商依赖，作为节目推荐、搜索和分类的基础。简单说，你电视上看到的“猜你喜欢”，背后八成是 Gracenote 在撑着。

诉状中列出的证据令人震惊：当用户向 ChatGPT 询问《权力的游戏》第七季第3集的剧情时，AI 输出的描述几乎一字不差地复刻了 Gracenote 编辑撰写的官方简介；当被问及《绝命毒师》中沃尔特·怀特的首次制毒场景细节，AI 的回答与 Gracenote 数据库中的专业注释高度重合。这不是“相似”，而是“复制”。更关键的是，Gracenote 指出，OpenAI 不仅复制了文字，还模仿了其独有的“数据关联框架”——一种能自动识别“演员A曾在剧B中饰演角色C，并与导演D合作过”的复杂逻辑网络，这是其专利技术的核心。

“AI 说得出，我们就卖不动了”：元数据市场面临崩塌

Gracenote 的担忧远不止于版权损失。他们警告：如果 AI 能免费“吐出”比他们更精准、更即时的剧集信息，那么智能电视厂商、流媒体平台、甚至苹果和三星的电视系统，都将不再支付每年数千万美元的授权费，转而直接调用 AI 模型获取内容描述。

“我们不是在和另一个数据库竞争，”一位不愿具名的 Gracenote 高管说，“我们是在和一个能凭空‘造’出我们三十年心血的机器竞争。”

据行业分析机构 Statista 数据，2023 年全球媒体元数据市场规模已超 18 亿美元，其中 Gracenote 占据近 60% 的份额。一旦大客户集体转向 AI 生成内容，这个市场可能在两年内萎缩过半。更可怕的是，AI 输出的内容没有责任主体——如果它说错了《黑镜》的播出年份，谁来负责？用户不会去找 OpenAI，只会怪电视“太傻”。

OpenAI 回应：“我们用的是公开数据”

面对指控，OpenAI 发言人仅以一句“训练数据来自公开可获取的互联网内容，符合合理使用原则”轻描淡写回应。但问题在于：Gracenote 的数据虽存在于网络，但并非“公开可自由抓取”。其数据库受严格访问控制，需付费订阅、签署协议，且明确禁止自动化爬取。许多被复制的内容，甚至从未在公开网页上完整发布过——它们只存在于 Gracenote 为付费客户提供的 API 和后台系统中。

更耐人寻味的是，Gracenote 表示，早在 2022 年初，他们就曾主动联系 OpenAI，提出以合理价格授权数据用于研究，甚至愿意提供定制接口。但对方从未正式回应，也未签署任何协议。直到 2023 年中，他们发现 ChatGPT 已能精准复述其独家内容，才决定起诉。

这场官司，可能决定 AI 时代的“内容规则”

这不是第一起 AI 与内容提供商的诉讼，但可能是最具代表性的一场。如果法院认定 OpenAI 的行为构成侵权，那将为整个 AI 行业敲响警钟：你不能靠“偷”别人几十年积累的劳动成果来训练模型。反之，若法院支持“合理使用”，则意味着任何企业都可以合法爬取付费数据库，只要它“训练”了AI。

目前，已有包括迪士尼、环球音乐、新闻集团在内的多家内容巨头密切关注此案。有业内人士直言：“如果 Gracenote 输了，明天早上，Netflix 就会宣布‘停用 Gracenote，改用 AI 自动生成节目描述’。”

对普通用户来说，这场官司的结局，将决定你未来看到的“智能推荐”是来自专业编辑的精心打磨，还是来自一个不知出处、无法追责的AI黑箱。而对创作者、编辑、数据标注员而言——他们可能正站在自己劳动成果被AI“吃掉”的悬崖边上。

CB科技站

尼尔森旗下Gracenote起诉OpenAI非法抓取媒体元数据训练AI模型

Gracenote 正式起诉 OpenAI：AI 训练数据涉嫌“偷走”数十年媒体元数据库

“AI 说得出，我们就卖不动了”：元数据市场面临崩塌

OpenAI 回应：“我们用的是公开数据”

这场官司，可能决定 AI 时代的“内容规则”

与本文相关的文章