最新消息:关注人工智能 AI赋能新媒体运营

苹果、Nvidia等公司被控未经同意使用YouTube文字内容训练AI

科技智能 admin 浏览 评论

Photo by Alexander Shatov on Unsplash

媒体报导,苹果、Nvidia、Salesforce在未经同意情况下,使用众多新闻、教育节目及知名网红的YouTube频道字幕内容来训练其AI模型。

虽然YouTube明文禁止任何人未经同意使用平台上内容,但调查报导媒体Proofnews分析发现,YouTube平台上4.8万个频道的173,536则影片的字幕遭到软件公司未经同意用以训练AI模型。被点名的业者包括苹果、Nvidia、Anthropic及Salesforce等。

报导是研究一个名为YouTube字幕(YouTube Subtitles)的资料集的使用单位。这个资料集蒐集了YouTube影片的字幕,来源涵括教育、新闻、谈话节目、以及知名YouTuber频道。教育内容来自可汗学院(Khan Academy)、麻省理工学院(MIT)及哈佛大学等,新闻频道像是华尔街日报、美国公共广播电台(NPR)、英国广播公司(BBC)及谈话性节目如《The Late Show with Stephen Colbert》、《Jimmy Kimmel Live》等。其他影片来源包括知名网红MrBeast、PewDiePie、电玩评论员Jacksepticeye及科技评论YouTuber Marques Brownlee频道、地平理论派的YouTube频道,以及一些知名政治人物的个人频道。

事实上,「YouTube字幕」是由一个推动AI的自愿非营利组织EleutherAI所编辑,名为《The Piles》的资料集的一部分。Pile旨在蒐集公开来源的文字,供AI学术研究使用,如英文版Wikipedia、欧洲议会法律资料、GitHub、PubMed Abstracts、OpenWebText2等资料库。而「YouTube字幕」单纯蒐集了教育类、流行文化和自然对话的YouTube字幕,不包含影片和图片,也提供多语言文字,如日文、德文和阿拉伯文。

报导指出,苹果训练OpenELM、Nvidia训练Nemo Megatron、Anthropic的Claude都有用到YouTube字幕,而彭博及Databricks训练的Dolly则使用了《The Piles》资料集。

不过Anthropic指称,这些资料是公开可用的,使用来训练AI并无争议。其他业者则拒绝或没有评论。

大厂使用网路上公开资料不再被视为毫无问题。GitHub和Reddit对其内容被用来训练AI已经表达不满,后者已和OpenAI签下付费授权合约。微软刚上任的AI主管Mustafa Suleyman上个月也因为在访谈时提及複製、重製网路上文字是合理使用,没有版权问题而遭到抨击。

发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论