最新消息:关注人工智能 AI赋能新媒体运营

OpenAI扩大测试语音合成AI模型,用15秒样本即可模拟真人声音

科技智能 admin 浏览 评论
图片来源:

OpenAI

OpenAI上周公布语音生成AI模型Voice Engine初步成果,号称只要上传15秒的人声样本,及输入文字稿,就能产生极似原说话者声音的自然语音。

OpenAI于2022年开始开发Voice Engine模型。这个模型已用于其OpenAI的语音合成(TTS)API及ChatGPT去年秋天上线的Voice及Read Aloud功能。但OpenAI并未大加宣传,仅低调表示Spotify使用该模型支援语音翻译功能。

OpenAI强调,Voice Engine模型为一个小模型,但只要提供它15秒的声音範例,它就能生成和说话者极相似的流畅话语。

去年OpenAI也让一些非营利组织、医疗、教学单位使用Voice Engine试用并建立使用场景。上周OpenAI也公布部分应用场景。包括一家教学软体公司以AI语音生成技术製成学童的有声教材,另一家说故事平台用它将一段文本翻译成多国语言,且保留道地腔调。一个非洲非营利组织以Voice Engine製作AI互动工具教授当地妇女哺乳知识,一家语音通讯App开发商开发出可协助语言障碍人士沟通的说话App。此外,这个AI模型还能为因病说话不清的使用者重建其声音。

为了防止这类功能被滥用,测试单位必须遵循OpenAI的使用政策,不得未经同意或违法模仿个人或组织的声音,也要求原说话者需被告知且提供明显同意。他们也不允许开发人员让个人用户建立模仿自己的AI人声。合作伙伴也须清楚告知受众,这些声音是AI生成的。最后,OpenAI也会实作安全措施,包括为这些声音加入浮水印以便能判别并追蹤Voice Engine生成的声音、或监控其使用。

藉由扩大测试Voice Engine,OpenAI除了希望带动AI语音应用开发,提升大众对AI语音诈骗的警觉心、推进安全政策外,也鼓励银行等组织淘汰以语音为基础的身分验证方式。

OpenAI这项新技术可能会让另一些工作者,如配音员担心失业。今年2月OpenAI公开的影片生成AI模型Sora生成极高品质、具有多个角色、特定动作及具备精準主题细节及背景的複杂场景影片,已震撼影像工作者。

在OpenAI之前,其他大厂也公布了类似的AI研发成果。微软去年9月开源超强语音合成模型VALL-E X,只要输入3到10秒个人讲话的录音,模型就能逼真合成该声音,用另一个语言说话。

Amazon 2月宣布该公司历来最大、高达10亿参数的语音合成(text-to-speech,TTS)模型BASE TTS,号称生成的语音自然度超过现有语音合成系统。

发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论