OpenAI扩大测试语音合成AI模型，用15秒样本即可模拟真人声音

图片来源:

OpenAI

OpenAI上周公布语音生成AI模型Voice Engine初步成果，号称只要上传15秒的人声样本，及输入文字稿，就能产生极似原说话者声音的自然语音。

OpenAI于2022年开始开发Voice Engine模型。这个模型已用于其OpenAI的语音合成（TTS）API及ChatGPT去年秋天上线的Voice及Read Aloud功能。但OpenAI并未大加宣传，仅低调表示Spotify使用该模型支援语音翻译功能。

OpenAI强调，Voice Engine模型为一个小模型，但只要提供它15秒的声音範例，它就能生成和说话者极相似的流畅话语。

去年OpenAI也让一些非营利组织、医疗、教学单位使用Voice Engine试用并建立使用场景。上周OpenAI也公布部分应用场景。包括一家教学软体公司以AI语音生成技术製成学童的有声教材，另一家说故事平台用它将一段文本翻译成多国语言，且保留道地腔调。一个非洲非营利组织以Voice Engine製作AI互动工具教授当地妇女哺乳知识，一家语音通讯App开发商开发出可协助语言障碍人士沟通的说话App。此外，这个AI模型还能为因病说话不清的使用者重建其声音。

为了防止这类功能被滥用，测试单位必须遵循OpenAI的使用政策，不得未经同意或违法模仿个人或组织的声音，也要求原说话者需被告知且提供明显同意。他们也不允许开发人员让个人用户建立模仿自己的AI人声。合作伙伴也须清楚告知受众，这些声音是AI生成的。最后，OpenAI也会实作安全措施，包括为这些声音加入浮水印以便能判别并追蹤Voice Engine生成的声音、或监控其使用。

藉由扩大测试Voice Engine，OpenAI除了希望带动AI语音应用开发，提升大众对AI语音诈骗的警觉心、推进安全政策外，也鼓励银行等组织淘汰以语音为基础的身分验证方式。

OpenAI这项新技术可能会让另一些工作者，如配音员担心失业。今年2月OpenAI公开的影片生成AI模型Sora生成极高品质、具有多个角色、特定动作及具备精準主题细节及背景的複杂场景影片，已震撼影像工作者。

在OpenAI之前，其他大厂也公布了类似的AI研发成果。微软去年9月开源超强语音合成模型VALL-E X，只要输入3到10秒个人讲话的录音，模型就能逼真合成该声音，用另一个语言说话。

Amazon 2月宣布该公司历来最大、高达10亿参数的语音合成（text-to-speech，TTS）模型BASE TTS，号称生成的语音自然度超过现有语音合成系统。

大V推广

OpenAI扩大测试语音合成AI模型，用15秒样本即可模拟真人声音

与本文相关的文章

您的回复是我们的动力！

网友最新评论