ElevenLabs公布AI音效、人声生成模型

AI新创公司ElevenLabs在预告二个月后，上周终于公布音效或人声生成的AI工具。

ElevenLabs专门从事语音和声音应用研究，去年公布AI声音生成的AI平台Text to Speech，可让用户在文字对话中设定性别、年龄、口音和说话风格合成逼真人声，并于同年募得近2,000万美元的A轮资金。ElevenLabs今年2月搭上OpenAI影片AI生成模型Sora列车，预告可为影片配音的AI声音模型，并在上周正式向大众公开Text to Sound Effects，包括免费版及付费版。

Text to Sound Effects目的在为电影或电视节目、电玩开发商，甚至社群内容创作者、个人提供工具，使其得以快速且大规模生成丰富、沈浸式声音场景，而且不需大成本。只要在提示视窗输入文字，就可以生成音效、22秒的乐器演奏音讯、声音场景或各种角色声音。该公司网页并提供多种範例说明输入的文字提示和生成音效，包括动物叫声、打雷、爆炸声、恐怖电影音效，或是吉他等乐器演奏。

为训练这新工具，ElevenLabs和知名图库和音讯平台Shutterstock合作，以其多样化及高品质的合法声音档微调其AI模型。

Text to Sound Effects并提供用户微调工具，让用户能针对一种物件再细分出不同类别，例如「脚步声」可以文字再微调成是高跟鞋、靴子或球鞋，或是走在沙地、雪地或叶子上的声音。完成后，用户可选择下载声音或储存在ElevenLabs平台上。

Text to Sound Effects提供免费及付费版。付费版是透过在付费帐号供用户使用。免费版用户需要在生成的音乐加上elevenlabs.io，以说明来自ElevenLabs。付费帐号用户则不需注明。不过不论是哪个版本，版权责任都由使用者自付。

收费标準是根据生成音讯的长度控制参数计算。若用户设定为最适长度，会被收取200字元的费用，如果用户想自行控制长度，则会被设定该长度每秒40字元的费用。收费是每执行4次生成计算一次。收费是每次呼叫（而非下载），即每按一次「Generate」就多一次费用。但若用户认为计算结果有误，需自行向业者（team@elevenlabls.io）反映。

根据ElevenLabs说明，付费帐号分成3类。Creator为0.30美元/1,000字元，Pro为 0.24美元/1,000字元，Scale则为 0.18美元/1,000字元。

CB科技站

ElevenLabs公布AI音效、人声生成模型

与本文相关的文章

您的回复是我们的动力！

网友最新评论