
AI新创公司ElevenLabs在预告二个月后,上周终于公布音效或人声生成的AI工具。
ElevenLabs专门从事语音和声音应用研究,去年公布AI声音生成的AI平台Text to Speech,可让用户在文字对话中设定性别、年龄、口音和说话风格合成逼真人声,并于同年募得近2,000万美元的A轮资金。ElevenLabs今年2月搭上OpenAI影片AI生成模型Sora列车,预告可为影片配音的AI声音模型,并在上周正式向大众公开Text to Sound Effects,包括免费版及付费版。
Text to Sound Effects目的在为电影或电视节目、电玩开发商,甚至社群内容创作者、个人提供工具,使其得以快速且大规模生成丰富、沈浸式声音场景,而且不需大成本。只要在提示视窗输入文字,就可以生成音效、22秒的乐器演奏音讯、声音场景或各种角色声音。该公司网页并提供多种範例说明输入的文字提示和生成音效,包括动物叫声、打雷、爆炸声、恐怖电影音效,或是吉他等乐器演奏。
为训练这新工具,ElevenLabs和知名图库和音讯平台Shutterstock合作,以其多样化及高品质的合法声音档微调其AI模型。
Text to Sound Effects并提供用户微调工具,让用户能针对一种物件再细分出不同类别,例如「脚步声」可以文字再微调成是高跟鞋、靴子或球鞋,或是走在沙地、雪地或叶子上的声音。完成后,用户可选择下载声音或储存在ElevenLabs平台上。
Text to Sound Effects提供免费及付费版。付费版是透过在付费帐号供用户使用。免费版用户需要在生成的音乐加上elevenlabs.io,以说明来自ElevenLabs。付费帐号用户则不需注明。不过不论是哪个版本,版权责任都由使用者自付。
收费标準是根据生成音讯的长度控制参数计算。若用户设定为最适长度,会被收取200字元的费用,如果用户想自行控制长度,则会被设定该长度每秒40字元的费用。收费是每执行4次生成计算一次。收费是每次呼叫(而非下载),即每按一次「Generate」就多一次费用。但若用户认为计算结果有误,需自行向业者(team@elevenlabls.io)反映。
根据ElevenLabs说明,付费帐号分成3类。Creator为0.30美元/1,000字元,Pro为 0.24美元/1,000字元,Scale则为 0.18美元/1,000字元。