火山引擎发布豆包音频生成模型1.0:一条指令直接生成完整音频成片
6月23日,火山引擎正式推出豆包音频生成模型1.0。该模型主打多模态参考生成与长时音色一致性两项技术,改变了过去音频制作的流程。以前创作者需要分别生成对白、音效和配乐,再手动对齐混音。现在只需输入一段包含台词、情绪、背景音乐和环境氛围的提示词,模型就能直接输出完整的音频成片。
长音频创作常遇到角色声音串戏的问题。新模型把文本生成音频和参考音频结合起来。做长篇有声书或复杂播客时,多次延长生成也能稳住角色的声音特征。前后音色保持一致,满足专业场景对长程生成的要求。
模型同时支持零样本多模态音频创造。输入文字描述或提供参考音频,不需要额外训练就能得到高质量结果。音色和风格控制实现了深度解耦,同一个声音能演绎不同情绪和场景。这降低了专业音频制作的门槛。
火山方舟目前已开放该模型的API邀测,个人用户可以直接领取30分钟创作额度。该技术接下来会上线剪映、即梦和番茄等平台。音频制作正从手动剪辑拼接转向提示词导演。AI工具在内容创作中的角色变得更具体。