豆包发布音频生成模型1.0，开启“音频导演”时代

火山引擎发布豆包音频生成模型1.0：一条指令直接生成完整音频成片

6月23日，火山引擎正式推出豆包音频生成模型1.0。该模型主打多模态参考生成与长时音色一致性两项技术，改变了过去音频制作的流程。以前创作者需要分别生成对白、音效和配乐，再手动对齐混音。现在只需输入一段包含台词、情绪、背景音乐和环境氛围的提示词，模型就能直接输出完整的音频成片。

长音频创作常遇到角色声音串戏的问题。新模型把文本生成音频和参考音频结合起来。做长篇有声书或复杂播客时，多次延长生成也能稳住角色的声音特征。前后音色保持一致，满足专业场景对长程生成的要求。

模型同时支持零样本多模态音频创造。输入文字描述或提供参考音频，不需要额外训练就能得到高质量结果。音色和风格控制实现了深度解耦，同一个声音能演绎不同情绪和场景。这降低了专业音频制作的门槛。

火山方舟目前已开放该模型的API邀测，个人用户可以直接领取30分钟创作额度。该技术接下来会上线剪映、即梦和番茄等平台。音频制作正从手动剪辑拼接转向提示词导演。AI工具在内容创作中的角色变得更具体。