火山引擎发布豆包音频生成模型1.0,单条指令生成完整音频
火山引擎正式发布豆包音频生成模型1.0(Doubao-Seed-Audio 1.0)。该模型支持文本或音频输入,能够端到端生成完整的音频作品。过去制作一段成片级音频,需要逐条生成对白、音效和配乐,再手动对齐与多轨混音。现在用户只需输入一条指令,就能同时定义多个角色的台词、语气和情绪节奏。指令中可以直接加入笑声、叹息、停顿或方言口音。模型会同步生成背景音乐与环境音效,直接输出可上线的有声剧、播客或品牌音频。
长音频创作常面临角色声音前后不一致的问题。该模型通过文生音频与参考音频的深度联动,在长段落中保持音色高度统一。单次生成支持2分钟音频,配合多次延长功能可满足有声书、播客和长剧集的需求。模型同时支持音色与风格解耦,同一个音色能适配不同情绪,甚至实现“一声多角”的差异化表达。
火山方舟已开启API邀测。个人用户可在体验中心享有30分钟创作额度。该模型即将上线剪映、即梦、番茄等产品。