火山引擎发布豆包音频模型1.0，10分钟不串戏

火山引擎发布豆包音频生成模型1.0，单条指令生成完整音频

火山引擎正式发布豆包音频生成模型1.0（Doubao-Seed-Audio 1.0）。该模型支持文本或音频输入，能够端到端生成完整的音频作品。过去制作一段成片级音频，需要逐条生成对白、音效和配乐，再手动对齐与多轨混音。现在用户只需输入一条指令，就能同时定义多个角色的台词、语气和情绪节奏。指令中可以直接加入笑声、叹息、停顿或方言口音。模型会同步生成背景音乐与环境音效，直接输出可上线的有声剧、播客或品牌音频。

长音频创作常面临角色声音前后不一致的问题。该模型通过文生音频与参考音频的深度联动，在长段落中保持音色高度统一。单次生成支持2分钟音频，配合多次延长功能可满足有声书、播客和长剧集的需求。模型同时支持音色与风格解耦，同一个音色能适配不同情绪，甚至实现“一声多角”的差异化表达。

火山方舟已开启API邀测。个人用户可在体验中心享有30分钟创作额度。该模型即将上线剪映、即梦、番茄等产品。

AIGC 智能剪辑火山引擎豆包音频模型音频生成

CB科技站

火山引擎发布豆包音频模型1.0，10分钟不串戏

火山引擎发布豆包音频生成模型1.0，单条指令生成完整音频

与本文相关的文章