阿里通义发布语音双模型：一句话自然语言控制音色

通义实验室发布两款全新语音模型：一句话生成专业级声音

今天，阿里通义实验室正式推出两款全新的语音生成工具：Fun-CosyVoice3.5 和 Fun-AudioGen-VD。它们不是又一个“AI语音合成器”，而是真正能听懂你意思的声音助手——你只要说清楚想要什么，它们就能给你做出你想要的声音。

Fun-CosyVoice3.5：说句话，声音就变

如果你做过配音、播客，或者用过语音合成工具，你一定知道有多烦人——调参数、试音色、改语速，来回折腾半小时，结果还是不像人说的。

Fun-CosyVoice3.5 改变了这一切。你不需要懂什么“音高”“基频”“包络”，你只要说：“这句话说得再坚定一点”“语速慢点，带点疲惫感”“像个刚睡醒的人一样说”，它立刻就能调整出来，而且听起来自然得不像AI。

这次升级，不只是“更好听了”。它现在能准确念出泰语、印尼语、葡萄牙语和越南语——这些语言之前很多系统连基本发音都磕磕巴巴，现在它的转写准确率和音色还原度，已经稳居行业前列。更别说那些老是念错的生僻字，比如“龘”“犇”“靐”，以前错得离谱，现在错误率直接从15%降到5%以下，连方言区的用户都说：“这次真能听懂。”

响应速度也快了不少。首包延迟降低35%，意味着你在直播、语音助手、客服系统里用它，几乎感觉不到卡顿。不是“还能用”，而是“真能当人用”。

Fun-AudioGen-VD：你描述的场景，它直接给你配出声音

想象一下：你写了个游戏剧情——主角在暴雨夜的废弃教堂里，一边颤抖着念日记，一边能听见远处狼嚎和滴水声。你不用找音效师，不用去素材库翻半天，你只要在输入框里打：

“一个30岁左右的男性，声音沙哑，带着哭腔，边念日记边喘气，背景是大雨拍打铁皮屋顶，偶尔有风声和远处狼叫，空间感像在空旷教堂里。”

——然后，它就给你生成了。

Fun-AudioGen-VD 不只是生成人声，它是“声音导演”。你可以指定性别、年龄、口音，甚至细到“像老烟枪那种低沉带气音”“像刚哭完的高中生”。它能模仿客服的礼貌腔调，也能模拟播音员的沉稳，甚至能做出“表面镇定，其实手在抖”的心理层次——这种细节，以前只有专业配音演员才能做到。

环境音也不再是贴上去的背景噪音。它能自动匹配空间感：在浴室里说话有回声，在地铁站里声音被淹没，在水下听人说话是闷闷的、模糊的。这些都不是靠叠加音效，而是模型自己“理解”了空间和声学原理。

已经有独立游戏团队在试用。有人用它为一款恐怖游戏生成了12个不同角色的内心独白，全程没请一个配音演员，成本降了90%。还有播客主用它批量制作不同语气的开场白，一周内更新了20期，观众根本没发现是AI做的。

谁在用？为什么重要

这不是实验室的炫技。这两款工具，正在悄悄改变内容创作的底层逻辑。

独立创作者、小团队、教育机构、有声书制作人——他们不再需要花几千块请配音员，也不用买几十个音效包。一个普通人，用一句话，就能做出过去需要整个团队才能完成的声音内容。

如果你是做短视频的，你可以让AI用“东北大妈唠嗑”的语气讲科技新闻；如果你是做儿童教育的，可以让声音变成“温柔但有点调皮的老师”；如果你是做影视后期的，现在连环境音都能一键生成，省下几周剪辑时间。

通义实验室没说“全球首个”，也没吹“颠覆行业”。他们只是把复杂的东西，做成了简单到你根本不需要学就会用的样子。

这，才是真正的进步。

CB科技站

阿里通义发布语音双模型：一句话自然语言控制音色

通义实验室发布两款全新语音模型：一句话生成专业级声音

Fun-CosyVoice3.5：说句话，声音就变

Fun-AudioGen-VD：你描述的场景，它直接给你配出声音

谁在用？为什么重要

与本文相关的文章