一句话生成语音,通义实验室发布全新语音大模型
今天,通义实验室正式推出两款全新的语音生成模型:Fun-CosyVoice3.5 和 Fun-AudioGen-VD。它们不再需要你选预设音色、调参数、填标签,你只需要用一句话描述——比如“用低沉沙哑的声音,带着点疲惫感,念出这段话”,或者“模拟一个雨天咖啡馆里,有人轻声讲着鬼故事的氛围”——模型就能直接生成你想要的语音。


谁在用?创作者、开发者、独立游戏团队
Fun-CosyVoice3.5 的重点,是“像人一样说话”。它现在支持泰语、印尼语、越南语和阿拉伯语,对非英语母语者特别友好。以前AI念“饕餮”“龃龉”这种生僻字,十次能错六次,现在错误率从15.2%降到5.3%,几乎听不出破绽。延迟也砍了35%,你刚打完字,声音几乎立刻出来,不用等。特别适合做有声书、短视频配音、客服语音——哪怕你不会录音,也能用文字“说”出专业级的声音。
Fun-AudioGen-VD 则更像一个“声音导演”。你可以让它生成一个“深夜便利店的收银员,边打哈欠边说‘欢迎光临’”,背景是空调嗡嗡响、冰柜门开关的咔哒声;或者“一个疯狂科学家在实验室里狂笑,回声从金属墙壁反弹”。它能控制声音的性别、情绪、空间感,甚至环境混响——不需要一堆音效素材,一句话搞定整个场景。
不少独立游戏开发者已经在内测中用它做角色对话。有团队反馈,过去一个NPC的语音要找配音演员、录三遍、剪辑、加环境音,耗时两天;现在写一句指令,5分钟出成品,还能随时改语气、换语调。
不只是工具,是创作方式的改变
过去,语音生成是“选模板”;现在,是“写剧本”。你不再需要懂音频软件,也不用雇配音演员。一个编剧,一句话就能让角色开口;一个主播,能一键生成不同情绪的开场白;一个产品经理,能快速测试不同语气的语音提示哪个更让人安心。
这不是噱头。我们测试了多个真实场景:有家长用它给自闭症孩子生成温柔的睡前故事;有播客主用它批量生成不同语速版本,测试听众留存率;还有海外短视频创作者,用它把中文脚本直接转成地道泰语配音,不靠翻译软件,不靠人工。
现在就能用,免费额度开放中
这两款模型已接入阿里云模型服务平台,开发者和创作者可以直接调用:
目前对个人开发者和中小团队开放免费额度,每天可生成10分钟语音,够你试个够。如果你正在做视频、游戏、AI助手,或者只是想试试“用文字创造声音”的感觉——现在就是最好的开始时机。