最新消息:关注人工智能 AI赋能新媒体运营

通义实验室发布Fun-CosyVoice3.5与Fun-AudioGen-VD双语音模型

科技资讯 admin 浏览

一句话生成语音,通义实验室发布全新语音大模型

今天,通义实验室正式推出两款全新的语音生成模型:Fun-CosyVoice3.5 和 Fun-AudioGen-VD。它们不再需要你选预设音色、调参数、填标签,你只需要用一句话描述——比如“用低沉沙哑的声音,带着点疲惫感,念出这段话”,或者“模拟一个雨天咖啡馆里,有人轻声讲着鬼故事的氛围”——模型就能直接生成你想要的语音。

QQ20260302-113700.png

QQ20260302-113713.png

谁在用?创作者、开发者、独立游戏团队

Fun-CosyVoice3.5 的重点,是“像人一样说话”。它现在支持泰语、印尼语、越南语和阿拉伯语,对非英语母语者特别友好。以前AI念“饕餮”“龃龉”这种生僻字,十次能错六次,现在错误率从15.2%降到5.3%,几乎听不出破绽。延迟也砍了35%,你刚打完字,声音几乎立刻出来,不用等。特别适合做有声书、短视频配音、客服语音——哪怕你不会录音,也能用文字“说”出专业级的声音。

Fun-AudioGen-VD 则更像一个“声音导演”。你可以让它生成一个“深夜便利店的收银员,边打哈欠边说‘欢迎光临’”,背景是空调嗡嗡响、冰柜门开关的咔哒声;或者“一个疯狂科学家在实验室里狂笑,回声从金属墙壁反弹”。它能控制声音的性别、情绪、空间感,甚至环境混响——不需要一堆音效素材,一句话搞定整个场景。

不少独立游戏开发者已经在内测中用它做角色对话。有团队反馈,过去一个NPC的语音要找配音演员、录三遍、剪辑、加环境音,耗时两天;现在写一句指令,5分钟出成品,还能随时改语气、换语调。

不只是工具,是创作方式的改变

过去,语音生成是“选模板”;现在,是“写剧本”。你不再需要懂音频软件,也不用雇配音演员。一个编剧,一句话就能让角色开口;一个主播,能一键生成不同情绪的开场白;一个产品经理,能快速测试不同语气的语音提示哪个更让人安心。

这不是噱头。我们测试了多个真实场景:有家长用它给自闭症孩子生成温柔的睡前故事;有播客主用它批量生成不同语速版本,测试听众留存率;还有海外短视频创作者,用它把中文脚本直接转成地道泰语配音,不靠翻译软件,不靠人工。

现在就能用,免费额度开放中

这两款模型已接入阿里云模型服务平台,开发者和创作者可以直接调用:

API 文档与调用说明

Fun-CosyVoice 克隆语音详细指南

目前对个人开发者和中小团队开放免费额度,每天可生成10分钟语音,够你试个够。如果你正在做视频、游戏、AI助手,或者只是想试试“用文字创造声音”的感觉——现在就是最好的开始时机。