通义实验室发布Fun-CosyVoice3.5与Fun-AudioGen-VD双语音模型

一句话生成语音，通义实验室发布全新语音大模型

今天，通义实验室正式推出两款全新的语音生成模型：Fun-CosyVoice3.5 和 Fun-AudioGen-VD。它们不再需要你选预设音色、调参数、填标签，你只需要用一句话描述——比如“用低沉沙哑的声音，带着点疲惫感，念出这段话”，或者“模拟一个雨天咖啡馆里，有人轻声讲着鬼故事的氛围”——模型就能直接生成你想要的语音。

谁在用？创作者、开发者、独立游戏团队

Fun-CosyVoice3.5 的重点，是“像人一样说话”。它现在支持泰语、印尼语、越南语和阿拉伯语，对非英语母语者特别友好。以前AI念“饕餮”“龃龉”这种生僻字，十次能错六次，现在错误率从15.2%降到5.3%，几乎听不出破绽。延迟也砍了35%，你刚打完字，声音几乎立刻出来，不用等。特别适合做有声书、短视频配音、客服语音——哪怕你不会录音，也能用文字“说”出专业级的声音。

Fun-AudioGen-VD 则更像一个“声音导演”。你可以让它生成一个“深夜便利店的收银员，边打哈欠边说‘欢迎光临’”，背景是空调嗡嗡响、冰柜门开关的咔哒声；或者“一个疯狂科学家在实验室里狂笑，回声从金属墙壁反弹”。它能控制声音的性别、情绪、空间感，甚至环境混响——不需要一堆音效素材，一句话搞定整个场景。

不少独立游戏开发者已经在内测中用它做角色对话。有团队反馈，过去一个NPC的语音要找配音演员、录三遍、剪辑、加环境音，耗时两天；现在写一句指令，5分钟出成品，还能随时改语气、换语调。

不只是工具，是创作方式的改变

过去，语音生成是“选模板”；现在，是“写剧本”。你不再需要懂音频软件，也不用雇配音演员。一个编剧，一句话就能让角色开口；一个主播，能一键生成不同情绪的开场白；一个产品经理，能快速测试不同语气的语音提示哪个更让人安心。

这不是噱头。我们测试了多个真实场景：有家长用它给自闭症孩子生成温柔的睡前故事；有播客主用它批量生成不同语速版本，测试听众留存率；还有海外短视频创作者，用它把中文脚本直接转成地道泰语配音，不靠翻译软件，不靠人工。

现在就能用，免费额度开放中

这两款模型已接入阿里云模型服务平台，开发者和创作者可以直接调用：

API 文档与调用说明

Fun-CosyVoice 克隆语音详细指南

目前对个人开发者和中小团队开放免费额度，每天可生成10分钟语音，够你试个够。如果你正在做视频、游戏、AI助手，或者只是想试试“用文字创造声音”的感觉——现在就是最好的开始时机。

Fun-CosyVoice3.5 Fun-AudioGen-VD FreeStyle指令生成语音生成

CB科技站

通义实验室发布Fun-CosyVoice3.5与Fun-AudioGen-VD双语音模型

一句话生成语音，通义实验室发布全新语音大模型

谁在用？创作者、开发者、独立游戏团队

不只是工具，是创作方式的改变

现在就能用，免费额度开放中

与本文相关的文章