通义百聆发布“说话+听话”双核开源方案,3秒克隆声音,嘈杂环境也能听清
今天,通义百聆正式推出语音技术的“组合拳”——Fun-CosyVoice3 与 Fun-ASR 两大核心模型同步升级并全量开源,首次实现“声音复刻”与“语音识别”能力的双向突破。这不是一次简单的功能迭代,而是一次面向开发者、创业者和企业级用户的“语音基础设施”重构。
过去,语音AI要么“说得像”但听不清,要么“听得准”但声音僵硬。而这一次,通义百聆用开源的方式,把过去只在大厂内部使用的高阶能力,直接交到普通人手里——3秒录音,就能让你的声音跨越语言、情绪与场景,自由流转。
3秒录音,一键换声:你的声音,可以是任何人

升级后的 Fun-CosyVoice3 不再是“模仿声音”,而是“接管声音”。你只需提供一段3秒的语音样本,它就能精准提取音色特征,并在多种语言、方言和情绪间无缝切换。
你可以用一段普通话录音,生成一口流利的粤语播音腔;也能让AI用愤怒的语气念出合同条款,再切换成温柔的哄睡模式讲睡前故事。更惊人的是,它支持中、英、日、韩、法、西、俄等主流语言自由混说,语码切换自然到几乎听不出AI痕迹。
三大实用突破,让技术真正“能用”:
- 首包延迟降低50%,支持双向流式合成——输入文字的瞬间,AI就开始“开口”,直播带货、语音助手、虚拟主播等实时场景再无卡顿。
- 中英混说准确率跃升,专业术语如“API调用”“iOS系统”“KPI冲刺”不再被误识别,大小写、缩写、数字混排也能精准输出。
- 跨语种音色一致性达行业顶尖,即使你用中文录音,生成的日语或英语发音依然保留原声辨识度,不是“翻译腔”,而是“本尊外语版”。
更重要的是,通义百聆同步开源了 Fun-CosyVoice3-0.5B 轻量版。这个仅5亿参数的模型,可在普通消费级显卡(如RTX 3060)上本地部署,支持zero-shot音色克隆、定制情绪控制、多语种合成,无需云服务,数据不出内网,特别适合教育、医疗、客服等对隐私要求高的行业。
已有团队基于该模型开发出“方言客服机器人”——用四川话、东北话、粤语等方言服务本地老人,语音自然得像邻居阿姨在说话,用户满意度提升40%以上。
听懂嘈杂世界:地铁、会议、说唱,通通能识别

如果说 CosyVoice3 是“说话的艺术”,那 Fun-ASR 就是“倾听的智慧”。在真实世界里,语音识别最大的敌人不是口音,而是背景噪音。
这次 Fun-ASR 在地铁、车载、会议室、夜市直播等复杂场景下,识别准确率突破93%,连“东北话+背景音乐+说唱歌词”这种“地狱难度”组合,也能稳定输出文字。过去AI听到“我昨天在拼多多买了个充电宝”会被误识别为“我昨天在拼多多买了个充气宝”,现在几乎零错误。
它的真正颠覆性,在于“无感识别”:
- 31种语言自由混说——无需提前设定语种,一句“今天meeting开到8点,然后去吃cantonese food”,系统自动拆解、精准转写。
- 中文覆盖7大方言+26种地方口音:从河南话的“中不中”、到台湾腔的“好喔~”、再到陕北话的“嘹咋咧”,通通能听懂。连“夹生普通话”(如老人说普通话带方言尾音)也支持。
- 首字识别延迟低至160ms,比人类反应还快,适合车载语音、智能硬件、实时字幕等毫秒级响应场景。
企业级用户更关心的,是定制能力。Fun-ASR 引入了RAG检索增强生成机制,热词库支持高达10,000条自定义词汇,且不影响通用识别准确率。这意味着:
- 金融公司可导入“比特币”“ETF”“杠杆”等术语,避免误转成“比特犬”“ETF是汤”;
- 医院可上传“阿司匹林”“心电图”“胰岛素”等医学词库,让语音病历录入零差错;
- 教育机构可添加学生姓名、教材章节名,自动生成带专业术语的课堂笔记。
同时,Fun-ASR-Nano(0.8B) 正式开源。这个模型在保持90%+识别率的前提下,推理速度提升3倍,内存占用降低70%,可在树莓派、Jetson Nano 等边缘设备上运行,为智能硬件、IoT设备、低成本语音终端提供了“开箱即用”的解决方案。
为什么这次开源,比以往更重要?
过去,语音技术被锁在云API里,调用一次要钱,定制一次要合同,部署一次要团队。而通义百聆这次,把“声音克隆”和“语音理解”两大能力,以轻量、开源、可本地部署的形式,完整交给了开发者。
这意味着:
- 独立开发者可以做出“AI配音助手”,用自己声音生成多语种有声书;
- 创业公司能低成本打造方言客服机器人,服务三四线城市银发群体;
- 教育机构可为听障学生生成实时字幕+语音朗读双通道内容;
- 车企无需依赖高通或科大讯飞,用开源模型自研车机语音系统。
这不是技术秀,这是“语音民主化”的开始。
立即体验,零成本上手
你无需申请权限,无需付费,直接打开链接,上传一段3秒语音,就能现场体验“声音换语言”和“嘈杂环境识别”:
国内体验Demo:
开源代码仓库:
https://github.com/FunAudioLLM/CosyVoice
https://github.com/FunAudioLLM/Fun-ASR
国内模型仓库(Hugging Face镜像):
https://modelscope.cn/models/FunAudioLLM/Fun-CosyVoice3-0.5B-2512
这不是一场发布会,而是一次邀请——邀请每一个想用声音改变世界的人,来亲手打造属于自己的语音AI。