通义百聆“语音双子星”开源：3秒克隆声音，嘈杂环境精准识别

通义百聆发布“说话+听话”双核开源方案，3秒克隆声音，嘈杂环境也能听清

今天，通义百聆正式推出语音技术的“组合拳”——Fun-CosyVoice3 与 Fun-ASR 两大核心模型同步升级并全量开源，首次实现“声音复刻”与“语音识别”能力的双向突破。这不是一次简单的功能迭代，而是一次面向开发者、创业者和企业级用户的“语音基础设施”重构。

过去，语音AI要么“说得像”但听不清，要么“听得准”但声音僵硬。而这一次，通义百聆用开源的方式，把过去只在大厂内部使用的高阶能力，直接交到普通人手里——3秒录音，就能让你的声音跨越语言、情绪与场景，自由流转。

升级后的 Fun-CosyVoice3 不再是“模仿声音”，而是“接管声音”。你只需提供一段3秒的语音样本，它就能精准提取音色特征，并在多种语言、方言和情绪间无缝切换。

你可以用一段普通话录音，生成一口流利的粤语播音腔；也能让AI用愤怒的语气念出合同条款，再切换成温柔的哄睡模式讲睡前故事。更惊人的是，它支持中、英、日、韩、法、西、俄等主流语言自由混说，语码切换自然到几乎听不出AI痕迹。

三大实用突破，让技术真正“能用”：

更重要的是，通义百聆同步开源了 Fun-CosyVoice3-0.5B 轻量版。这个仅5亿参数的模型，可在普通消费级显卡（如RTX 3060）上本地部署，支持zero-shot音色克隆、定制情绪控制、多语种合成，无需云服务，数据不出内网，特别适合教育、医疗、客服等对隐私要求高的行业。

已有团队基于该模型开发出“方言客服机器人”——用四川话、东北话、粤语等方言服务本地老人，语音自然得像邻居阿姨在说话，用户满意度提升40%以上。

如果说 CosyVoice3 是“说话的艺术”，那 Fun-ASR 就是“倾听的智慧”。在真实世界里，语音识别最大的敌人不是口音，而是背景噪音。

这次 Fun-ASR 在地铁、车载、会议室、夜市直播等复杂场景下，识别准确率突破93%，连“东北话+背景音乐+说唱歌词”这种“地狱难度”组合，也能稳定输出文字。过去AI听到“我昨天在拼多多买了个充电宝”会被误识别为“我昨天在拼多多买了个充气宝”，现在几乎零错误。

它的真正颠覆性，在于“无感识别”：

31种语言自由混说——无需提前设定语种，一句“今天meeting开到8点，然后去吃cantonese food”，系统自动拆解、精准转写。
中文覆盖7大方言+26种地方口音：从河南话的“中不中”、到台湾腔的“好喔～”、再到陕北话的“嘹咋咧”，通通能听懂。连“夹生普通话”（如老人说普通话带方言尾音）也支持。
首字识别延迟低至160ms，比人类反应还快，适合车载语音、智能硬件、实时字幕等毫秒级响应场景。

企业级用户更关心的，是定制能力。Fun-ASR 引入了RAG检索增强生成机制，热词库支持高达10,000条自定义词汇，且不影响通用识别准确率。这意味着：