小米开源OmniVoice：支持600+语种零样本语音克隆，WER低至0.84%，速度提升40倍

OmniVoice：一款能说600种语言的语音合成工具，3秒克隆你的声音

小米旗下Kaldi团队（k2-fsa）近日正式开源了OmniVoice——一个能用短短3到10秒的语音样本，精准复刻你说话方式的TTS模型。它不只支持中文和英文，还能处理全球超过600种语言，包括许多几乎没人录音的濒危方言。这不是实验室里的概念demo，而是真正能跑在普通电脑上、开箱即用的工具。

在中文测试集Seed-TTS上，它的词错误率低至0.84%，比市面上大多数商用语音服务更准。在多语言对比测试中，它在语音自然度和清晰度上，已经超过了ElevenLabs v2和MiniMax这些被广泛使用的商业模型。不是“接近”，是实打实的超越。

传统TTS模型合成一段话要等上几秒甚至十几秒，而OmniVoice的实时因子（RTF）低至0.025。什么意思？你输入一篇5分钟的长文，它能在7秒内生成完整语音。这不只是快，是彻底改变了工作流——你可以边写稿边听语音反馈，不再需要等待。

开发者实测，在一台消费级RTX 4090上，本地部署后无需云端调用，直接生成高质量语音，延迟几乎可以忽略。这对做播客、有声书、AI助手的产品团队来说，意味着成本和效率的双重突破。

你不需要上传整段录音，也不用训练专属模型。只要提供一段3到10秒的语音——哪怕只是说了一句“你好，我是张伟”——OmniVoice就能学会你的语调、呼吸节奏、甚至口音。克隆出的声音，连亲人都难分真假。

更厉害的是，你能用自然语言控制声音：比如“要一个40岁、带点东北口音、语速慢一点的男声”或者“生成耳语风格，像在耳边说话”。它不是调参数，是真正理解你的描述。有人用它给爷爷的方言录音做了“数字复活”——老人已经不能说话了，但模型复刻了他临终前说的最后一句话。

它能识别并正确合成非语言符号，比如[laughter]、[cough]、[pause]，让合成语音不再像机器人念稿。对中文用户特别友好：你可以直接输入拼音或国际音标来纠正发音，比如“‘重’字在这里要读chóng，不是zhòng”，模型立刻按你说的来。

方言支持也做得扎实。闽南语、粤语、客家话、西南官话……这些在主流语音系统里经常“听不清”的语言，OmniVoice都能准确输出。有用户用它为家乡的童谣做了语音存档，原本只剩两位老人会唱，现在AI帮他们“唱”了出来。

600种语言不是随便说说。它覆盖了从英语、中文、西班牙语，到尼泊尔语、马达加斯加语、楚科奇语等低资源语言。很多语言连谷歌翻译都支持不了，但OmniVoice只要5条样本，就能生成可听、可懂的语音。

联合国教科文组织统计，全球约7000种语言中，近40%面临消亡风险。OmniVoice的开源，让民间语言保护者、非遗记录者、乡村教师，第一次有了低成本、高保真的工具，去保存那些即将消失的声音。有人正在用它为云南独龙族的口述历史做数字化存档，每一条语音，都是一个文化密码。

代码和预训练模型已全量开源，GitHub和Hugging Face都能下载。不需要注册、不用API密钥、不收钱。你可以把它装在NAS、树莓派，甚至旧笔记本上，离线运行。

社区里已经有开发者把它接入了语音笔记App、无障碍阅读工具、甚至AI宠物对话系统。有人用它给失语症患者生成了专属语音，输入文字就能“说话”。

这不是下一个大模型，这是一把能帮你留住声音的钥匙。

项目地址：https://github.com/k2-fsa/OmniVoice