最新消息:关注人工智能 AI赋能新媒体运营

小米开源OmniVoice:支持600+语种零样本语音克隆,WER低至0.84%,速度提升40倍

科技资讯 admin 浏览

OmniVoice:一款能说600种语言的语音合成工具,3秒克隆你的声音

小米旗下Kaldi团队(k2-fsa)近日正式开源了OmniVoice——一个能用短短3到10秒的语音样本,精准复刻你说话方式的TTS模型。它不只支持中文和英文,还能处理全球超过600种语言,包括许多几乎没人录音的濒危方言。这不是实验室里的概念demo,而是真正能跑在普通电脑上、开箱即用的工具。

在中文测试集Seed-TTS上,它的词错误率低至0.84%,比市面上大多数商用语音服务更准。在多语言对比测试中,它在语音自然度和清晰度上,已经超过了ElevenLabs v2和MiniMax这些被广泛使用的商业模型。不是“接近”,是实打实的超越。

image.png

合成速度比实时快40倍,录音十分钟,一秒出声

传统TTS模型合成一段话要等上几秒甚至十几秒,而OmniVoice的实时因子(RTF)低至0.025。什么意思?你输入一篇5分钟的长文,它能在7秒内生成完整语音。这不只是快,是彻底改变了工作流——你可以边写稿边听语音反馈,不再需要等待。

开发者实测,在一台消费级RTX 4090上,本地部署后无需云端调用,直接生成高质量语音,延迟几乎可以忽略。这对做播客、有声书、AI助手的产品团队来说,意味着成本和效率的双重突破。

不靠海量数据,3秒音频就能克隆你的声音

你不需要上传整段录音,也不用训练专属模型。只要提供一段3到10秒的语音——哪怕只是说了一句“你好,我是张伟”——OmniVoice就能学会你的语调、呼吸节奏、甚至口音。克隆出的声音,连亲人都难分真假。

更厉害的是,你能用自然语言控制声音:比如“要一个40岁、带点东北口音、语速慢一点的男声”或者“生成耳语风格,像在耳边说话”。它不是调参数,是真正理解你的描述。有人用它给爷爷的方言录音做了“数字复活”——老人已经不能说话了,但模型复刻了他临终前说的最后一句话。

连笑声、停顿、咳嗽都能模拟,中文发音精准到字

它能识别并正确合成非语言符号,比如[laughter]、[cough]、[pause],让合成语音不再像机器人念稿。对中文用户特别友好:你可以直接输入拼音或国际音标来纠正发音,比如“‘重’字在这里要读chóng,不是zhòng”,模型立刻按你说的来。

方言支持也做得扎实。闽南语、粤语、客家话、西南官话……这些在主流语音系统里经常“听不清”的语言,OmniVoice都能准确输出。有用户用它为家乡的童谣做了语音存档,原本只剩两位老人会唱,现在AI帮他们“唱”了出来。

600种语言,不只是噱头

600种语言不是随便说说。它覆盖了从英语、中文、西班牙语,到尼泊尔语、马达加斯加语、楚科奇语等低资源语言。很多语言连谷歌翻译都支持不了,但OmniVoice只要5条样本,就能生成可听、可懂的语音。

联合国教科文组织统计,全球约7000种语言中,近40%面临消亡风险。OmniVoice的开源,让民间语言保护者、非遗记录者、乡村教师,第一次有了低成本、高保真的工具,去保存那些即将消失的声音。有人正在用它为云南独龙族的口述历史做数字化存档,每一条语音,都是一个文化密码。

开源,免费,本地部署

代码和预训练模型已全量开源,GitHub和Hugging Face都能下载。不需要注册、不用API密钥、不收钱。你可以把它装在NAS、树莓派,甚至旧笔记本上,离线运行。

社区里已经有开发者把它接入了语音笔记App、无障碍阅读工具、甚至AI宠物对话系统。有人用它给失语症患者生成了专属语音,输入文字就能“说话”。

这不是下一个大模型,这是一把能帮你留住声音的钥匙。

项目地址:https://github.com/k2-fsa/OmniVoice