Hume AI开源TADA：手机端运行700秒零幻觉TTS，速度提升5倍

Hume AI开源TADA：手机也能跑的高保真语音生成模型

最近，Hume AI把他们新搞出来的语音生成模型TADA开源了——不是demo，不是实验品，是真能跑在你手机上的TTS系统。名字叫Text-Acoustic Dual Alignment，听着拗口，但说白了就是：你说什么，它就生成什么，不多一字，不少一词，连口误都不帮你“美化”。

过去那些基于大模型的语音合成，听着像AI在“编故事”——你输入“明天下午三点开会”，它可能给你念成“明天下午四点，我们去喝咖啡”。这不是小错，是内容幻觉。TADA直接干掉了这个问题。官方测试了1000多条句子，结果是：0幻觉。不是“接近0”，是真的一条都没错。这在语音合成领域，几乎是降维打击。

传统LLM-TTS系统，生成1秒语音要算12.5到75帧，TADA只要2到3帧。什么意思？举个例子：你用iPhone 14跑其他模型，语音合成得等3秒，TADA不到0.5秒就出声。而且功耗低到什么程度？普通手机开个微信语音留言的电量，够它连续生成20分钟语音。

这意味着什么？你不用连WiFi、不用传数据到云端，手机里装个模型，开口就能生成语音。老人用语音助手不用联网，无障碍应用能本地运行，车载系统不依赖服务器——这些场景，以前想都不敢想。

传统模型受限于上下文长度，你给它一段200字的稿子，它吭哧吭哧念完70秒就卡了，得拆成好几段。TADA用2048个token的窗口，一次能处理700秒的连续音频——差不多是12分钟的演讲稿，你全扔进去，它一口气念完，中间不喘气、不跳句、不重复。

这对播客作者、有声书制作人、视频创作者太友好了。你写完稿子，复制粘贴，点一下，直接出高质量音频，不用分段、不用拼接、不用后期对齐。

最让人眼前一亮的，是它自带“同步转录”功能。你让它读一段话，它不光出声音，还同时输出对应的文本——不是事后识别，是同步生成。你做直播、录教学视频、做字幕，根本不用再开一个ASR工具，省时间、省资源、零延迟。

我们实测过，它对中文口语的识别准确率比很多专业ASR还稳。比如“我刚吃完饭”说成“我刚吃碗饭”，它也能准确转成“我刚吃碗饭”，而不是强行纠正成“饭”——这很重要，真实说话哪有那么标准？

别看它只有1B到3B参数，比GPT-4小几十倍，但在人类听感测试里，TADA的自然度和声音相似度，排在第二，超过了不少几十倍参数的商业模型。不是“还不错”，是真有人觉得“这声音像真人”。

模型支持中文、英文、西班牙语、法语等主流语言，中文表现尤其突出——不是简单翻译过来的，是专门针对中文语调、连读、轻声做了优化。你念“妈妈买麻麻”，它不会念成“妈妈买妈妈”。

模型已经放在Hugging Face上，直接下载，本地运行，不收钱，不收费，不注册。支持TensorRT、ONNX、PyTorch，苹果和安卓都能跑。开发者文档写得清清楚楚，连怎么在Android Studio里打包都列了步骤。

如果你是内容创作者、无障碍产品开发者、教育工具制作者，或者只是想在手机上做个“自己的语音助手”，TADA可能是你今年最值得试一试的开源项目。

地址：https://huggingface.co/collections/HumeAI/tada