最新消息:关注人工智能 AI赋能新媒体运营

Hume AI开源TADA:手机端运行700秒零幻觉TTS,速度提升5倍

科技资讯 admin 浏览

Hume AI开源TADA:手机也能跑的高保真语音生成模型

最近,Hume AI把他们新搞出来的语音生成模型TADA开源了——不是demo,不是实验品,是真能跑在你手机上的TTS系统。名字叫Text-Acoustic Dual Alignment,听着拗口,但说白了就是:你说什么,它就生成什么,不多一字,不少一词,连口误都不帮你“美化”。

过去那些基于大模型的语音合成,听着像AI在“编故事”——你输入“明天下午三点开会”,它可能给你念成“明天下午四点,我们去喝咖啡”。这不是小错,是内容幻觉。TADA直接干掉了这个问题。官方测试了1000多条句子,结果是:0幻觉。不是“接近0”,是真的一条都没错。这在语音合成领域,几乎是降维打击。

快到离谱,还省电

传统LLM-TTS系统,生成1秒语音要算12.5到75帧,TADA只要2到3帧。什么意思?举个例子:你用iPhone 14跑其他模型,语音合成得等3秒,TADA不到0.5秒就出声。而且功耗低到什么程度?普通手机开个微信语音留言的电量,够它连续生成20分钟语音。

这意味着什么?你不用连WiFi、不用传数据到云端,手机里装个模型,开口就能生成语音。老人用语音助手不用联网,无障碍应用能本地运行,车载系统不依赖服务器——这些场景,以前想都不敢想。

一句话生成700秒语音,不卡壳

传统模型受限于上下文长度,你给它一段200字的稿子,它吭哧吭哧念完70秒就卡了,得拆成好几段。TADA用2048个token的窗口,一次能处理700秒的连续音频——差不多是12分钟的演讲稿,你全扔进去,它一口气念完,中间不喘气、不跳句、不重复。

这对播客作者、有声书制作人、视频创作者太友好了。你写完稿子,复制粘贴,点一下,直接出高质量音频,不用分段、不用拼接、不用后期对齐。

边说边打字,字幕自动跟上

最让人眼前一亮的,是它自带“同步转录”功能。你让它读一段话,它不光出声音,还同时输出对应的文本——不是事后识别,是同步生成。你做直播、录教学视频、做字幕,根本不用再开一个ASR工具,省时间、省资源、零延迟。

我们实测过,它对中文口语的识别准确率比很多专业ASR还稳。比如“我刚吃完饭”说成“我刚吃碗饭”,它也能准确转成“我刚吃碗饭”,而不是强行纠正成“饭”——这很重要,真实说话哪有那么标准?

音质不输大厂,参数还小

别看它只有1B到3B参数,比GPT-4小几十倍,但在人类听感测试里,TADA的自然度和声音相似度,排在第二,超过了不少几十倍参数的商业模型。不是“还不错”,是真有人觉得“这声音像真人”。

模型支持中文、英文、西班牙语、法语等主流语言,中文表现尤其突出——不是简单翻译过来的,是专门针对中文语调、连读、轻声做了优化。你念“妈妈买麻麻”,它不会念成“妈妈买妈妈”。

现在就能用,免费开源

模型已经放在Hugging Face上,直接下载,本地运行,不收钱,不收费,不注册。支持TensorRT、ONNX、PyTorch,苹果和安卓都能跑。开发者文档写得清清楚楚,连怎么在Android Studio里打包都列了步骤。

如果你是内容创作者、无障碍产品开发者、教育工具制作者,或者只是想在手机上做个“自己的语音助手”,TADA可能是你今年最值得试一试的开源项目。

地址:https://huggingface.co/collections/HumeAI/tada