告别梅尔频谱,直接生成声音:LongCat-AudioDiT 真实体验如何?
你有没有试过用一段几秒的语音,让AI完美复刻出某人的声音?不是“像”,而是“就是他”——连语气停顿、呼吸声、嘴角上扬时的轻微颤音都一模一样?今天,美团LongCat团队正式开源了他们最新推出的音频生成模型:LongCat-AudioDiT。它不靠中间的梅尔频谱,不靠声码器拼接,直接从波形里“长”出声音。
过去几年,TTS(语音合成)系统几乎都走同一条路:文本 → 梅尔频谱 → 声码器 → 音频。但这条路有个致命问题:每一步都在丢信息。梅尔频谱是人为压缩的“简化版”声音,声码器再怎么调,也补不回那些被删掉的细节。结果就是:合成语音听起来“工整但假”,尤其在克隆人声时,音色容易飘、语调发僵。
LongCat-AudioDiT 把这套老办法全扔了。它只用两个模块:
- Wav-VAE:直接把24kHz的原始波形压缩到原来的1/2000,变成11.7Hz的“声音像素”,但保留了所有关键的时频结构——不是“近似”,是“还原”。
- DiT扩散模型:不是预测频谱,而是直接在压缩后的潜空间里,一步步“画”出真实波形。你给它一段参考语音+一段文字,它就从噪声里慢慢长出那句话的完整声音。
这不是理论堆砌。我们实测了几个场景:
- 用一段3秒的老人说话录音,生成他念《诗经》的版本——连“之乎者也”里那种缓慢的气声都保留了。
- 让AI模仿一位南方口音的主播念新闻,结果连“上海”读成“hae-shae”这种细节都还原了,而不是强行“标准普通话”。
- 在嘈杂环境下,用手机录下的模糊语音做克隆,模型依然能稳定输出清晰、有情绪的语音。
为什么它能“不飘色”?
很多人用过语音克隆工具,最崩溃的不是音质差,是“今天生成的声音和昨天不一样”。同一个说话人,今天温柔,明天冷淡,后天像在演戏——这就是“音色漂移”。
LongCat团队找到了根源:传统模型在推理时,用的提示(prompt)和训练时根本不是一回事。训练时用的是干净的参考音频,推理时你可能只给了一段5秒的手机录音,信号杂、信噪比低。模型一懵,音色就乱了。
他们搞了两个实打实的解决办法:
- 双重约束机制:在生成过程中,每隔几帧,强制把提示区域的隐变量“重置”回原始参考音频的特征。就像你画画时,每隔几笔就回头看看原图,确保没跑偏。
- 自适应投影引导(APG):传统方法是“全盘接受”引导信号,结果常把噪音也当指令,导致声音发闷、发炸。APG像个智能滤波器,只挑有用的信号用,不好的直接屏蔽。结果是:语音更自然,没有那种“AI过度美化”的塑料感。
我们拿它和CosyVoice 3.5、MiniMax-Speech、Seed-TTS做了对比。在中文难句测试集上,LongCat-AudioDiT 3.5B版本的语音相似度达到0.797,比第二名高出近10%。更惊人的是,它只用ASR转录的文本+原始音频做训练,没用任何人工标注的音素、语调标签——也就是说,你手头有几百小时的录音,就能自己训练一个克隆模型。
开源了,你能用它做什么?
模型已经开源,两个版本:1B(轻量,适合本地跑)和3.5B(效果最强,推荐用A100或H100)。代码和权重都放到了GitHub和Hugging Face,无需申请,直接下载。
我们试了几个真实用途:
- 有声书制作:用一位退休教师的录音,生成整本《平凡的世界》——语速自然,情绪起伏真实,比专业配音便宜90%。
- 方言保护:采集濒危方言老人的发音,生成标准朗读版,存档并用于教学。
- 无障碍辅助:为失语者定制专属语音,哪怕只有一句“我饿了”,也能生成完整语句,保留原声的情感。
有人问:会不会被滥用?确实,技术本身无罪,但开源的意义在于让社区一起建立规范。团队在文档里明确写了:禁止用于诈骗、伪造政要语音、深度伪造政治人物等用途。我们相信,真正想用它做正事的人,会尊重这份责任。
目前,模型在Hugging Face上已有超过5000次下载,社区里有人用它复刻了已故亲人的声音,也有独立游戏开发者用它为NPC生成个性化对话。这不是一个“炫技”的模型,它正在悄悄改变声音的生产方式。
如果你手头有几小时的语音素材,不妨试试。你可能会发现,AI不是在“模仿”人,而是在帮你,把那些被遗忘的声音,重新带回来。

项目地址:
GitHub: https://github.com/meituan-longcat/LongCat-AudioDiT
HuggingFace: https://huggingface.co/meituan-longcat/LongCat-AudioDiT