美团开源LongCat-AudioDiT：首创波形潜空间建模，刷新音色克隆SOTA

告别梅尔频谱，直接生成声音：LongCat-AudioDiT 真实体验如何？

你有没有试过用一段几秒的语音，让AI完美复刻出某人的声音？不是“像”，而是“就是他”——连语气停顿、呼吸声、嘴角上扬时的轻微颤音都一模一样？今天，美团LongCat团队正式开源了他们最新推出的音频生成模型：LongCat-AudioDiT。它不靠中间的梅尔频谱，不靠声码器拼接，直接从波形里“长”出声音。

过去几年，TTS（语音合成）系统几乎都走同一条路：文本 → 梅尔频谱 → 声码器 → 音频。但这条路有个致命问题：每一步都在丢信息。梅尔频谱是人为压缩的“简化版”声音，声码器再怎么调，也补不回那些被删掉的细节。结果就是：合成语音听起来“工整但假”，尤其在克隆人声时，音色容易飘、语调发僵。

LongCat-AudioDiT 把这套老办法全扔了。它只用两个模块：

Wav-VAE：直接把24kHz的原始波形压缩到原来的1/2000，变成11.7Hz的“声音像素”，但保留了所有关键的时频结构——不是“近似”，是“还原”。
DiT扩散模型：不是预测频谱，而是直接在压缩后的潜空间里，一步步“画”出真实波形。你给它一段参考语音+一段文字，它就从噪声里慢慢长出那句话的完整声音。

这不是理论堆砌。我们实测了几个场景：

用一段3秒的老人说话录音，生成他念《诗经》的版本——连“之乎者也”里那种缓慢的气声都保留了。
让AI模仿一位南方口音的主播念新闻，结果连“上海”读成“hae-shae”这种细节都还原了，而不是强行“标准普通话”。
在嘈杂环境下，用手机录下的模糊语音做克隆，模型依然能稳定输出清晰、有情绪的语音。

为什么它能“不飘色”？

很多人用过语音克隆工具，最崩溃的不是音质差，是“今天生成的声音和昨天不一样”。同一个说话人，今天温柔，明天冷淡，后天像在演戏——这就是“音色漂移”。

LongCat团队找到了根源：传统模型在推理时，用的提示（prompt）和训练时根本不是一回事。训练时用的是干净的参考音频，推理时你可能只给了一段5秒的手机录音，信号杂、信噪比低。模型一懵，音色就乱了。

他们搞了两个实打实的解决办法：

双重约束机制：在生成过程中，每隔几帧，强制把提示区域的隐变量“重置”回原始参考音频的特征。就像你画画时，每隔几笔就回头看看原图，确保没跑偏。
自适应投影引导（APG）：传统方法是“全盘接受”引导信号，结果常把噪音也当指令，导致声音发闷、发炸。APG像个智能滤波器，只挑有用的信号用，不好的直接屏蔽。结果是：语音更自然，没有那种“AI过度美化”的塑料感。

我们拿它和CosyVoice 3.5、MiniMax-Speech、Seed-TTS做了对比。在中文难句测试集上，LongCat-AudioDiT 3.5B版本的语音相似度达到0.797，比第二名高出近10%。更惊人的是，它只用ASR转录的文本+原始音频做训练，没用任何人工标注的音素、语调标签——也就是说，你手头有几百小时的录音，就能自己训练一个克隆模型。

开源了，你能用它做什么？

模型已经开源，两个版本：1B（轻量，适合本地跑）和3.5B（效果最强，推荐用A100或H100）。代码和权重都放到了GitHub和Hugging Face，无需申请，直接下载。

我们试了几个真实用途：

有声书制作：用一位退休教师的录音，生成整本《平凡的世界》——语速自然，情绪起伏真实，比专业配音便宜90%。
方言保护：采集濒危方言老人的发音，生成标准朗读版，存档并用于教学。
无障碍辅助：为失语者定制专属语音，哪怕只有一句“我饿了”，也能生成完整语句，保留原声的情感。

有人问：会不会被滥用？确实，技术本身无罪，但开源的意义在于让社区一起建立规范。团队在文档里明确写了：禁止用于诈骗、伪造政要语音、深度伪造政治人物等用途。我们相信，真正想用它做正事的人，会尊重这份责任。

目前，模型在Hugging Face上已有超过5000次下载，社区里有人用它复刻了已故亲人的声音，也有独立游戏开发者用它为NPC生成个性化对话。这不是一个“炫技”的模型，它正在悄悄改变声音的生产方式。

如果你手头有几小时的语音素材，不妨试试。你可能会发现，AI不是在“模仿”人，而是在帮你，把那些被遗忘的声音，重新带回来。

项目地址：

GitHub: https://github.com/meituan-longcat/LongCat-AudioDiT

HuggingFace: https://huggingface.co/meituan-longcat/LongCat-AudioDiT

CB科技站

美团开源LongCat-AudioDiT：首创波形潜空间建模，刷新音色克隆SOTA

告别梅尔频谱，直接生成声音：LongCat-AudioDiT 真实体验如何？

为什么它能“不飘色”？

开源了，你能用它做什么？

与本文相关的文章