Fish Audio发布S2：开源多说话人词级情绪控制耳机

Fish Audio S2：开源TTS的新标杆，让AI说话像人一样有情绪

你有没有试过让AI读一段话，结果听起来像机器人念说明书？那种机械、平铺直叙的语音，哪怕再清晰，也让人提不起兴趣。现在，Fish Audio 推出的 S2 模型，彻底改变了这一点。

S2 不是又一个“更清晰”的语音合成工具，它是一个能“听懂情绪”的声音引擎。你不用再靠调整参数、写复杂脚本去控制语调。你只需要在文本里加几个简单的标记，比如：

这些标签不是花架子——它们直接作用在音调、节奏、气息和情感上，让语音从“朗读”变成“表达”。你甚至可以混合使用，比如：“[whispers] 我其实……[super happy] 喜欢你！”——AI 会自然地压低声音，再突然扬起，像真人一样喘气、停顿、情绪翻转。

Fish Audio 没有藏着掖着。S2 的完整模型权重、训练代码、微调教程，甚至流式推理引擎（基于 SGLang），全部放在 GitHub 和 Hugging Face 上，免费开放。

你不需要买服务器、不用申请权限，也不用担心被“商用限制”卡住。开发者可以直接下载 S2-Pro（约44亿参数，目前最强版本），在本地跑起来，做语音助手、有声书、虚拟主播，甚至给游戏NPC配音——全凭你自己的想法。

有人可能会问：“开源的能比商业的强？” 答案是：现在能了。在多个公开评测中，S2 的自然度和情感表现力，已经追平甚至超越部分闭源模型，尤其是在多轮对话、情绪切换、音色稳定这些最难的场景里。

延迟低于150毫秒，意味着什么？

当你在语音聊天机器人里说“等等，我还没说完”，它不会等你停顿三秒才反应——它能像真人一样，听你说话的节奏，接住你的语气，甚至在你被打断时，自动调整语速和停顿，让对话不卡壳、不生硬。

更厉害的是，它原生支持多人对话。你不需要分开生成再拼接。一句话：“小明：今天真累啊。小红：你是不是又加班了？”——S2 会自动切换音色、语调、情绪，让两个人的声音一听就分得清，还带着真实的互动感。

S2 不是靠几个小时的录音训练出来的。它用了约1000万小时的音频数据，覆盖近50种语言，包含大量真实对话、广播、演讲、情感表达片段——不是实验室里摆拍的“标准发音”，而是街头巷尾、直播间、电话客服、亲子对话里真实的声音。

再加上强化学习对齐技术，它学会的不只是“怎么发音”，而是“什么时候该笑、什么时候该停、什么时候该压低声音”。这背后，是无数真实人类语音的沉淀。

已经有团队在用 S2 做：

你不需要是AI专家。只要你会写文字，会加几个括号标签，就能做出远超传统TTS的效果。它不追求“完美发音”，它追求“像人一样说话”。

过去，AI语音是工具，冰冷、可预测、千篇一律。现在，S2 让AI声音有了个性、温度和呼吸感。

你不再是在“使用一个语音合成器”，你是在和一个能听懂你情绪的“声音伙伴”合作。

想试试？

别再让AI说话像机器了。让它，像人一样。