最新消息:关注人工智能 AI赋能新媒体运营

Fish Audio发布S2:开源多说话人词级情绪控制耳机

科技资讯 admin 浏览

Fish Audio S2:开源TTS的新标杆,让AI说话像人一样有情绪

你有没有试过让AI读一段话,结果听起来像机器人念说明书?那种机械、平铺直叙的语音,哪怕再清晰,也让人提不起兴趣。现在,Fish Audio 推出的 S2 模型,彻底改变了这一点。

S2 不是又一个“更清晰”的语音合成工具,它是一个能“听懂情绪”的声音引擎。你不用再靠调整参数、写复杂脚本去控制语调。你只需要在文本里加几个简单的标记,比如:

  • [laugh] 哈哈,这太好笑了!
  • [whispers] 别出声,有人在偷听……
  • [super happy] 我们中奖了!!
  • [professional broadcast tone] 接下来为您播报今日新闻
  • [pitch up] 你真的确定吗?

这些标签不是花架子——它们直接作用在音调、节奏、气息和情感上,让语音从“朗读”变成“表达”。你甚至可以混合使用,比如:“[whispers] 我其实……[super happy] 喜欢你!”——AI 会自然地压低声音,再突然扬起,像真人一样喘气、停顿、情绪翻转。

开源,不是口号,是真·全公开

Fish Audio 没有藏着掖着。S2 的完整模型权重、训练代码、微调教程,甚至流式推理引擎(基于 SGLang),全部放在 GitHub 和 Hugging Face 上,免费开放。

你不需要买服务器、不用申请权限,也不用担心被“商用限制”卡住。开发者可以直接下载 S2-Pro(约44亿参数,目前最强版本),在本地跑起来,做语音助手、有声书、虚拟主播,甚至给游戏NPC配音——全凭你自己的想法。

有人可能会问:“开源的能比商业的强?” 答案是:现在能了。在多个公开评测中,S2 的自然度和情感表现力,已经追平甚至超越部分闭源模型,尤其是在多轮对话、情绪切换、音色稳定这些最难的场景里。

实时对话?它能跟上你的节奏

延迟低于150毫秒,意味着什么?

当你在语音聊天机器人里说“等等,我还没说完”,它不会等你停顿三秒才反应——它能像真人一样,听你说话的节奏,接住你的语气,甚至在你被打断时,自动调整语速和停顿,让对话不卡壳、不生硬。

更厉害的是,它原生支持多人对话。你不需要分开生成再拼接。一句话:“小明:今天真累啊。小红:你是不是又加班了?”——S2 会自动切换音色、语调、情绪,让两个人的声音一听就分得清,还带着真实的互动感。

训练数据,是它“懂人”的底气

S2 不是靠几个小时的录音训练出来的。它用了约1000万小时的音频数据,覆盖近50种语言,包含大量真实对话、广播、演讲、情感表达片段——不是实验室里摆拍的“标准发音”,而是街头巷尾、直播间、电话客服、亲子对话里真实的声音。

再加上强化学习对齐技术,它学会的不只是“怎么发音”,而是“什么时候该笑、什么时候该停、什么时候该压低声音”。这背后,是无数真实人类语音的沉淀。

谁在用?为什么它值得你试试

已经有团队在用 S2 做:

  • 有声小说平台,让每个角色都有专属声线和情绪变化
  • 教育类App,AI老师能用“鼓励语气”和“严肃语气”切换教学
  • 虚拟主播,直播中能即兴接梗、情绪爆发,不靠预设脚本
  • 无障碍工具,为视障用户生成更自然的语音导航

你不需要是AI专家。只要你会写文字,会加几个括号标签,就能做出远超传统TTS的效果。它不追求“完美发音”,它追求“像人一样说话”。

真正的语言自由,从现在开始

过去,AI语音是工具,冰冷、可预测、千篇一律。现在,S2 让AI声音有了个性、温度和呼吸感。

你不再是在“使用一个语音合成器”,你是在和一个能听懂你情绪的“声音伙伴”合作。

想试试?

GitHub 项目地址

Hugging Face 模型下载

别再让AI说话像机器了。让它,像人一样。