小米发布MiMo-V2-TTS：精准还原方言与情感的智能语音大模型

小米全新语音大模型 MiMo-V2-TTS：让机器说话，像真人一样有温度

3月19日，小米正式发布自研语音合成大模型 MiMo-V2-TTS。这不是一个简单的“文字转语音”工具，而是一个能说、能唱、能演、还能说方言的“数字声优”。它不再机械地念稿子，而是像朋友一样，有情绪、有节奏、有呼吸。

一句话里，能笑能哭

过去，语音合成听起来总像机器人念说明书——平、直、没起伏。MiMo-V2-TTS 改变了这一点。它能在一个句子里，从温柔劝慰突然转成惊喜大笑，再轻轻叹一口气。比如你说：“今天加班到十点……但终于把报告写完了。” 它会自然地在“十点”时语气低沉，在“写完了”时微微上扬，甚至带一点如释重负的停顿。这不是预设的脚本，而是模型自己“听懂”了语义后，做出的自然表达。

不只说话，还能唱歌

你可能没想到，这个模型还能唱歌。测试视频里，它用清澈的女声唱了一段《平凡之路》，音准稳定，气口自然，尾音收得恰到好处，没有AI常见的“电子感”或“机械抖动”。这不是简单的音高拼接，而是真正理解了旋律的情绪走向。有人试过让它模仿周杰伦的咬字、邓紫棋的气声，结果都出人意料地贴近。小米内部测试显示，其歌声合成质量已接近专业录音棚的初级水平。

方言不说“普通话版”，直接说老家话

东北人说“整点饭”，四川人说“巴适得板”，粤语说“饮茶先”，台湾腔说“超赞的”——MiMo-V2-TTS 全都懂。它不是简单地替换几个词，而是还原了方言的语调、节奏、甚至口头禅。一位广东用户测试后说：“它说‘唔该’时那个尾音，和我妈一模一样。” 目前已支持东北话、四川话、河南话、粤语、台湾国语等主流方言，后续还会加入闽南语、客家话等更多地方口音。

你打字，它自动“演”出来

不用再手动加【停顿】、【重音】、【感叹】这些标签了。你写：“真的吗？太好了！”——它会自然拉长“吗”字，提高“太”字音调，结尾带点跳跃感。你写：“……算了，不说了。”——它会放慢语速，中间留出半秒沉默，像真的在叹气。这套能力来自模型对标点、语气词、甚至省略号的深度理解，不是靠规则，而是靠“听”了上亿小时真实对话学来的。

不只是手机，是家里那个会说话的伙伴

小米未来不会只把这技术用在手机上。智能音箱、车载系统、电视、手表、甚至扫地机器人，都会慢慢“开口说话”。想象一下：晚上你回家，智能音箱轻声说：“你今天回来晚了，饭在锅里热着，我给你调了首歌。”——不是冷冰冰的提示音，而是像家人一样，带着关心的语气。

更值得期待的是，MiMo-V2-TTS 将与小米自研的多模态大模型 MiMo-V2-Omni 深度结合。未来，你的小爱同学不仅能听懂你说“我有点累”，还能结合你今天的情绪、天气、作息，轻声说：“今天你加班到很晚吧？要不要我放点轻音乐，陪你坐一会儿？”

这不是技术秀，是人机关系的重启

我们早就不满足于“能听懂”的AI了。我们想要的是“能懂你”的声音。MiMo-V2-TTS 的意义，不在于它用了多少参数、训练了多少数据，而在于它终于让机器的声音，有了人的温度。

当一个设备不再只是执行指令，而是能用你熟悉的方式、带着你熟悉的语气和你对话时，科技才真正回到了人本身。

Xiaomi MiMo-V2-TTS 情感语音合成歌声合成多方言支持

CB科技站