小米发布自研MiMo-V2-TTS大模型，支持多方言与情感精准合成

小米自研语音大模型MiMo-V2-TTS发布：说话像人，唱歌也像真歌手

小米今天正式发布了自家的语音合成大模型——MiMo-V2-TTS。这不是又一个“AI语音助手”的噱头，而是一次实实在在的突破：它能让机器说话时，有停顿、有情绪、有起伏，甚至能唱出带感情的歌。

过去我们听到的语音合成，听起来总像机器人念稿——平、直、没呼吸。但MiMo-V2-TTS不一样。它能在一个句子里，从平静转为激动，从温柔突然带点调侃，就像真人说话时那种不经意的情绪变化。你跟它说“我真的好累啊……”，它会轻轻叹气；说“太棒了！”，它会带着笑意往上扬。不是靠预设模板，而是真正在“理解”语气。

更让人意外的是，它还能唱歌。不是简单地把音调拉高，而是能控制音高、节奏、气声、颤音，连民谣里那种“气声拖尾”、流行歌里的“转音”都能还原。测试视频里，它用粤语唱了一段陈奕迅的《十年》，尾音的颤抖和气息的收放，连不少乐迷都以为是原唱剪辑。

这套系统背后，是小米用上亿小时的真实语音训练出来的。这些数据来自全国各地的普通人——东北大妈唠嗑、四川大爷讲笑话、广东阿婆买菜砍价、台湾年轻人说“齁～好喔”。模型学会了这些方言的语调、节奏、口头禅，甚至“嗯”“啊”“那个”这些语气词该怎么自然地嵌进去。你不用手动标注标点，它自己就知道“！”该大声，“……”该慢下来。

方言不说“普通话”，它听得懂你老家的口音

很多人用语音助手，最烦的就是——你一说方言，它就懵。但MiMo-V2-TTS支持东北话、四川话、河南话、粤语、台湾腔，甚至能模仿不同年龄、性别的人说话风格。你让它用“东北老铁”语气说“这车真带劲”，它会给你整出一句“哎哟喂，这车真牛逼，嘎嘎好使！”；换成四川话，它就变成：“这个车巴适得板，安逸得很哦！”

这不是简单的语音替换。它理解的是语境和情绪。比如在四川话里，“你莫慌”不是“你别急”，而是带着安慰和笃定的语气；在粤语里，“唔该”不是“谢谢”，是轻声的礼貌和人情味。这些细节，模型都学到了。

小米还做了个实测：让模型用河南话念一段“俺家的玉米收了，今年收成好，能卖个好价钱”，结果语音里那种朴实的自豪感，让不少河南网友直呼：“像我二姨说的。”

不只是语音，是“有性格”的声音

未来，MiMo-V2-TTS会和小米的多模态大模型MiMo-V2-Omni打通。这意味着，你的智能车、智能音箱，不再只是“回答问题”，而是能“感知你的情绪”。

比如，晚上开车，你叹了一口气，系统不是机械地问“需要播放音乐吗？”，而是轻声说：“今天挺累的吧？我放首老歌给你听，别开太快。”——声音里带着一点关切，像朋友一样。

在智能家居场景，它能记住你家老人喜欢用“慢悠悠”的语调说话，孩子喜欢“活泼跳跃”的节奏，自动切换风格。老人说“灯亮了”，它不会“叮”地一声回应，而是用温和的、带点回响的声音说：“好嘞，灯亮了啊。”

这不是冷冰冰的AI，是越来越像“懂你”的家人。

语音合成方言支持多模态交互 Xiaomi MiMo-V2-TTS

CB科技站

小米发布自研MiMo-V2-TTS大模型，支持多方言与情感精准合成

小米自研语音大模型MiMo-V2-TTS发布：说话像人，唱歌也像真歌手

方言不说“普通话”，它听得懂你老家的口音

不只是语音，是“有性格”的声音

与本文相关的文章