最新消息:关注人工智能 AI赋能新媒体运营

小米发布MiMo-V2-TTS:精准还原方言与情感的智能语音大模型

科技资讯 admin 浏览

小米全新语音大模型 MiMo-V2-TTS:让机器说话,像真人一样有温度

3月19日,小米正式发布自研语音合成大模型 MiMo-V2-TTS。这不是一个简单的“文字转语音”工具,而是一个能说、能唱、能演、还能说方言的“数字声优”。它不再机械地念稿子,而是像朋友一样,有情绪、有节奏、有呼吸。

image.png

一句话里,能笑能哭

过去,语音合成听起来总像机器人念说明书——平、直、没起伏。MiMo-V2-TTS 改变了这一点。它能在一个句子里,从温柔劝慰突然转成惊喜大笑,再轻轻叹一口气。比如你说:“今天加班到十点……但终于把报告写完了。” 它会自然地在“十点”时语气低沉,在“写完了”时微微上扬,甚至带一点如释重负的停顿。这不是预设的脚本,而是模型自己“听懂”了语义后,做出的自然表达。

不只说话,还能唱歌

你可能没想到,这个模型还能唱歌。测试视频里,它用清澈的女声唱了一段《平凡之路》,音准稳定,气口自然,尾音收得恰到好处,没有AI常见的“电子感”或“机械抖动”。这不是简单的音高拼接,而是真正理解了旋律的情绪走向。有人试过让它模仿周杰伦的咬字、邓紫棋的气声,结果都出人意料地贴近。小米内部测试显示,其歌声合成质量已接近专业录音棚的初级水平。

方言不说“普通话版”,直接说老家话

东北人说“整点饭”,四川人说“巴适得板”,粤语说“饮茶先”,台湾腔说“超赞的”——MiMo-V2-TTS 全都懂。它不是简单地替换几个词,而是还原了方言的语调、节奏、甚至口头禅。一位广东用户测试后说:“它说‘唔该’时那个尾音,和我妈一模一样。” 目前已支持东北话、四川话、河南话、粤语、台湾国语等主流方言,后续还会加入闽南语、客家话等更多地方口音。

你打字,它自动“演”出来

不用再手动加【停顿】、【重音】、【感叹】这些标签了。你写:“真的吗?太好了!”——它会自然拉长“吗”字,提高“太”字音调,结尾带点跳跃感。你写:“……算了,不说了。”——它会放慢语速,中间留出半秒沉默,像真的在叹气。这套能力来自模型对标点、语气词、甚至省略号的深度理解,不是靠规则,而是靠“听”了上亿小时真实对话学来的。

不只是手机,是家里那个会说话的伙伴

小米未来不会只把这技术用在手机上。智能音箱、车载系统、电视、手表、甚至扫地机器人,都会慢慢“开口说话”。想象一下:晚上你回家,智能音箱轻声说:“你今天回来晚了,饭在锅里热着,我给你调了首歌。”——不是冷冰冰的提示音,而是像家人一样,带着关心的语气。

更值得期待的是,MiMo-V2-TTS 将与小米自研的多模态大模型 MiMo-V2-Omni 深度结合。未来,你的小爱同学不仅能听懂你说“我有点累”,还能结合你今天的情绪、天气、作息,轻声说:“今天你加班到很晚吧?要不要我放点轻音乐,陪你坐一会儿?”

这不是技术秀,是人机关系的重启

我们早就不满足于“能听懂”的AI了。我们想要的是“能懂你”的声音。MiMo-V2-TTS 的意义,不在于它用了多少参数、训练了多少数据,而在于它终于让机器的声音,有了人的温度。

当一个设备不再只是执行指令,而是能用你熟悉的方式、带着你熟悉的语气和你对话时,科技才真正回到了人本身。