最新消息:关注人工智能 AI赋能新媒体运营

小米发布自研MiMo-V2-TTS大模型,支持多方言与情感精准合成

科技资讯 admin 浏览

小米自研语音大模型MiMo-V2-TTS发布:说话像人,唱歌也像真歌手

小米今天正式发布了自家的语音合成大模型——MiMo-V2-TTS。这不是又一个“AI语音助手”的噱头,而是一次实实在在的突破:它能让机器说话时,有停顿、有情绪、有起伏,甚至能唱出带感情的歌。

过去我们听到的语音合成,听起来总像机器人念稿——平、直、没呼吸。但MiMo-V2-TTS不一样。它能在一个句子里,从平静转为激动,从温柔突然带点调侃,就像真人说话时那种不经意的情绪变化。你跟它说“我真的好累啊……”,它会轻轻叹气;说“太棒了!”,它会带着笑意往上扬。不是靠预设模板,而是真正在“理解”语气。

更让人意外的是,它还能唱歌。不是简单地把音调拉高,而是能控制音高、节奏、气声、颤音,连民谣里那种“气声拖尾”、流行歌里的“转音”都能还原。测试视频里,它用粤语唱了一段陈奕迅的《十年》,尾音的颤抖和气息的收放,连不少乐迷都以为是原唱剪辑。

这套系统背后,是小米用上亿小时的真实语音训练出来的。这些数据来自全国各地的普通人——东北大妈唠嗑、四川大爷讲笑话、广东阿婆买菜砍价、台湾年轻人说“齁~好喔”。模型学会了这些方言的语调、节奏、口头禅,甚至“嗯”“啊”“那个”这些语气词该怎么自然地嵌进去。你不用手动标注标点,它自己就知道“!”该大声,“……”该慢下来。

方言不说“普通话”,它听得懂你老家的口音

很多人用语音助手,最烦的就是——你一说方言,它就懵。但MiMo-V2-TTS支持东北话、四川话、河南话、粤语、台湾腔,甚至能模仿不同年龄、性别的人说话风格。你让它用“东北老铁”语气说“这车真带劲”,它会给你整出一句“哎哟喂,这车真牛逼,嘎嘎好使!”;换成四川话,它就变成:“这个车巴适得板,安逸得很哦!”

这不是简单的语音替换。它理解的是语境和情绪。比如在四川话里,“你莫慌”不是“你别急”,而是带着安慰和笃定的语气;在粤语里,“唔该”不是“谢谢”,是轻声的礼貌和人情味。这些细节,模型都学到了。

小米还做了个实测:让模型用河南话念一段“俺家的玉米收了,今年收成好,能卖个好价钱”,结果语音里那种朴实的自豪感,让不少河南网友直呼:“像我二姨说的。”

不只是语音,是“有性格”的声音

未来,MiMo-V2-TTS会和小米的多模态大模型MiMo-V2-Omni打通。这意味着,你的智能车、智能音箱,不再只是“回答问题”,而是能“感知你的情绪”。

比如,晚上开车,你叹了一口气,系统不是机械地问“需要播放音乐吗?”,而是轻声说:“今天挺累的吧?我放首老歌给你听,别开太快。”——声音里带着一点关切,像朋友一样。

在智能家居场景,它能记住你家老人喜欢用“慢悠悠”的语调说话,孩子喜欢“活泼跳跃”的节奏,自动切换风格。老人说“灯亮了”,它不会“叮”地一声回应,而是用温和的、带点回响的声音说:“好嘞,灯亮了啊。”

这不是冷冰冰的AI,是越来越像“懂你”的家人。

00750fiJly1ibbls9aowuj320ncn2qvi.jpg