最新消息:关注人工智能 AI赋能新媒体运营

小米发布MiMo-V2.5:一句话生成音色,开源ASR支持方言与多语混说

科技资讯 admin 浏览

小米发布全新语音系统:让AI说话,像真人一样有情绪

你有没有想过,未来的AI助手不只是回答问题,还能用你熟悉的声音、带着情绪、像朋友一样和你聊天?今天,小米正式推出MiMo-V2.5全链路语音系统——不只是能听懂你说话,更懂得怎么“说”得让人舒服、有代入感。

这次发布的不只是技术升级,而是一整套“会演戏”的语音工具。三款TTS(语音合成)模型 + 一款开源ASR(语音识别)模型,覆盖从你开口问,到AI回应的全过程。关键是,它不再像过去那样机械念稿,而是能根据你的描述,调整语气、节奏、情绪,甚至模仿真实的人声。

image.png

声音也能“导演”:一句话,AI就能演一场戏

过去做语音合成,得调一堆参数:语速、音高、停顿、情感强度……普通人根本搞不定。现在,小米的新模型让你像跟演员说戏一样说话。

比如你对它说:“用温柔但坚定的语气,语速慢一点,听起来有点累,像是刚加完班的妈妈在哄孩子睡觉。”——它真的能录出那种感觉,不是“标准播音腔”,而是有呼吸、有情绪、有生活痕迹的声音。

更厉害的是,你不用找专业配音员,也能自己“造声音”。

  • MiMo-V2.5-TTS-VoiceDesign:你只要说“一个30岁、知性、带点南方口音、适合讲财经的女声”,系统就能生成一个全新的、独一无二的声音。以后你家的智能音箱,可能就是你闺蜜的声音。
  • MiMo-V2.5-TTS-VoiceClone:只需要30秒你自己的录音,它就能学会你的语调、口音、停顿习惯。哪怕你说话带点鼻音、偶尔结巴,它都保留。适合做个人语音助手、给逝去亲人留一句“语音留言”,或者为短视频博主定制专属配音。

如果你在做有声剧、游戏NPC,或者直播虚拟主播,这套系统还支持“分层剧本”:你可以分别设定角色身份(比如“一个傲娇的机器人”)、场景氛围(“深夜,雨声淅沥”)、每句话的表演细节(“这句话要压低声音,带点犹豫”)。这些设定可以独立修改,但合成后却浑然一体——角色不会突然变声,情绪也不会断层。

连标点它都懂。你写“我真没想到……你居然来了?”它能自动读出那种惊讶和迟疑的停顿。不需要你加任何标签,它自己就能判断哪里该轻、哪里该重、哪里该停。

听得清,才是真智能:方言、混语、嘈杂环境,统统拿下

再好的声音,如果听不清你说什么,也是白搭。同步开源的MiMo-V2.5-ASR,就是为“真实世界”设计的耳朵。

它不只听得懂普通话。吴语、粤语、闽南语、四川话,都能准确转写。你跟爸妈用方言聊天,AI也能一字不漏记下来。

更实用的是——它不怕乱。

  • 开会时三个人同时说话,它能分开识别;
  • 在地铁站、厨房、车里这种嘈杂环境,照样听得清;
  • 你一边说英文一边夹中文,它不卡壳,自动切换;
  • 连古诗、专业术语、甚至带伴奏的歌词,它都能准确转成文字。

转写结果自带标点,直接能复制进文档、发微信、做字幕——不用再手动加逗号句号。这背后是小米团队用数万小时真实场景语音训练的结果,不是实验室里的“干净录音”。

在多个公开评测中,它的方言识别准确率超过92%,中英混说表现位列全球前三。不是宣传语,是实测数据。

免费用,开源了,开发者能做什么?

现在,三款TTS模型已在小米MiMo开放平台限时免费开放,开发者通过API或MiMo Studio,几分钟就能接入。不用交钱,不用申请,注册就能用。

而ASR模型——全部代码和权重,**完全开源**,放在GitHub上,谁都能下载、改、用、商用。没有隐藏条款,没有限制用途。

这意味着什么?

  • 你能为自家老人定制一个用家乡话唠嗑的AI助手;
  • 独立游戏开发者不用花几万块请配音团队,AI就能生成几十个性格迥异的NPC声音;
  • 播客创作者一键生成不同风格的旁白,节省录制时间;
  • 甚至,你能在手机App里,让AI用你奶奶的声音,读一段你小时候她常念的童谣。

这不是科幻。小米这次,把过去只属于专业录音棚、高价语音服务商的能力,放到了普通人和开发者手里。

当AI不再只是“回答问题的工具”,而能用你熟悉的声音、带着情绪、像人一样说话——人机交互,才真正从“功能响应”,走向了“情感连接”。

未来,你的AI助手可能不是最聪明的那个,但它可能是最懂你、最让你安心的那个——用你最爱的声音,说你想听的话。