小米发布MiMo-V2.5：一句话生成音色，开源ASR支持方言与多语混说

小米发布全新语音系统：让AI说话，像真人一样有情绪

你有没有想过，未来的AI助手不只是回答问题，还能用你熟悉的声音、带着情绪、像朋友一样和你聊天？今天，小米正式推出MiMo-V2.5全链路语音系统——不只是能听懂你说话，更懂得怎么“说”得让人舒服、有代入感。

这次发布的不只是技术升级，而是一整套“会演戏”的语音工具。三款TTS（语音合成）模型 + 一款开源ASR（语音识别）模型，覆盖从你开口问，到AI回应的全过程。关键是，它不再像过去那样机械念稿，而是能根据你的描述，调整语气、节奏、情绪，甚至模仿真实的人声。

过去做语音合成，得调一堆参数：语速、音高、停顿、情感强度……普通人根本搞不定。现在，小米的新模型让你像跟演员说戏一样说话。

比如你对它说：“用温柔但坚定的语气，语速慢一点，听起来有点累，像是刚加完班的妈妈在哄孩子睡觉。”——它真的能录出那种感觉，不是“标准播音腔”，而是有呼吸、有情绪、有生活痕迹的声音。

更厉害的是，你不用找专业配音员，也能自己“造声音”。

MiMo-V2.5-TTS-VoiceDesign：你只要说“一个30岁、知性、带点南方口音、适合讲财经的女声”，系统就能生成一个全新的、独一无二的声音。以后你家的智能音箱，可能就是你闺蜜的声音。
MiMo-V2.5-TTS-VoiceClone：只需要30秒你自己的录音，它就能学会你的语调、口音、停顿习惯。哪怕你说话带点鼻音、偶尔结巴，它都保留。适合做个人语音助手、给逝去亲人留一句“语音留言”，或者为短视频博主定制专属配音。

如果你在做有声剧、游戏NPC，或者直播虚拟主播，这套系统还支持“分层剧本”：你可以分别设定角色身份（比如“一个傲娇的机器人”）、场景氛围（“深夜，雨声淅沥”）、每句话的表演细节（“这句话要压低声音，带点犹豫”）。这些设定可以独立修改，但合成后却浑然一体——角色不会突然变声，情绪也不会断层。

连标点它都懂。你写“我真没想到……你居然来了？”它能自动读出那种惊讶和迟疑的停顿。不需要你加任何标签，它自己就能判断哪里该轻、哪里该重、哪里该停。

再好的声音，如果听不清你说什么，也是白搭。同步开源的MiMo-V2.5-ASR，就是为“真实世界”设计的耳朵。

它不只听得懂普通话。吴语、粤语、闽南语、四川话，都能准确转写。你跟爸妈用方言聊天，AI也能一字不漏记下来。

更实用的是——它不怕乱。

转写结果自带标点，直接能复制进文档、发微信、做字幕——不用再手动加逗号句号。这背后是小米团队用数万小时真实场景语音训练的结果，不是实验室里的“干净录音”。

在多个公开评测中，它的方言识别准确率超过92%，中英混说表现位列全球前三。不是宣传语，是实测数据。

现在，三款TTS模型已在小米MiMo开放平台限时免费开放，开发者通过API或MiMo Studio，几分钟就能接入。不用交钱，不用申请，注册就能用。

而ASR模型——全部代码和权重，**完全开源**，放在GitHub上，谁都能下载、改、用、商用。没有隐藏条款，没有限制用途。

这意味着什么？

这不是科幻。小米这次，把过去只属于专业录音棚、高价语音服务商的能力，放到了普通人和开发者手里。

当AI不再只是“回答问题的工具”，而能用你熟悉的声音、带着情绪、像人一样说话——人机交互，才真正从“功能响应”，走向了“情感连接”。

未来，你的AI助手可能不是最聪明的那个，但它可能是最懂你、最让你安心的那个——用你最爱的声音，说你想听的话。