微软发布全新语音转写模型 MAI-Transcribe-1,准确率碾压行业对手
微软近日正式推出其自研的语音转文字模型 MAI-Transcribe-1,这款模型在25种语言上的平均词错误率(WER)低至3.9%,成为目前全球公开测试中准确率最高的语音转写系统。无论是英语、法语、德语等主流语言,还是印尼语、斯瓦希里语等小语种,MAI-Transcribe-1 都在FLEURS权威基准测试中稳居榜首,尤其在11种“核心语言”中的表现,明显优于OpenAI的Whisper-large-v3和Google的Gemini 3.1 Flash。

真实场景表现:会议、采访、播客都能轻松应对
不少企业用户早就对现有语音转写工具的错误率头疼——会议录音里“budget”被听成“buddha”,采访中的专业术语全被乱转,最后还得人工逐字校对。MAI-Transcribe-1 的出现,让这些麻烦大幅减少。在内部测试中,它对带有口音、背景噪音、多人交叉发言的录音,识别准确率提升显著。一位硅谷科技公司的产品经理反馈:“我们用它转录了30小时的全球团队会议,错误率比之前用的工具低了近40%,省下的人工校对时间,够我们多开两场产品会。”
速度翻倍,成本更低,企业直接省下真金白银
除了准,它还快。在批量处理任务中,MAI-Transcribe-1 的转写速度是微软现有Azure Fast语音服务的2.5倍,这意味着企业处理大量音频文件时,等待时间从几小时缩短到几十分钟。更关键的是,它的定价只有每小时0.36美元——比OpenAI的Whisper API便宜近30%,也低于Google Cloud Speech-to-Text的同类服务。对于需要高频使用语音转写的企业,比如媒体公司、法律机构、客服中心,这笔成本节省一年下来可能超过数万美元。
已上线微软Foundry平台,开发者可立即调用
目前,MAI-Transcribe-1 已通过 Microsoft Foundry 平台向全球开发者和企业开放,支持API调用,文档齐全,接入简单。微软同时将旗下 MAI-Voice-1(语音合成)和 MAI-Image-2(图像生成)也一并接入Foundry,形成“语音+图像+文本”一体化的AI工具包。这意味着你不再需要在不同平台之间切换,一个账号就能完成从录音转文字、生成语音播报、再到配图生成的全流程。
未来功能正在路上:实时转写、说话人分离即将上线
当前版本还不支持实时转写或自动区分不同说话人,但微软已明确表示,这两个被企业用户呼声最高的功能,将在未来3–6个月内推出。有内部消息透露,实时模式将优先面向Teams会议集成,未来你开线上会议时,系统可能自动在后台生成带发言人标记的逐字记录,无需额外插件。
为什么这次不一样?
过去几年,语音识别技术进步缓慢,主流模型的错误率基本卡在5%–7%之间。MAI-Transcribe-1 能把平均错误率压到3.9%,靠的是微软在语音数据和模型架构上的长期投入——他们用了超过50万小时的多语言语音数据进行训练,覆盖了从城市会议到乡村访谈的多种真实语境,而不是只依赖“干净录音”。这背后不是算法炫技,而是真正为现实场景优化的结果。
对普通用户来说,它可能不会立刻改变你的生活;但对每天要处理几十小时录音的团队而言,这可能是今年最值得升级的AI工具之一。