Mistral AI 推出全新语音转文字模型:快到几乎无延迟,便宜到让开发者惊喜
法国人工智能公司 Mistral AI 最近发布了两款全新的语音转文字模型:Voxtral Realtime 和 Voxtral Mini Transcribe V2。这两款产品不是为了炫技,而是为了解决一个所有人都在抱怨的问题——语音转文字太慢、太贵。

实时转录:200毫秒内出结果,连说话的间隙都来不及喘气
最让人眼前一亮的是 Voxtral Realtime。这不是传统意义上“说完一段再转”的模式,而是你一开口,文字就跟着冒出来。官方实测延迟低于200毫秒——也就是你刚说完一个词,屏幕上已经出现了字。这在视频会议、在线客服、同声传译这些场景里,体验完全不同。
以前用别的工具,你说话后要等半秒、一秒,甚至更久,系统才开始输出文字,听起来像卡顿的直播。现在用这个,就像在和真人对话,完全没延迟。不少测试者反馈,用它开线上会议时,连“呃”“啊”这种语气词都能实时捕捉,字幕流畅得像自带字幕的YouTube视频。
更关键的是,Mistral AI 把这个模型的权重完全开源了,用的是 Apache 2.0 协议。这意味着你不仅可以调用他们的 API,还能自己部署到本地服务器、边缘设备,甚至嵌入到手机App里。不需要交一分钱授权费,也不用担心被“绑定”在某个云平台。对开发者来说,这几乎是今年最慷慨的开源动作之一。
批量处理:3小时录音一次搞定,价格比GPT-4o还低一半
如果你不是要做实时对话,而是想把一整天的会议录音、访谈、课程内容批量转成文字,那 Voxtral Mini Transcribe V2 就是为你准备的。
它支持单次处理长达3小时的音频文件,不用分段上传,也不用担心中间断开。准确率方面,Mistral 官方对比了 GPT-4o mini 和 Gemini 2.5 Flash,结果显示它在中文、英文等主要语言上的转写错误率更低。实际测试中,面对带口音的普通话、背景有空调声的办公室录音,它的识别稳定性和标点准确性都明显优于竞品。
价格呢?每分钟只要 0.003 美元。换算一下,1小时的录音成本不到 0.18 美元(约1.3元人民币)。对比市面上动辄每分钟0.01美元甚至更高的服务,这简直是“白菜价”。连一些个人创作者、自媒体博主都在问:“这真的不是内测价?”
支持13种语言,中文表现特别稳
两款模型都原生支持13种语言,包括中文、英文、法语、西班牙语、德语、日语、韩语、俄语、阿拉伯语、葡萄牙语、意大利语、荷兰语和印地语。特别值得一提的是中文识别——无论是带方言口音的普通话,还是快速连读的口语表达,模型表现都相当扎实。很多用户反馈,它比某些国际大厂的产品更懂“中国式说话节奏”。
比如在处理“我昨天去超市买了三斤苹果”这种日常口语时,其他模型常误听成“我昨天去超市买了三斤平果”,而 Voxtral Mini 几乎零错误。
谁该用它?
如果你是:
- 做在线教育的老师,想把录播课自动转成讲义
- 做播客或短视频的创作者,头疼字幕剪辑
- 做客服系统或语音助手的产品经理,想提升响应速度
- 需要处理大量会议录音的团队,想省下外包转录的钱
- 想自己部署语音识别模型,又不想被大厂API绑架的开发者
那这两款模型,值得你现在就去试试。
官网已经开放试用,开源模型可在 Hugging Face 下载,API 也支持按量付费,没有最低消费。没有“免费试用7天后自动扣费”的套路,也没有隐藏条款。就一句话:你用多少,付多少。
在这个动不动就“闭源”“订阅制”“生态锁定”的时代,Mistral AI 这次的打法,反而让人觉得踏实。