Mistral AI 推出两款新语音转文字模型,速度、隐私与价格全都要
法国AI公司Mistral AI刚刚发布了两款全新的语音转文字工具:Voxtral Realtime 和 Voxtral Mini Transcribe V2。这两款产品不是实验室里的概念演示,而是直接面向企业用户、开发者和隐私敏感型客户的实用工具——快、便宜、还能跑在你自己的电脑上。
过去,高质量的语音转文字要么贵得离谱,要么必须把录音上传到云端,让人心里没底。现在,Mistral AI 用两个模型,把这三件事一次性解决了:实时转录不卡顿、批量处理更精准、价格低到让你怀疑是不是写错了。

实时转录:延迟200毫秒,手机也能跑
Voxtral Realtime 是为直播、电话客服、会议录音这类“边说边转”场景设计的。它能在你说话后不到四分之一秒就显示文字——200毫秒的延迟,比人类反应还快。即使你把延迟放宽到480毫秒(更稳定),它的准确率也和离线处理的顶级模型不相上下,词错率控制在1%-2%之间。
最让人意外的是,这个模型只有40亿参数,体积小到能在iPhone、MacBook或者普通Windows笔记本上本地运行。不需要上传音频到服务器,录音内容完全留在你设备里。对律师、记者、医疗从业者或任何处理敏感对话的人来说,这不再是“加分项”,而是刚需。
它已经在Hugging Face开源,使用Apache 2.0协议,免费商用。API价格只要每分钟0.006美元——换算下来,一小时不到4美分。如果你是开发者,可以直接集成进自己的App;如果是中小企业,连API都省了,自己部署一个本地服务,成本几乎可以忽略。
批量转录:3小时长录音,每分钟3美分
如果你手头有一堆会议录音、访谈音频、客服通话记录,Voxtral Mini Transcribe V2 就是你的省钱神器。它专为批量处理设计,单次能处理长达3小时的音频,自动识别谁在什么时候说话,还能打上精确到毫秒的时间戳。
在权威的FLEURS语音识别测试中,它的词错率(WER)表现优于多数商业方案。更关键的是,API定价只有每分钟0.003美元——比Google Cloud Speech-to-Text便宜近80%,比AWS Transcribe低70%以上。不少用户在测试后反馈:“以前录一小时得花十几块,现在只要不到两毛钱。”
这套模型特别适合呼叫中心、法律事务所、学术研究团队和内容创作者。你不需要买昂贵的软件,也不用雇佣人工听写,只需上传文件,几秒后就能拿到带说话人标签的完整文本,直接复制进Word或Notion就行。
13种语言,中文支持扎实
两款模型原生支持13种语言,包括中文、英语、法语、日语、德语、西班牙语、意大利语、葡萄牙语、俄语、阿拉伯语、荷兰语、瑞典语和韩语。中文支持不是“能用”级别,而是经过大量普通话、粤语和带口音的口语数据训练,对数字、地名、行业术语的识别准确率明显优于同类产品。
不少用户在测试中发现,它对“微信”“支付宝”“PPT”“OKR”这类中英混杂词的识别非常自然,不像某些模型总把“PPT”听成“PPT的”或者“PPT儿”。
现在就能试,不用等
你不需要申请内测,也不用等审批。现在就可以去 Mistral AI 的 Audio Playground 或 Le Chat 助手,直接上传一段音频,马上看到转写结果。无论是你录的一段访谈,还是一段会议录音,都可以免费试用几次。
如果你是开发者,GitHub 上已经开放了模型权重和推理代码;如果你是企业采购,Mistral AI 提供了按量付费的API,没有最低消费,没有订阅费,用多少付多少。
这不再是“AI公司发了个新模型”的新闻,而是一次真正的行业平权:高质量语音转文字,终于不再只是大厂的专利。普通人、小团队、隐私敏感行业,现在都能用上又快又便宜、还不用交出数据的工具。