Mistral发布Voxtral Transcribe 2系列模型，实时语音转文字延迟可低至200毫秒

法国人工智能初创公司Mistral推出语音转文字模型家族Voxtral Transcribe 2，聚焦会议逐字稿、客服通话与实时语音交互等场景。该系列新增实时模型Voxtral Realtime，官方表示转录延迟可设置在200毫秒以下。同时，批处理模型Voxtral Mini Transcribe V2增加了说话人分离与词级时间戳等功能，强化了会议与多方通话的整理需求。

Voxtral Transcribe 2包含两个模型：Voxtral Mini Transcribe V2用于批处理转录，适合一次性处理大量录音文件；Voxtral Realtime则面向直播字幕、语音助手等实时场景。Mistral同时以Apache 2.0许可证开源Voxtral Realtime的权重，企业可选择在自有环境或边缘设备上部署。两款模型均支持包括中文在内的13种语言。

Voxtral Realtime采用原生流式架构，可在音频到达时同步生成文字，而非将录音切片后逐段处理。官方表示延迟可根据需求灵活调整，开发者可在响应速度与转录准确率之间权衡，使实时交互更贴近自然对话节奏。

批处理模型Voxtral Mini Transcribe V2提供说话人分离功能，可输出说话人标签与每段发言的时间点，便于会议记录整理与多方通话分析。上下文偏置（Context Biasing）功能允许用户输入最多100个词语或短语，引导模型更精准识别人名与专业术语。词级时间戳则让每个词语与音频位置精确对应，方便字幕校对与内容对齐。Mistral提醒，在多人同时发言时，模型通常会以其中一位说话人为主进行转录。

Mistral引用FLEURS语音转录基准测试的词错误率，并以多个数据集的说话人分离错误率作为比较指标，涵盖多个英文数据集与TalkBank多语数据集。官方表示，Voxtral Mini Transcribe V2在FLEURS上的词错误率约为4%，API定价为每分钟0.003美元，称其转录准确率优于GPT-4o Mini Transcribe、Gemini 2.5 Flash、Assembly Universal与Deepgram Nova等服务。Mistral还提到，Voxtral Mini Transcribe V2的处理速度约为ElevenLabs Scribe v2的3倍，且在质量相近的前提下，成本约为其五分之一。

Mistral在Mistral Studio中新增了音频试玩平台（Playground），提供上传文件后即时查看转录结果的界面，可切换说话人分离与时间戳粒度，并支持添加上下文偏置词。平台一次最多可上传10个音频文件，支持常见音频格式，单文件上限为1 GB，便于团队使用自有数据快速评估效果。

Mistral 低延迟语音转文字 Voxtral Transcribe 2

CB科技站

Mistral发布Voxtral Transcribe 2系列模型，实时语音转文字延迟可低至200毫秒

与本文相关的文章