最新消息:关注人工智能 AI赋能新媒体运营

Mistral发布Voxtral Transcribe 2系列模型,实时语音转文字延迟可低至200毫秒

科技资讯 admin 浏览

法国人工智能初创公司Mistral推出语音转文字模型家族Voxtral Transcribe 2,聚焦会议逐字稿、客服通话与实时语音交互等场景。该系列新增实时模型Voxtral Realtime,官方表示转录延迟可设置在200毫秒以下。同时,批处理模型Voxtral Mini Transcribe V2增加了说话人分离与词级时间戳等功能,强化了会议与多方通话的整理需求。

Voxtral Transcribe 2包含两个模型:Voxtral Mini Transcribe V2用于批处理转录,适合一次性处理大量录音文件;Voxtral Realtime则面向直播字幕、语音助手等实时场景。Mistral同时以Apache 2.0许可证开源Voxtral Realtime的权重,企业可选择在自有环境或边缘设备上部署。两款模型均支持包括中文在内的13种语言。

Voxtral Realtime采用原生流式架构,可在音频到达时同步生成文字,而非将录音切片后逐段处理。官方表示延迟可根据需求灵活调整,开发者可在响应速度与转录准确率之间权衡,使实时交互更贴近自然对话节奏。

批处理模型Voxtral Mini Transcribe V2提供说话人分离功能,可输出说话人标签与每段发言的时间点,便于会议记录整理与多方通话分析。上下文偏置(Context Biasing)功能允许用户输入最多100个词语或短语,引导模型更精准识别人名与专业术语。词级时间戳则让每个词语与音频位置精确对应,方便字幕校对与内容对齐。Mistral提醒,在多人同时发言时,模型通常会以其中一位说话人为主进行转录。

Mistral引用FLEURS语音转录基准测试的词错误率,并以多个数据集的说话人分离错误率作为比较指标,涵盖多个英文数据集与TalkBank多语数据集。官方表示,Voxtral Mini Transcribe V2在FLEURS上的词错误率约为4%,API定价为每分钟0.003美元,称其转录准确率优于GPT-4o Mini Transcribe、Gemini 2.5 Flash、Assembly Universal与Deepgram Nova等服务。Mistral还提到,Voxtral Mini Transcribe V2的处理速度约为ElevenLabs Scribe v2的3倍,且在质量相近的前提下,成本约为其五分之一。

Mistral在Mistral Studio中新增了音频试玩平台(Playground),提供上传文件后即时查看转录结果的界面,可切换说话人分离与时间戳粒度,并支持添加上下文偏置词。平台一次最多可上传10个音频文件,支持常见音频格式,单文件上限为1 GB,便于团队使用自有数据快速评估效果。