法国AI初创公司Mistral AI本周发布了首个轻量级文本转语音(text-to-speech)语音合成模型Voxtral TTS,可生成9种自然语音,为企业提供低成本的语音生成解决方案。
Voxtral TTS基于Ministral 3B开发,采用Transformer架构的自回归流匹配(autoregressive, flow-matching)模型,可接受5至25秒的语音提示和9种语言的文本提示。Mistral AI指出,尽管Voxtral TTS仅有30亿参数,但在自然语音生成的关键能力上表现优异,包括对语境的理解(如语气中性、愉快或讽刺)以及说话者建模(捕捉说话者自然的发声特征),其语音适应能力还能精准还原说话者的个性特征,如自然停顿、韵律、语调和声音表情等。
目前支持的9种语言包括英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、北印度语和阿拉伯语,并可适配多种方言。Mistral AI强调,即使面对外语,该模型仅需3秒的声音样本即可模仿真人,不仅复刻音色本质,还能精准还原细微的口音、情绪起伏和语调变化。
该公司称,Voxtral TTS满足语音代理对低延迟和高音质的要求。在与竞争对手ElevenLabs Flash v2.5的对比测试中,在相同TTFA(首次音频输出时间)条件下,Voxtral TTS生成的语音更自然,对话情绪表达能力接近更高阶的Flash v3版本。在另一项零样本模仿多语言方言的真人语音评估中,Voxtral TTS在语音自然度、方言口音相似度和模仿准确度上均大幅领先对手。

Voxtral TTS可与Mistral的语音转文本模型Voxtral Transcribe协同使用,也可集成至企业现有的语音转文本(speech-to-text)和大语言模型堆栈中,以支持各类企业语音应用场景。
目前Mistral AI公开的资源包括具有固定音色的开源权重模型,以及未开源的专属模型,但均提供声音定制功能(即能模仿任意声音)。开源模型可在Hugging Face获取,如需完整体验Voxtral TTS,需访问该公司AI Studio平台。
目前多家AI企业已推出企业级语音生成方案,包括ElevenLabs、Google Cloud的Chirp 3、OpenAI的GPT-4o mini TTS等。