Mistral AI 开源文本转语音模型 Voxtral TTS

法国AI初创公司Mistral AI本周发布了首个轻量级文本转语音（text-to-speech）语音合成模型Voxtral TTS，可生成9种自然语音，为企业提供低成本的语音生成解决方案。

Voxtral TTS基于Ministral 3B开发，采用Transformer架构的自回归流匹配（autoregressive, flow-matching）模型，可接受5至25秒的语音提示和9种语言的文本提示。Mistral AI指出，尽管Voxtral TTS仅有30亿参数，但在自然语音生成的关键能力上表现优异，包括对语境的理解（如语气中性、愉快或讽刺）以及说话者建模（捕捉说话者自然的发声特征），其语音适应能力还能精准还原说话者的个性特征，如自然停顿、韵律、语调和声音表情等。

目前支持的9种语言包括英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、北印度语和阿拉伯语，并可适配多种方言。Mistral AI强调，即使面对外语，该模型仅需3秒的声音样本即可模仿真人，不仅复刻音色本质，还能精准还原细微的口音、情绪起伏和语调变化。

该公司称，Voxtral TTS满足语音代理对低延迟和高音质的要求。在与竞争对手ElevenLabs Flash v2.5的对比测试中，在相同TTFA（首次音频输出时间）条件下，Voxtral TTS生成的语音更自然，对话情绪表达能力接近更高阶的Flash v3版本。在另一项零样本模仿多语言方言的真人语音评估中，Voxtral TTS在语音自然度、方言口音相似度和模仿准确度上均大幅领先对手。

Voxtral TTS可与Mistral的语音转文本模型Voxtral Transcribe协同使用，也可集成至企业现有的语音转文本（speech-to-text）和大语言模型堆栈中，以支持各类企业语音应用场景。

目前Mistral AI公开的资源包括具有固定音色的开源权重模型，以及未开源的专属模型，但均提供声音定制功能（即能模仿任意声音）。开源模型可在Hugging Face获取，如需完整体验Voxtral TTS，需访问该公司AI Studio平台。

目前多家AI企业已推出企业级语音生成方案，包括ElevenLabs、Google Cloud的Chirp 3、OpenAI的GPT-4o mini TTS等。

CB科技站

Mistral AI 开源文本转语音模型 Voxtral TTS

与本文相关的文章