Nari Labs开源具备16亿参数的文字转语音模型Dia

图片来源／Toby Kim

由两名南韩青年创立的Nari Labs本周二（4/22）透过GitHub及Hugging Face，开源了具备16亿参数的文字转语音模型Dia，宣称它不仅与Google NotebookLM播客的品质相当，甚至超越了ElevenLabs Studio与Sesame的开源模型。Dia发布48小时便在GitHub上获得超过7,800颗星星，并成为Hugging Face上最受欢迎的模型。

Nari Labs创办者之一的Toby Kim于X上分享了他们的心路历程，这是一个只有1.5人的团队，因为另一人还在当兵，而且完全没有资金，也不是AI专家，是因为受到Google NotebookLM去年9月所发布的播客（Podcast）功能的启发。

Kim说，他们爱上了NotebookLM的播客功能，但想要有更多的声音控制，更自由的剧本，试过了市场上所有的文字转语音（Text-to-Speech，TTS）API，但它们听起来都不像是真正的人类对话，正巧遇见Google的Research Cloud免费供应TPU予研究人员，于是他们开始学习JAX、Flax、平行运算、丛集编排及Pallas核心等技术，并在3个月后得到一个经过充份训练的1.6B模型，比预期的还难，却非常值得。

由Nari Labs所建置的Dia模型可直接以文字生成高度逼真的对话，允许使用整调整音讯的输出，控制情感与音调，而且还能产生各种非语言交流，像是大笑、咳嗽，或是清清嗓子。

该实验室比较了专门发展自然语音的ElevenLabs Studio模型、Sesame的对话语音模型CSM-1B，以及Dia的表现，显示Dia的确拥有更自然的声调，更栩栩如生的声音表情，也有杰出的声音节奏感。

目前Dia只支援英文，安装该模型的最低系统需求为Windows或Linux作业系统，Python 3.8或以上版本，以及一个Nvidia RTX 3080或以上的GPU，或是直接透过Hugging Face Space试用，该实验室亦正在开发可直接供消费者使用的服务。

CB科技站

Nari Labs开源具备16亿参数的文字转语音模型Dia

与本文相关的文章