最新消息:关注人工智能 AI赋能新媒体运营

Nari Labs开源具备16亿参数的文字转语音模型Dia

科技智能 admin 浏览 评论

图片来源/Toby Kim

由两名南韩青年创立的Nari Labs本周二(4/22)透过GitHub及Hugging Face,开源了具备16亿参数的文字转语音模型Dia,宣称它不仅与Google NotebookLM播客的品质相当,甚至超越了ElevenLabs Studio与Sesame的开源模型。Dia发布48小时便在GitHub上获得超过7,800颗星星,并成为Hugging Face上最受欢迎的模型。

Nari Labs创办者之一的Toby Kim于X上分享了他们的心路历程,这是一个只有1.5人的团队,因为另一人还在当兵,而且完全没有资金,也不是AI专家,是因为受到Google NotebookLM去年9月所发布的播客(Podcast)功能的启发。

Kim说,他们爱上了NotebookLM的播客功能,但想要有更多的声音控制,更自由的剧本,试过了市场上所有的文字转语音(Text-to-Speech,TTS)API,但它们听起来都不像是真正的人类对话,正巧遇见Google的Research Cloud免费供应TPU予研究人员,于是他们开始学习JAX、Flax、平行运算、丛集编排及Pallas核心等技术,并在3个月后得到一个经过充份训练的1.6B模型,比预期的还难,却非常值得。

由Nari Labs所建置的Dia模型可直接以文字生成高度逼真的对话,允许使用整调整音讯的输出,控制情感与音调,而且还能产生各种非语言交流,像是大笑、咳嗽,或是清清嗓子。

该实验室比较了专门发展自然语音的ElevenLabs Studio模型、Sesame的对话语音模型CSM-1B,以及Dia的表现,显示Dia的确拥有更自然的声调,更栩栩如生的声音表情,也有杰出的声音节奏感。

目前Dia只支援英文,安装该模型的最低系统需求为Windows或Linux作业系统,Python 3.8或以上版本,以及一个Nvidia RTX 3080或以上的GPU,或是直接透过Hugging Face Space试用,该实验室亦正在开发可直接供消费者使用的服务。

发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论