最新消息:关注人工智能 AI赋能新媒体运营

Nvidia开源AI语音辨识模型Parakeet TDT 0.6B

科技智能 admin 浏览 评论
图片来源:

Hugging Face

Nvidia本周开源支援语音辨识及听写专用的AI模型Parakeet TDT 0.6B,可用于对话式AI、语音助理或是需要生成字幕的服务。

Parakeet TDT 0.6B为6亿参数的自动语音辨识(automatic speech recognition,ASR)模型,专为高品质英语听写(transcription)而设计。

Parakeet TDT 0.6B为FastConformer架构的XL变种,整合TDT解码器,并以全注意力(attention)机制训练而成,它具有很高的语音听写速度,一次single pass最长可听写24分钟语音。Parakeet TDT 0.6B在HF-Open-ASR得分榜上达RTFx 3380,词错误率(word error rate)为6.05%,优于其他开放模型。

在功能上,Parakeet TDT 0.6B,支援自动断句、首字母大写及精準预测字时戳,在口说数字和歌词的听写效能尤佳。支援音源文件格式涵括.wav和.flac档。

Parakeet TDT 0.6B以宽鬆的CC-BY-4.0授权开源,现在已在Hugging Face网站公开。

Nvidia表示,该模型支援使用情境涵括需要文字听写的开发人员、研究人员、学术和产业人士,其应用包括对话式AI、语音助理、听写服务、字幕生成和语音分析平台。

Parakeet TDT 0.6B经过优化,适合执行在Nvidia硬件如GPU,及软件框架(像是CUDA函式库)上,能比在纯CPU环境上获致更快的训练和推论时间。它支援Linux 及NVIDIA Ampere、Blackwell、Hopper与Volta等架构的硬件平台,RAM最少要2GB。

若要操作Parakeet TDT 0.6B或训练、微调,系统必须安装Nvidia NeMo工具套件,最好也安装最新PyTorch版本。

发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论