
Hugging Face
Nvidia本周开源支援语音辨识及听写专用的AI模型Parakeet TDT 0.6B,可用于对话式AI、语音助理或是需要生成字幕的服务。
Parakeet TDT 0.6B为6亿参数的自动语音辨识(automatic speech recognition,ASR)模型,专为高品质英语听写(transcription)而设计。
Parakeet TDT 0.6B为FastConformer架构的XL变种,整合TDT解码器,并以全注意力(attention)机制训练而成,它具有很高的语音听写速度,一次single pass最长可听写24分钟语音。Parakeet TDT 0.6B在HF-Open-ASR得分榜上达RTFx 3380,词错误率(word error rate)为6.05%,优于其他开放模型。
在功能上,Parakeet TDT 0.6B,支援自动断句、首字母大写及精準预测字时戳,在口说数字和歌词的听写效能尤佳。支援音源文件格式涵括.wav和.flac档。
Parakeet TDT 0.6B以宽鬆的CC-BY-4.0授权开源,现在已在Hugging Face网站公开。
Nvidia表示,该模型支援使用情境涵括需要文字听写的开发人员、研究人员、学术和产业人士,其应用包括对话式AI、语音助理、听写服务、字幕生成和语音分析平台。
Parakeet TDT 0.6B经过优化,适合执行在Nvidia硬件如GPU,及软件框架(像是CUDA函式库)上,能比在纯CPU环境上获致更快的训练和推论时间。它支援Linux 及NVIDIA Ampere、Blackwell、Hopper与Volta等架构的硬件平台,RAM最少要2GB。
若要操作Parakeet TDT 0.6B或训练、微调,系统必须安装Nvidia NeMo工具套件,最好也安装最新PyTorch版本。