Nvidia开源AI语音辨识模型Parakeet TDT 0.6B

图片来源:

Hugging Face

Nvidia本周开源支援语音辨识及听写专用的AI模型Parakeet TDT 0.6B，可用于对话式AI、语音助理或是需要生成字幕的服务。

Parakeet TDT 0.6B为6亿参数的自动语音辨识（automatic speech recognition,ASR）模型，专为高品质英语听写（transcription）而设计。

Parakeet TDT 0.6B为FastConformer架构的XL变种，整合TDT解码器，并以全注意力（attention）机制训练而成，它具有很高的语音听写速度，一次single pass最长可听写24分钟语音。Parakeet TDT 0.6B在HF-Open-ASR得分榜上达RTFx 3380，词错误率（word error rate）为6.05%，优于其他开放模型。

在功能上，Parakeet TDT 0.6B，支援自动断句、首字母大写及精準预测字时戳，在口说数字和歌词的听写效能尤佳。支援音源文件格式涵括.wav和.flac档。

Parakeet TDT 0.6B以宽鬆的CC-BY-4.0授权开源，现在已在Hugging Face网站公开。

Nvidia表示，该模型支援使用情境涵括需要文字听写的开发人员、研究人员、学术和产业人士，其应用包括对话式AI、语音助理、听写服务、字幕生成和语音分析平台。

Parakeet TDT 0.6B经过优化，适合执行在Nvidia硬件如GPU，及软件框架（像是CUDA函式库）上，能比在纯CPU环境上获致更快的训练和推论时间。它支援Linux 及NVIDIA Ampere、Blackwell、Hopper与Volta等架构的硬件平台，RAM最少要2GB。

若要操作Parakeet TDT 0.6B或训练、微调，系统必须安装Nvidia NeMo工具套件，最好也安装最新PyTorch版本。

CB科技站

Nvidia开源AI语音辨识模型Parakeet TDT 0.6B

与本文相关的文章