影音处理框架FFmpeg 8.0新增Whisper过滤器，让影片转档可同步语音转录

影音处理框架FFmpeg在即将发布的8.0版本中，加入一项名为Whisper的音讯过滤器，让开发者在影片转档或串流处理的流程中，可直接进行语音转录。这项功能整合了OpenAI的Whisper语音辨识模型，透过内建的过滤器机制，能在不中断处理流程的情况下，将音讯内容转换成文字，并输出为字幕或结构化资料。

Whisper过滤器的实作仰赖whisper.cpp函式库，使用者必须先在系统中安装并启用对应支援，编译时以—enable-whisper选项启用功能。该过滤器支援多种输出模式，包括纯文字、SRT字幕格式及JSON，输出目标可以是文件，也能透过HTTP等协定直接送往其他系统。当不指定输出位置，转录结果会以后设资料的形式附加在音讯帧上，供后续处理或分析使用。

Whisper过滤器提供伫列参数让使用者设定累积多少音讯资料再进行辨识，预设约为3秒。时间设定越长，準确率相对提高且处理频率降低，适合批次处理，而时间设定越短，则可降低延迟，适合即时应用。过滤器也支援启用Silero语音活动侦测（VAD），在长音讯串流中自动切分语音片段，提高辨识效率与段落準确度。

Whisper过滤器支援GPU加速，并可指定运算装置编号，配合FFmpeg本身的多执行绪处理，在高效能环境下提升转录速度。

对影音开发者而言，这项更新让同一条影音处理管线可完成编码、转码与语音转录，不需额外呼叫外部工具或进行中间文件处理，简化了流程与系统整合工作。无论是影片上传平台需要自动产生字幕，还是串流应用想在即时转播中附加逐字稿，这项功能都能直接嵌入现有FFmpeg工作流程中使用。

CB科技站

影音处理框架FFmpeg 8.0新增Whisper过滤器，让影片转档可同步语音转录

与本文相关的文章