最新消息:关注人工智能 AI赋能新媒体运营

影音处理框架FFmpeg 8.0新增Whisper过滤器,让影片转档可同步语音转录

科技智能 admin 浏览 评论

影音处理框架FFmpeg在即将发布的8.0版本中,加入一项名为Whisper的音讯过滤器,让开发者在影片转档或串流处理的流程中,可直接进行语音转录。这项功能整合了OpenAI的Whisper语音辨识模型,透过内建的过滤器机制,能在不中断处理流程的情况下,将音讯内容转换成文字,并输出为字幕或结构化资料。

Whisper过滤器的实作仰赖whisper.cpp函式库,使用者必须先在系统中安装并启用对应支援,编译时以—enable-whisper选项启用功能。该过滤器支援多种输出模式,包括纯文字、SRT字幕格式及JSON,输出目标可以是文件,也能透过HTTP等协定直接送往其他系统。当不指定输出位置,转录结果会以后设资料的形式附加在音讯帧上,供后续处理或分析使用。

Whisper过滤器提供伫列参数让使用者设定累积多少音讯资料再进行辨识,预设约为3秒。时间设定越长,準确率相对提高且处理频率降低,适合批次处理,而时间设定越短,则可降低延迟,适合即时应用。过滤器也支援启用Silero语音活动侦测(VAD),在长音讯串流中自动切分语音片段,提高辨识效率与段落準确度。

Whisper过滤器支援GPU加速,并可指定运算装置编号,配合FFmpeg本身的多执行绪处理,在高效能环境下提升转录速度。

对影音开发者而言,这项更新让同一条影音处理管线可完成编码、转码与语音转录,不需额外呼叫外部工具或进行中间文件处理,简化了流程与系统整合工作。无论是影片上传平台需要自动产生字幕,还是串流应用想在即时转播中附加逐字稿,这项功能都能直接嵌入现有FFmpeg工作流程中使用。

发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论