DeepMind正在研究如何帮影片生成声音

图片来源:

Google Deepmind

Alphabet旗下的AI子公司DeepMind正在研究如何帮「生成式影片」生成背景声音，利用影片至声音（video-to-audio，V2A）技术来替这些原本无声的影片加上应有的对话、音效或配乐。

目前DeepMind的V2A技术并不是直接餵入影片就能生成声音，而是结合了自然语言的提示以帮萤幕上的画面配音，相容于诸如Veo等影片生成模型，并支援包括文件、无声电影等影片内容。

当使用者输入音讯及文字提示时，V2A便可生成与影片同步的音讯波形。它会先将所输入的影片及提示输入数位化，再利用扩散模型反覆运算，最终生成一个压缩的声音文件，再由系统将其解码，藉以产生与影片画面高度协调的背景声音，完全不需要手动对齐影片及所生成的声音。

在V2A技术的展示影片中，DeepMind团队输入了一个在黑暗中行走的影片画面，再提供「电影、恐怖片、音乐、紧张、混凝土上的脚步声」等文字提示，V2A就能生成恐怖片的背景音乐；还能帮无声的击鼓画面配乐；或是要求它生成搭配画面的海洋音乐。

此外，V2A可替任何影片生成无限数量的音轨，还能选择正向或反向的文字提示，以要求所生成的声音更贴近或远离某些情境。

透过对影片、声音及注译的训练，V2A现阶段已能连结特定的音讯与不同的视觉场景，亦能对注释或转录文字中的资讯作出反应；DeepMind也正在改善V2A生成结果中关于说话的口型同步能力。

CB科技站