最新消息:关注人工智能 AI赋能新媒体运营

通义PrismAudio:让AI精准同步音画配音

科技资讯 admin 浏览

视频有画面,声音却总差一口气?阿里通义实验室给出解法

你有没有看过一段AI生成的视频——画面里一个人踩碎了玻璃,声音却是鸟鸣;或者马蹄声慢了半拍,像在跟画面打太极?这些“声画不同步”的细节,早就让不少创作者头疼。哪怕画面再精致,只要声音不对味,沉浸感立刻崩塌。

现在,阿里通义实验室推出了一个新工具——PrismAudio。它不靠玄学,也不靠堆参数,而是真正在“听懂画面”之后,才开口发声。这项研究刚被AI顶会ICLR 2026收录,不是噱头,是实打实的突破。

image.png

先想清楚,再出声:像专业音效师一样思考

过去很多AI配音模型,像没经过训练的实习生——看到画面就直接开录,结果经常“张冠李戴”。PrismAudio不一样,它先“看懂”再“动手”。

它会问自己:

  • 画面里是什么?是脚步、风声,还是金属碰撞?
  • 声音该从哪一刻开始?早一秒太突兀,晚一秒就拖沓。
  • 音色是清亮的玻璃碎裂,还是低沉的木门吱呀?
  • 声源在左边、右边,还是正前方?

这就像一个经验丰富的音效师,在剪辑前先在脑中预演一遍。不是“生成”,是“设计”。

四位“老师”一起打分,谁也别想蒙混过关

光自己想还不够,PrismAudio还请了四个“虚拟专家”来把关:

  • 语义老师:声音内容对不对?马蹄声别配成雨滴。
  • 时序老师:声音和画面是否严丝合缝?差0.1秒都不行。
  • 美学老师:声音够不够真实?有没有杂音?是否符合场景氛围?
  • 空间老师:声音的方向感对不对?左耳该听到的是不是左边的狗叫?

这四个人同时打分,模型必须四方面都达标才能通过。不是“差不多就行”,而是“必须精准”。这种机制,让生成的声音不再“片面优秀”,而是全面靠谱。

9秒视频,0.6秒出音效——快到你来不及反应

很多人以为AI越强,越耗资源。PrismAudio反其道而行。

模型只有5.18亿参数,比市面上动辄百亿级的模型小得多,但效果反而更强。运行效率更是惊人:

  • 一段9秒的视频,从输入到输出完整音效,平均只需0.63秒
  • 普通电脑跑得动,不需要高端显卡。
  • 剪辑师上传片段,下一秒就能听到匹配的环境音,不用等、不用调、不用手动找素材。

这不是“能用”,是“好用到上瘾”。

不只是工具,是创作方式的改变

对短视频创作者来说,这意味着什么?

不用再花几小时在音效库翻找“脚步声-水泥地-中等速度-无回声”;不用再为一段5秒的关门声反复调试时间轴;更不用为了音画同步,把视频来回拖拽几十遍。

对影视后期团队,它能大幅压缩前期预演和粗剪阶段的时间。一个原本需要两天的音效初稿,现在一小时就能搞定。

更重要的是,它让“真实感”变得可复制。过去,好音效靠的是经验丰富的音效师;现在,AI也能学会这种“直觉”。这不是取代人,而是让创意者更专注在内容本身。

现在就能试

论文已公开:arXiv:2511.18833

项目官网开放体验:https://prismaudio-project.github.io/

你可以上传一段自己拍的短视频,看看它能不能给你配出真正“听得出来”的环境音——不是AI的“想象”,而是真实世界的声音。

当AI终于学会“听懂画面”,我们离“所见即所闻”的沉浸体验,只差一个点击。