最新消息:关注人工智能 AI赋能新媒体运营

Meta发布SAM Audio模型,通过多模态提示分离指定声源

科技资讯 admin 浏览

Meta发布了其最新音频分离模型SAM Audio,主打通过提示方式从混合音频中提取特定声源,支持文本提示、画面点击与时间区间标记三种交互方式。Meta表示,SAM Audio及其背后的技术引擎PE-AV即日起开放使用,并已集成至Segment Anything Playground,用户可直接使用平台素材或上传自己的音视频内容进行操作。此外,Meta提供模型下载,模型权重需申请获取。

SAM Audio提供三种提示方式,适配不同素材与使用场景。文本提示适用于直接描述目标声音,例如输入“狗叫”或“歌声”来提取对应声源。视觉提示则针对音视频内容,用户可在视频画面中点击正在发声的人或物体,系统将利用视觉线索辅助锁定声音。时间区间提示允许用户在时间轴上标记目标声音出现的段落,Meta称这是业界首次引入的时间区间提示设计。三种提示方式可单独使用,也可混合搭配,以获得更精准的分离效果。

例如,用户可在乐队演出视频中点击吉他以提取其声音,也可用文本提示过滤户外录音中的车流噪音,或通过时间区间提示一次性处理整段播客录音中的特定干扰声。这些能力可用于音频清理、背景噪声消除等音频编辑任务。

SAM Audio是一款统一的音频分离模型,核心采用生成式架构,将混合音频与一个或多个提示编码至共享特征空间,再生成目标音轨及剩余残留音轨。为获取充足的训练数据,Meta构建了数据引擎,结合音频混音、自动生成多模态提示以及模型辅助标注流程,生成更贴近真实场景的训练数据。

支撑SAM Audio的另一项关键技术是PE-AV。Meta指出,PE-AV基于其今年早些时候开源的Perception Encoder扩展而来,融合了视觉与音频信息,以增强SAM Audio在依赖视觉线索时的分离能力。PE-AV会提取逐帧视频特征,并与音频特征进行时序对齐,将看到的画面与听到的声音在相同时间点建立关联,使系统能更准确地分离画面中可识别的声源,如屏幕中的演讲者或乐器,也能根据场景线索推断画面外的事件。

Meta列出了SAM Audio的当前限制:目前不支持以音频作为提示输入,模型也并非设计用于在无提示情况下自动分离混合音频中的所有声源。对于高度相似的声音事件分离,例如从合唱中分离出单个歌手,或从管弦乐中分离出单一乐器,仍具有较大挑战性。