
Stability AI正式推出音频生成模型Stable Audio 2.5,其定位为面向企业的专业音频制作场景,在单张GPU上的推理时间低于2秒,可生成最长3分钟的音轨。新版模型强化了音乐结构表现,并新增音频修补(Audio Inpainting)功能,使开发者与专业制作团队能在不同应用场景中快速产出高品质、可调整的音频内容。
Stable Audio 2.5以音乐生成为核心改进方向,生成内容更符合实际编曲逻辑,可形成具有前奏、发展与结尾的多段式结构。相比前一版本,模型在理解提示词的准确度上有所提升,例如针对情绪描述或音乐风格词汇,回应更符合预期。
推理速度的提升,主要归功于开发团队研发的后训练方法ARC(Adversarial Relativistic-Contrastive)。通过ARC技术,模型能在维持音轨质量的同时,大幅降低GPU推理时间,将3分钟音轨的生成时间缩短至不到2秒。
ARC方法的关键在于利用对抗式训练加速扩散模型,其结合相对性对抗训练与对比式判别器,使生成速度更快且提示遵循度更高。ARC能在极短时间内生成高质量音频,大幅提升文字转音频的实用性。
除了现有的文字转音频与音频转音频流程,Stable Audio 2.5新增支持音频修补功能,用户可输入自有片段并指定扩展位置,模型会依据上下文生成后续声音,适合在既有素材基础上进行延伸或修改。官方条款规定上传音频不得包含受版权保护的内容,并通过内容识别系统进行检测,以确保符合法规。
企业对于品牌声音的需求日益增长,从广告、游戏片头、零售空间音乐到支付提示音,都需要一致且可识别的音频素材。Stability AI提供基于企业自有声音库进行微调的方案,将品牌专属音色与节奏特征嵌入生成流程,确保不同渠道与项目中的声音具有连续性与独特性。
Stable Audio 2.5现已可通过StableAudio.com直接试用,并支持API整合与合作平台使用。对于需要严格管控数据与合规要求的组织,官方提供企业级授权,允许本地部署。