Stability AI推出企业级音频生成模型Stable Audio 2.5，3分钟曲目2秒完成

Stability AI正式推出音频生成模型Stable Audio 2.5，其定位为面向企业的专业音频制作场景，在单张GPU上的推理时间低于2秒，可生成最长3分钟的音轨。新版模型强化了音乐结构表现，并新增音频修补（Audio Inpainting）功能，使开发者与专业制作团队能在不同应用场景中快速产出高品质、可调整的音频内容。

Stable Audio 2.5以音乐生成为核心改进方向，生成内容更符合实际编曲逻辑，可形成具有前奏、发展与结尾的多段式结构。相比前一版本，模型在理解提示词的准确度上有所提升，例如针对情绪描述或音乐风格词汇，回应更符合预期。

推理速度的提升，主要归功于开发团队研发的后训练方法ARC（Adversarial Relativistic-Contrastive）。通过ARC技术，模型能在维持音轨质量的同时，大幅降低GPU推理时间，将3分钟音轨的生成时间缩短至不到2秒。

ARC方法的关键在于利用对抗式训练加速扩散模型，其结合相对性对抗训练与对比式判别器，使生成速度更快且提示遵循度更高。ARC能在极短时间内生成高质量音频，大幅提升文字转音频的实用性。

除了现有的文字转音频与音频转音频流程，Stable Audio 2.5新增支持音频修补功能，用户可输入自有片段并指定扩展位置，模型会依据上下文生成后续声音，适合在既有素材基础上进行延伸或修改。官方条款规定上传音频不得包含受版权保护的内容，并通过内容识别系统进行检测，以确保符合法规。

企业对于品牌声音的需求日益增长，从广告、游戏片头、零售空间音乐到支付提示音，都需要一致且可识别的音频素材。Stability AI提供基于企业自有声音库进行微调的方案，将品牌专属音色与节奏特征嵌入生成流程，确保不同渠道与项目中的声音具有连续性与独特性。

Stable Audio 2.5现已可通过StableAudio.com直接试用，并支持API整合与合作平台使用。对于需要严格管控数据与合规要求的组织，官方提供企业级授权，允许本地部署。

CB科技站

Stability AI推出企业级音频生成模型Stable Audio 2.5，3分钟曲目2秒完成

与本文相关的文章