人工智能

Stability AI 发布 Stable Audio 2.0：赋予创作者先进的 AI 生成音频能力

发布于 2024年4月3日

更新于 2026年5月22日

作者

Alex McFarland

Stability AI 再次推动创新边界，发布了 Stable Audio 2.0。这个尖端模型在其前身的基础上进行了改进，引入了一系列开创性的功能，承诺革新艺术家和音乐家创作和操纵音频内容的方式。

Stable Audio 2.0 代表了 AI 生成音频演进中的一个重要里程碑，设定了新的质量、多样性和创造潜力的标准。凭借其生成全长音轨、使用自然语言提示转换音频样本以及产生广泛的音效的能力，这个模型为各个行业的内容创作者开启了一个全新的可能性世界。

随着创新音频解决方案的需求持续增长，Stability AI 的最新产品有望成为专业人士不可或缺的工具，用于增强创作输出和简化工作流程。通过利用先进的 AI 技术，Stable Audio 2.0 赋予用户探索音乐创作、音效设计和音频后期制作的新领域的能力。

Stable Audio 2.0 的关键功能是什么

Stable Audio 2.0 拥有令人印象深刻的功能阵容，这可能会重新定义 AI 生成音频的格局。从全长音轨生成到音频转换、增强音效生产和风格转换，这个模型为创作者提供了一个全面的工具集，以将他们的听觉构想变为现实。

全长音轨生成

Stable Audio 2.0 与其他 AI 生成音频模型不同之处在于其能够创建长达三分钟的全长音轨。这些作品不仅仅是延长的片段，而是具有明确结构的作品，包括介绍、发展和结尾等部分。这个功能使用户能够生成具有连贯叙事和进展的完整音乐作品，提高了 AI 辅助音乐创作的潜力。

此外，该模型还融入了立体音效，增加了生成音频的深度和维度。这些空间元素进一步增强了音轨的真实性和沉浸感，使其适用于从视频背景音乐到独立音乐作品等广泛的应用场景。

音频转换

Stable Audio 2.0 中最令人兴奋的新增功能之一是音频转换能力。用户现在可以上传自己的音频样本，并使用自然语言提示进行转换。这个功能开启了创造性的可能性世界，允许艺术家和音乐家以以前无法想象的方式实验音频操纵和再生。

通过利用 AI 的力量，用户可以轻松地修改现有的音频资产以适应他们的特定需求或艺术构想。无论是改变乐器的音色、改变作品的情绪还是根据现有样本创建全新的声音，Stable Audio 2.0 提供了一种直观的方式来探索音频转换。

增强音效生产

除了音乐生成能力之外，Stable Audio 2.0 还在音效创建方面表现出色。从微妙的背景噪音，如树叶沙沙声或机器的嗡嗡声，到更具沉浸感和复杂的音景，如繁忙的城市街道或自然环境，该模型可以生成广泛的音频元素。

这个增强的音效生产功能对于在电影、电视、视频游戏和多媒体项目中工作的内容创作者来说尤其有价值。使用 Stable Audio 2.0，用户可以快速、轻松地生成高质量的音效，这些音效原本需要大量的 foley 工作或昂贵的授权资产。

风格转换

Stable Audio 2.0 引入了风格转换功能，允许用户无缝地修改生成或上传音频的美学和音色特征。这个功能使创作者能够根据项目的特定主题、流派或情感基调定制音频输出。

通过应用风格转换，用户可以尝试不同的音乐风格、混合流派或创建全新的音色调色板。这个功能特别适用于创建连贯的配乐、将音乐适应特定的视觉内容或探索创意混音和重混。

Stable Audio 2.0 的技术进步

在其核心，Stable Audio 2.0 由先进的 AI 技术驱动，实现了其令人印象深刻的性能和高质量输出。该模型的架构经过精心设计，以处理生成连贯的全长音频作品的独特挑战，同时保持对细节的精细控制。

潜在扩散模型架构

Stable Audio 2.0 的核心是一个针对音频生成优化的潜在扩散模型架构。这个架构由两个关键组件组成：一个高度压缩的自编码器和一个扩散变换器 (DiT)。

自编码器负责高效地压缩原始音频波形为紧凑的表示形式。这种压缩使模型能够捕捉音频的基本特征，同时过滤掉不那么重要的细节，结果是生成的输出更加连贯和结构化。

扩散变换器类似于 Stability AI 开创性的 Stable Diffusion 3 模型中使用的变换器。DiT 特别适合处理长序列数据，使其非常适合处理和生成扩展的音频作品。

性能和质量的改进

高度压缩的自编码器和扩散变换器的组合使 Stable Audio 2.0 比其前身在性能和输出质量方面取得了显著的改进。

自编码器的高效压缩使模型能够以更快的速度处理和生成音频，减少了所需的计算资源，使其更容易被更广泛的用户使用。同时，扩散变换器能够识别和复制大规模结构，确保生成的音频保持高水平的连贯性和音乐完整性。

这些技术进步最终使模型能够生成令人惊叹的真实和情感共鸣的音频，无论是全长的音乐作品、复杂的音景还是微妙的音效。Stable Audio 2.0 的架构为未来 AI 生成音频的创新奠定了基础，铺平了道路以开发出更复杂和富有表现力的创作工具。

Stable Audio 2.0 中的创作者权利

随着 AI 生成音频的不断进步和普及，解决伦理问题和确保创作者权利的保护至关重要。Stability AI 采取了积极的措施，优先考虑道德开发和为贡献到 Stable Audio 2.0 训练的艺术家的公平补偿。

Stable Audio 2.0 独家使用了来自 AudioSparx 的授权数据集进行训练，AudioSparx 是高质量音频内容的可靠来源。这个数据集包含超过 800,000 个音频文件，包括音乐、音效和单独乐器音轨，以及相应的文本元数据。通过使用授权数据集，Stability AI 确保该模型建立在合法获取和适当归属的音频数据基础上。

认识到创作者自主权的重要性，Stability AI 为所有贡献到 AudioSparx 数据集的艺术家提供了选择退出的机会，以免他们的音频被用于 Stable Audio 2.0 的训练。这个选择退出机制使创作者能够控制他们的作品如何被使用，并确保只有那些愿意将音频用于 AI 训练的艺术家被包含在数据集中。

Stability AI 致力于确保为 Stable Audio 2.0 的开发做出贡献的创作者能够获得公平的补偿。通过许可 AudioSparx 数据集并提供选择退出选项，该公司展示了其致力于建立一个可持续和公平的 AI 生成音频生态系统，在这个生态系统中，创作者受到尊重并因其贡献而获得奖励。

为了进一步保护创作者的权利并防止版权侵权，Stability AI 与 Audible Magic 合作，Audible Magic 是内容识别技术的领先提供商。通过将 Audible Magic 的高级内容识别 (ACR) 系统集成到音频上传过程中，Stable Audio 2.0 可以识别和标记任何潜在的侵权内容，确保仅使用原始或适当授权的音频。

通过这些伦理考虑和创作者中心的倡议，Stability AI 为音频领域的负责任的 AI 开发设定了坚实的先例。通过优先考虑创作者的权利并建立明确的数据使用和补偿指南，该公司促进了一个合作和可持续的环境，在这个环境中，AI 和人类的创造力可以共存和蓬勃发展。

与 Stability AI 一起塑造音频创作的未来

Stable Audio 2.0 标志着 AI 生成音频的一个重要里程碑，赋予创作者一个全面的工具集来探索音乐、音效设计和音频制作的新领域。凭借其尖端的潜在扩散模型架构、令人印象深刻的性能和对伦理考虑和创作者权利的承诺，Stability AI 正在推动音频创作的未来发展。随着这一技术的不断演进，很明显，AI 生成音频将在创意格局中发挥越来越重要的作用，为艺术家和音乐家提供工具，以突破他们的创作边界，并重新定义声音世界中可能的东西。