人工智能

Stability AI 推出 Stable Audio 2.0：赋予创作者先进的 AI 生成音频能力

Published April 3, 2024

Updated April 27, 2026

Alex McFarland

Stability AI 再次推动创新边界，发布了 Stable Audio 2.0。这个尖端模型在其前身的成功基础上，引入了一系列开创性的功能，承诺革命性地改变艺术家和音乐家创作和操纵音频内容的方式。

Stable Audio 2.0 代表着 AI 生成音频演进过程中的一个重要里程碑，设定了质量、多样性和创造潜力的新标准。凭借其生成完整音轨、使用自然语言提示转换音频样本和产生广泛的音效的能力，这个模型为各个行业的内容创作者开启了一个充满可能性的世界。

随着对创新音频解决方案的需求不断增长，Stability AI 的最新产品有望成为专业人士提高创作产出和简化工作流程的必备工具。通过利用先进的 AI 技术，Stable Audio 2.0 赋予用户探索音乐创作、声音设计和音频后期制作未知领域的能力。

Stable Audio 2.0 的主要功能是什么

Stable Audio 2.0 拥有令人印象深刻的功能阵容，这可能会重新定义 AI 生成音频的格局。从完整音轨生成到音频转音频、增强的音效生产和风格转换，这个模型为创作者提供了一个全面的工具包，以将他们的听觉构想变为现实。

完整音轨生成

Stable Audio 2.0 以其能够生成长达三分钟的完整音轨而与其他 AI 生成音频模型区别开来。这些作品不仅仅是延长的片段，而是具有明确结构的作品，包括诸如介绍、发展和结尾等不同的部分。这个功能使用户能够生成具有连贯的叙事和进展的完整音乐作品，从而提高了 AI 辅助音乐创作的潜力。

此外，模型还融入了立体声音效，增加了生成音频的深度和维度。这些空间元素的加入进一步增强了音轨的真实性和沉浸感，使其适合广泛的应用，从视频的背景音乐到独立的音乐作品。

音频转音频生成

Stable Audio 2.0 中最令人兴奋的添加之一是音频转音频生成能力。用户现在可以上传自己的音频样本，并使用自然语言提示进行转换。这个功能开启了创造性的可能性世界，允许艺术家和音乐家以以前无法想象的方式实验声音操纵和再生。

通过利用 AI 的力量，用户可以轻松地修改现有的音频资产以适应他们的特定需求或艺术视野。无论是改变乐器的音色、改变作品的氛围还是根据现有的样本创建全新的声音，Stable Audio 2.0 提供了一种直观的方式来探索音频转换。

增强的音效生产

除了其音乐生成能力之外，Stable Audio 2.0 还在创建多样化的音效方面表现出色。从微妙的背景噪音，如树叶沙沙声或机器的嗡嗡声，到更具沉浸感和复杂性的声音，如繁忙的城市街道或自然环境，模型可以生成广泛的音频元素。

这个增强的音效生产功能对于在电影、电视、视频游戏和多媒体项目中工作的内容创作者来说尤其有价值。使用 Stable Audio 2.0，用户可以快速轻松地生成高质量的音效，这些音效原本需要大量的 foley 工作或昂贵的授权资产。

风格转换

Stable Audio 2.0 引入了风格转换功能，允许用户无缝地修改生成或上传音频的美学和音色。这个功能使创作者能够将音频输出调整以匹配项目的特定主题、流派或情感基调。

通过应用风格转换，用户可以尝试不同的音乐风格、混合流派或创建全新的音色调色板。这个功能特别适合创建连贯的配乐、将音乐适应特定的视觉内容或探索创造性的混音和重混。

Stable Audio 2.0 的技术进步

在其核心，Stable Audio 2.0 由尖端的 AI 技术驱动，实现了其令人印象深刻的性能和高质量的输出。模型的架构经过精心设计，以处理生成连贯的完整音频作品的独特挑战，同时保持对细节的精细控制。

潜在扩散模型架构

Stable Audio 2.0 的核心是一个针对音频生成优化的潜在扩散模型架构。这个架构由两个关键组件组成：一个高度压缩的 autoencoder 和一个 diffusion transformer (DiT)。

autoencoder 负责高效地将原始音频波形压缩成紧凑的表示。这种压缩使模型能够捕捉音频的基本特征，同时过滤掉不那么重要的细节，从而产生更连贯和结构化的生成输出。

diffusion transformer 类似于 Stability AI 开创性的 Stable Diffusion 3 模型中使用的 transformer，它取代了以前版本中使用的传统 U-Net 架构。DiT 特别适合处理长序列数据，使其非常适合处理和生成扩展的音频作品。

改进的性能和质量

高度压缩的 autoencoder 和 diffusion transformer 的组合使 Stable Audio 2.0 能够在性能和输出质量方面实现显著的改进，相比其前身有了巨大的提升。

autoencoder 的高效压缩使模型能够以更快的速度处理和生成音频，减少了所需的计算资源，并使其更容易被更广泛的用户使用。同时，diffusion transformer 能够识别和复制大规模结构，确保生成的音频保持高水平的连贯性和音乐完整性。

这些技术进步最终形成了一个能够生成令人惊叹的真实和情感共鸣的音频的模型，无论是完整的音乐作品、复杂的音景还是微妙的音效。Stable Audio 2.0 的架构为未来 AI 生成音频的创新奠定了基础，铺平了道路，为创作者提供更先进和更具表现力的工具。

Stable Audio 2.0 中的创作者权利

随着 AI 生成音频的不断进步和普及，解决伦理影响并确保创作者的权利得到保护至关重要。Stability AI 采取了积极的措施，优先考虑道德开发和为贡献 Stable Audio 2.0 训练的艺术家提供公平的补偿。

Stable Audio 2.0 独立地在 AudioSparx 的授权数据集上进行了训练，AudioSparx 是高质量音频内容的可靠来源。这个数据集包含超过 80 万个音频文件，包括音乐、音效和单乐器音轨，以及相应的文本元数据。通过使用授权数据集，Stability AI 确保该模型建立在合法获取和适当归属的音频数据基础上。

认识到创作者自主权的重要性，Stability AI 为所有贡献 AudioSparx 数据集的艺术家提供了选择退出的机会，以免他们的音频被用于 Stable Audio 2.0 的训练。这个选择退出机制使创作者能够控制他们的作品如何被使用，并确保只有那些愿意将音频用于 AI 训练的艺术家才被包含在数据集中。

Stability AI 致力于确保为 Stable Audio 2.0 的开发做出贡献的创作者因其努力而获得公平的补偿。通过授权 AudioSparx 数据集并提供选择退出选项，公司展示了其致力于建立一个可持续和公平的 AI 生成音频生态系统的承诺，在这个生态系统中，创作者因其贡献而受到尊重和奖励。

为了进一步保护创作者的权利并防止版权侵权，Stability AI 与 Audible Magic 合作，Audible Magic 是内容识别技术的领先提供商。通过将 Audible Magic 的高级内容识别 (ACR) 系统集成到音频上传过程中，Stable Audio 2.0 可以识别和标记任何潜在的侵权内容，确保仅使用原始或适当授权的音频在平台中。

通过这些伦理考虑和以创作者为中心的倡议，Stability AI 为音频领域的 AI 负责任的开发设定了强有力的先例。通过优先考虑创作者的权利并建立明确的数据使用和补偿指南，公司促进了合作和可持续的环境，在这里，AI 和人类的创造力可以共存和蓬勃发展。

与 Stability AI 共同塑造音频创作的未来

Stable Audio 2.0 标志着 AI 生成音频的一个重要里程碑，赋予创作者一个全面的工具套件，以探索音乐、声音设计和音频制作的新边疆。凭借其尖端的潜在扩散模型架构、令人印象深刻的性能和对伦理考虑和创作者权利的承诺，Stability AI 正在推动音频创作的未来发展。随着这项技术的不断演进，很明显，AI 生成的音频将在创作领域发挥越来越重要的作用，为艺术家和音乐家提供必要的工具，以突破他们的工艺和重新定义声音世界的可能性。

Unite.AI