人工智能

AudioSep ：分离您描述的任何内容

发布时间

7个月前

2023 年 10 月 17 日

LASS（语言查询音频源分离）是 CASA（计算听觉场景分析）的新范例，旨在使用自然语言查询从给定的音频混合物中分离目标声音，为数字音频任务和应用程序提供自然但可扩展的接口。尽管 LASS 框架在过去几年中在特定音频源（如乐器）上实现所需的性能方面取得了显着进步，但它们无法在开放域中分离目标音频。

音频九月是一个基础模型，旨在通过使用自然语言查询实现目标音频分离来解决 LASS 框架当前的局限性。 AudioSep 框架的开发人员在各种大规模多模态数据集上对模型进行了广泛的训练，并评估了该框架在各种音频任务上的性能，包括乐器分离、音频事件分离和增强语音等等。 AudioSep 的初始性能满足基准测试，因为它展示了令人印象深刻的零样本学习能力并提供了强大的音频分离性能。

在本文中，我们将更深入地了解 AudioSep 框架的工作原理，同时评估模型的架构、用于训练和评估的数据集以及 AudioSep 模型工作中涉及的基本概念。那么让我们首先对 CASA 框架进行基本介绍。

CASA、USS、QSS、LASS 框架：AudioSep 的基础

CASA 或计算听觉场景分析框架是开发人员用来设计机器聆听系统的框架，该系统能够以类似于人类使用听觉系统感知声音的方式感知复杂的声音环境。声音分离，特别关注目标声音分离，是CASA框架内的一个基础研究领域，旨在解决“鸡尾酒会问题”或将真实世界的音频录音与单个音频源录音或文件分开。声音分离的重要性主要归因于其广泛的应用，包括音乐源分离、音频源分离、语音增强、目标声音识别等等。

过去所做的大部分声音分离工作主要围绕一个或多个音频源的分离，例如音乐分离或语音分离。一种名为 USS 或通用声音分离的新模型旨在分离现实世界录音中的任意声音。然而，从音频混合物中分离每个声源是一项具有挑战性和限制性的任务，主要是因为世界上存在大量不同的声源，这也是 USS 方法对于实际应用程序不可行的主要原因实时。

USS 方法的一种可行替代方法是 QSS 或基于查询的声音分离方法，旨在根据一组特定的查询从音频混合物中分离出单个或目标声源。因此，QSS 框架允许开发人员和用户根据自己的要求从混合物中提取所需的音频源，这使得 QSS 方法成为多媒体内容编辑或音频编辑等数字现实世界应用的更实用的解决方案。

此外，开发人员最近提出了 QSS 框架、LASS 框架或语言查询音频源分离框架的扩展，旨在通过利用目标音频源的自然语言描述从音频混合中分离任意声音源。由于LASS框架允许用户使用一组自然语言指令提取目标音频源，因此它可能成为数字音频应用中广泛应用的强大工具。与传统的音频查询或视觉查询方法相比，使用自然语言指令进行音频分离具有更大的优势，因为它增加了灵活性，并使查询信息的获取更加容易和方便。此外，与使用预定义指令或查询集的基于标签查询的音频分离框架相比，LASS 框架不限制输入查询的数量，并且具有无缝推广到开放域的灵活性。

最初，LASS 框架依赖于监督学习，其中模型是在一组带标签的音频文本配对数据上进行训练的。然而，这种方法的主要问题是带注释和标记的音频文本数据的可用性有限。为了降低LASS框架在带注释上的可靠性音频文本标记数据，模型使用多模态监督学习方法进行训练。使用多模态监督方法的主要目的是使用多模态对比预训练模型（例如 CLIP 或对比语言图像预训练模型）作为框架的查询编码器。由于 CLIP 框架能够将文本嵌入与音频或视觉等其他模态对齐，因此它允许开发人员使用数据丰富的模态来训练 LASS 模型，并允许在零样本设置中干扰文本数据。然而，当前的 LASS 框架利用小规模数据集进行训练，并且 LASS 框架在数百个潜在领域的应用还有待探索。

为了解决 LASS 框架当前面临的限制，开发人员引入了 AudioSep，这是一种基础模型，旨在使用自然语言描述从音频混合物中分离声音。 AudioSep 当前的重点是开发一种预训练的声音分离模型，该模型利用现有的大规模多模态数据集来实现 LASS 模型在开放域应用中的泛化。总而言之，AudioSep 模型是：“使用在大规模音频和多模式数据集上训练的自然语言查询或描述在开放域中通用声音分离的基础模型“。

AudioSep：关键组件和架构

AudioSep 框架的架构包括两个关键组件：文本编码器和分离模型。

文本编码器

AudioSep 框架使用 CLIP（对比语言图像预训练模型）或 CLAP（对比语言音频预训练模型）的文本编码器来提取自然语言查询中的文本嵌入。输入文本查询由一系列“N” 标记，然后由文本编码器处理，以提取给定输入语言查询的文本嵌入。文本编码器利用一堆转换器块对输入文本标记进行编码，输出表示在通过转换器层后进行聚合，从而形成具有固定长度的 D 维向量表示，其中 D 对应到 CLAP 或 CLIP 模型的维度，而文本编码器在训练期间被冻结。

CLIP 模型使用对比学习在大规模图像-文本配对数据数据集上进行预训练，这是其文本编码器学习将文本描述映射到视觉表示共享的语义空间上的主要原因。 AudioSep 通过使用 CLIP 的文本编码器获得的优势在于，它现在可以使用视觉嵌入作为替代方案，从未标记的视听数据中扩展或训练 LASS 模型，从而无需注释或标记即可训练 LASS 模型音频文本数据。

CLAP 模型的工作原理与 CLIP 模型类似，并利用对比学习目标，因为它使用文本和音频编码器来连接音频和语言，从而将文本和音频描述放在一起的音频-文本潜在空间上。

分离模型

AudioSep 框架利用频域 ResUNet 模型，该模型提供音频剪辑的混合作为框架的分离主干。该框架的工作原理是首先对波形应用 STFT 或短时傅立叶变换，以提取复杂的频谱图、幅度频谱图和 X 的相位。然后该模型遵循相同的设置并构建一个编码器-解码器网络来处理幅度谱图。

ResUNet 编码器-解码器网络由 6 个残差块、6 个解码器块和 4 个瓶颈块组成。每个编码器块中的频谱图使用 4 个残差常规块将自身下采样为瓶颈特征，而解码器块则使用 4 个残差反卷积块通过对特征进行上采样来获得分离分量。此后，每个编码器块及其相应的解码器块建立以相同的上采样或下采样率操作的跳跃连接。该框架的残差块由 2 个 Leaky-ReLU 激活层、2 个批量标准化层和 2 个 CNN 层组成，此外，该框架还引入了一个额外的残差快捷方式，用于连接每个单独残差块的输入和输出。 ResUNet 模型将复杂的频谱图 X 作为输入，并生成幅度掩模 M 作为输出，其中相位残差以控制频谱图的缩放幅度和角度旋转的文本嵌入为条件。然后可以通过将预测的幅度掩模和相位残差与混合物的 STFT（短时傅立叶变换）相乘来提取分离的复杂频谱图。

在其框架中，AudioSep 在 ResUNet 中部署卷积块后，使用 FiLm 或特征线性调制层来桥接分离模型和文本编码器。

训练与损失

在 AudioSep 模型的训练过程中，开发人员使用响度增强方法，并通过利用地面实况和预测波形之间的 L1 损失函数来端到端地训练 AudioSep 框架。

数据集和基准

如前几节所述，AudioSep 是一个基础模型，旨在解决当前 LASS 模型对带注释的音频文本配对数据集的依赖。 AudioSep 模型在广泛的数据集上进行训练，以使其具备多模式学习功能，这里详细描述了开发人员用于训练 AudioSep 框架的数据集和基准。

音频集

AudioSet 是一个弱标记的大规模音频数据集，包含直接从 YouTube 提取的超过 2 万个 10 秒音频片段。 AudioSet 数据集中的每个音频片段都按声音类的存在或不存在进行分类，而没有声音事件的具体时间细节。 AudioSet 数据集拥有超过 500 个不同的音频类别，包括自然声音、人类声音、车辆声音等等。

VGG声音

VGGSound 数据集是一个大规模的视音频数据集，就像 AudioSet 一样直接源自 YouTube，它包含超过 2,00,000 个视频剪辑，每个视频剪辑的长度为 10 秒。 VGGSound 数据集分为 300 多个声音类别，包括人类声音、自然声音、鸟声等。 VGGSound 数据集的使用确保了负责产生目标声音的对象也可以在相应的视觉剪辑中描述。

音频帽

AudioCaps 是最大的公开音频字幕数据集，它包含从 AudioSet 数据集中提取的 50,000 多个 10 秒音频剪辑。 AudioCaps 中的数据分为三类：训练数据、测试数据和验证数据，音频片段使用 Amazon Mechanical Turk 平台通过自然语言描述进行人工注释。值得注意的是，训练数据集中的每个音频剪辑都有一个标题，而测试和验证集中的数据各有 5 个真实标题。

克洛托V2

ClothoV2 是一个音频字幕数据集，由来自 FreeSound 平台的剪辑组成，就像 AudioCaps 一样，每个音频剪辑都使用 Amazon Mechanical Turk 平台通过自然语言描述进行人工注释。

波形帽

与 AudioSet 一样，WavCaps 是一个弱标记的大规模音频数据集，包含超过 400,000 个带字幕的音频剪辑，总运行时间约为 7568 小时的训练数据。 WavCaps 数据集中的音频剪辑源自各种音频源，包括 BBC Sound Effects、AudioSet、FreeSound、SoundBible 等。

培训详情

在训练阶段，AudioSep 模型随机采样来自训练数据集中两个不同音频片段的两个音频片段，然后将它们混合在一起以创建训练混合物，其中每个音频片段的长度约为 5 秒。然后，该模型使用大小为 1024、跳数为 320 的 Hann 窗从波形信号中提取复杂的频谱图。

然后，该模型利用 CLIP/CLAP 模型的文本编码器来提取文本嵌入，其中文本监督是 AudioSep 的默认配置。对于分离模型，AudioSep 框架使用由 30 层、6 个编码器块和 6 个解码器块组成的 ResUNet 层，类似于通用声音分离框架中遵循的架构。此外，每个编码器块具有两个内核大小为3×3的卷积层，编码器块的输出特征图的数量分别为32、64、128、256、512和1024。解码器块与编码器块共享对称性，开发人员应用 Adam 优化器来训练批量大小为 96 的 AudioSep 模型。

评估结果

在所见数据集上

下图比较了AudioSep框架在训练阶段（包括训练数据集）所见数据集上的性能。下图表示AudioSep框架与包括Speech在内的基线系统相比的基准评估结果增强模型、 LASS 和 CLIP。具有CLIP文本编码器的AudioSep模型表示为AudioSep-CLIP，而具有CLAP文本编码器的AudioSep模型表示为AudioSep-CLAP。

从图中可以看出，当使用音频字幕或文本标签作为输入查询时，AudioSep 框架表现良好，结果表明与之前的基准 LASS 和音频查询声音分离模型相比，AudioSep 框架具有优越的性能。

关于看不见的数据集

为了评估 AudioSep 在零样本设置下的性能，开发人员继续在未见过的数据集上评估其性能，AudioSep 框架在零样本设置下提供了令人印象深刻的分离性能，结果如下图所示。

此外，下图显示了针对 Voicebank-Demand 语音增强评估 AudioSep 模型的结果。

AudioSep 框架的评估表明在零样本设置中对未见过的数据集具有强大且理想的性能，从而为在新数据分布上执行声音操作任务铺平了道路。

分离结果的可视化

下图显示了开发人员使用 AudioSep-CLAP 框架对真实目标音频源、使用不同音频或声音的文本查询的音频混合和分离音频源进行声谱图可视化时获得的结果。结果使开发人员能够观察到频谱图的分离源模式接近真实的源，这进一步支持了实验期间获得的客观结果。

文本查询比较

开发人员评估了AudioSep-CLAP和AudioSep-CLIP在AudioCaps Mini上的性能，开发人员利用AudioSet事件标签、AudioCaps字幕和重新注释的自然语言描述来检查不同查询的效果，如下该图显示了 AudioCaps Mini 的运行示例。

结论

音频九月是一个基础模型，其开发目的是成为一个开放域通用声音分离框架，使用自然语言描述进行音频分离。正如在评估过程中观察到的那样，AudioSep 框架能够通过使用音频字幕或文本标签作为查询来无缝执行零样本和无监督学习。 AudioSep 的结果和评估性能表明其性能强劲，优于当前最先进的声音分离框架（如 LASS），并且它可能足以解决当前流行的声音分离框架的局限性。

相关话题：音频音频分离器 CLAP CLIP

下一步

AutoGen：为下一代大型语言模型应用程序提供动力

不要错过

连接大型语言模型和业务：LLMops

库纳尔·凯杰里瓦尔

“职业工程师，心灵作家”。 Kunal 是一位技术作家，对人工智能和机器学习有着深厚的热爱和理解，致力于通过他引人入胜且信息丰富的文档来简化这些领域的复杂概念。

联合人工智能

AudioSep ：分离您描述的任何内容

人工智能

AudioSep ：分离您描述的任何内容

目录

CASA、USS、QSS、LASS 框架：AudioSep 的基础