Connect with us

AudioSep : ไปปๆ„์˜ ๊ฒƒ์„ ์„ค๋ช…๋Œ€๋กœ ๋ถ„๋ฆฌ

์ธ๊ณต์ง€๋Šฅ

AudioSep : ไปปๆ„์˜ ๊ฒƒ์„ ์„ค๋ช…๋Œ€๋กœ ๋ถ„๋ฆฌ

mm

LASS 또는 언어 쿼리 오디오 소스 분리是一种新的范式,用于计算听觉场分析(CASA),旨在使用自然语言查询从给定的音频混合中分离目标声音。虽然过去几年中,LASS 框架在特定音频源(如乐器)方面取得了显著进展,但它们无法在开放域中分离目标音频。

AudioSep是一种基础模型,旨在通过使用自然语言查询来分离目标音频,从而解决LASS框架的当前限制。AudioSep框架的开发人员在大量的大规模多模态数据集上进行了广泛的训练,并在包括乐器分离、音频事件分离和语音增强在内的各种音频任务中评估了该框架的性能。AudioSep的初始性能满足了基准标准,因为它展示了令人印象深刻的零样本学习能力和强大的音频分离性能。

在本文中,我们将更深入地探讨AudioSep框架的工作原理,我们将评估模型的架构、用于训练和评估的数据集以及AudioSep模型工作中的基本概念。因此,让我们首先介绍CASA框架的基本介绍。

CASA, USS, QSS, LASS 框架:AudioSep的基础

CASA 或计算听觉场分析框架是一种框架,开发人员用于设计机器听觉系统,这些系统可以像人类使用听觉系统一样感知复杂的声环境。声音分离,特别是目标声音分离,是CASA框架内的一个基本研究领域,旨在解决“鸡尾酒会问题”或将实际音频录音从个别音频源录音或文件中分离。声音分离的重要性主要归因于其广泛的应用,包括音乐源分离、音频源分离、语音增强、目标声音识别等。

过去大部分关于声音分离的工作主要集中在分离一个或多个音频源,例如音乐分离或语音分离。一个名为USS或通用声音分离的新模型旨在分离实际音频录音中的任意声音。然而,主要由于世界上存在大量不同的声音源,这使得从音频混合中分离每个声音源成为一个具有挑战性和限制性的任务,这也是USS方法不适合实时运行的实际应用的主要原因。

USS方法的可行替代方案是QSS或基于查询的音频分离方法,该方法旨在根据特定的查询从音频混合中分离单个或目标声音源。由于此,QSS框架允许开发人员和用户根据需要从混合中提取所需的音频源,使QSS方法成为数字实际应用(如多媒体内容编辑或音频编辑)的更实用解决方案。

此外,开发人员最近提出了QSS框架的扩展,即LASS框架或语言查询音频源分离框架,该框架旨在使用目标音频源的自然语言描述从音频混合中分离任意声音源。由于LASS框架允许用户使用一组自然语言指令提取目标音频源,因此它可能成为具有广泛应用的强大工具,特别是在数字音频应用中。当与传统的音频查询或视觉查询方法相比时,使用自然语言指令进行音频分离提供了更大的优势,因为它增加了灵活性,并使查询信息的获取更加容易和方便。此外,与使用预定义指令集的标签查询音频分离框架相比,LASS框架不限制输入查询的数量,并且可以无缝地推广到开放域。

最初,LASS框架依赖于监督学习,其中模型在一组标记的音频-文本对数据上进行训练。然而,这种方法的主要问题是标记和标注的音频-文本数据的可用性有限。为了减少LASS框架对标记音频-文本数据的依赖,模型使用多模态监督学习方法进行训练。使用多模态监督方法的主要目标是使用多模态对比预训练模型(如CLIP或对比语言图像预训练模型)作为框架的查询编码器。由于CLIP框架可以将文本嵌入与其他模态(如音频或视觉)对齐,因此它允许开发人员使用数据丰富的模态训练LASS模型,并允许在零样本设置中与文本数据进行干预。然而,当前的LASS框架主要使用小规模数据集进行训练,LASS框架在数百个潜在域中的应用尚待探索。

为了解决LASS框架的当前限制,开发人员引入了AudioSep,一种基础模型,旨在使用自然语言描述从音频混合中分离声音。AudioSep的当前重点是开发一个预训练的音频分离模型,该模型利用现有的大规模多模态数据集来实现LASS模型在开放域应用中的泛化。总之,AudioSep模型是:“使用自然语言查询或描述在开放域中进行通用声音分离的基础模型,训练在大规模音频和多模态数据集上”。

AudioSep:关键组件和架构

AudioSep框架的架构由两个关键组件组成:文本编码器和分离模型。

文本编码器

AudioSep框架使用CLIP或对比语言图像预训练模型的文本编码器或CLAP或对比语言音频预训练模型来从自然语言查询中提取文本嵌入。输入文本查询由“N”个标记序列组成,然后由文本编码器处理以提取给定输入语言查询的文本嵌入。文本编码器使用变换器块堆栈来编码输入文本标记,并且输出表示形式在通过变换器层后聚合,从而产生一个具有固定长度的D维向量表示,其中D对应于CLAP或CLIP模型的维度,而文本编码器在训练期间被冻结。

CLIP模型是在大规模图像-文本对数据集上使用对比学习进行预训练的,这也是其文本编码器学习将文本描述映射到语义空间的原因,该空间也由视觉表示共享。AudioSep使用CLIP的文本编码器的优势在于它现在可以从未标记的音频-视觉数据中扩大或训练LASS模型,使用视觉嵌入作为替代,从而实现LASS模型的训练无需标记音频-文本数据。

CLAP模型的工作方式与CLIP模型类似,使用对比学习目标,使用文本和音频编码器来连接音频和语言,将文本和音频描述带到一个音频-文本潜在空间中。

分离模型

AudioSep框架使用频率域ResUNet模型作为分离骨干,该模型输入为音频混合。框架首先将短时傅里叶变换(STFT)应用于波形以提取复杂谱图、幅度谱图和X的相位。然后,模型遵循相同的设置,并构建编码器-解码器网络来处理幅度谱图。

ResUNet编码器-解码器网络由6个残差块、6个解码器块和4个瓶颈块组成。每个编码器块中的谱图使用4个残差卷积块将其下采样到瓶颈特征,而解码器块使用4个残差反卷积块通过上采样特征来获得分离组件。每个编码器块和其对应的解码器块之间建立了跳过连接,操作在相同的上采样或下采样率。框架中的残差块由2个泄漏ReLU激活层、2个批量归一化层和2个CNN层组成。此外,框架还引入了一个额外的残差快捷方式,连接每个残差块的输入和输出。ResUNet模型以复杂谱图X为输入,并产生幅度掩码M作为输出,相位残差由文本嵌入条件化,控制谱图的幅度和旋转角度。然后,可以通过将预测的幅度掩码和相位残差与混合的STFT相乘来提取分离的复杂谱图。

在其框架中,AudioSep使用FiLm或特征级线性调制层来连接分离模型和文本编码器,部署在ResUNet中的卷积块之后。

训练和损失

在AudioSep模型的训练过程中,开发人员使用响亮度增强方法,并使用L1损失函数在预测波形和真实波形之间训练AudioSep框架。

数据集和基准

如前所述,AudioSep是一种基础模型,旨在解决LASS模型对标记音频-文本对数据集的当前依赖。AudioSep模型在一系列数据集上进行训练,以使其具有多模态学习能力,以下是开发人员用于训练AudioSep框架的数据集和基准的详细描述。

AudioSet

AudioSet是一个大规模的弱标记音频数据集,包含超过200万个10秒的音频片段,直接从YouTube中提取。AudioSet数据集中的每个音频片段都根据声音类别的存在或不存在进行分类,而不提供声音事件的具体时间细节。AudioSet数据集包含超过500个不同的音频类别,包括自然声音、人类声音、车辆声音等。

VGGSound

VGGSound数据集是一个大规模的视觉-音频数据集,与AudioSet类似,也是从YouTube中获取的,包含超过20万个10秒的视频片段。VGGSound数据集被分类为超过300个声音类别,包括人类声音、自然声音、鸟类声音等。使用VGGSound数据集可以确保产生目标声音的对象在对应的视觉片段中也是可描述的。

AudioCaps

AudioCaps是目前可用的最大的音频字幕数据集,包含超过5万个10秒的音频片段,从AudioSet数据集中提取。AudioCaps数据集被划分为三个类别:训练数据、测试数据和验证数据,音频片段使用Amazon Mechanical Turk平台用自然语言描述进行人工注释。值得注意的是,训练数据集中的每个音频片段都有一个字幕,而测试和验证数据集中的每个音频片段都有5个真实字幕。

ClothoV2

ClothoV2是一个音频字幕数据集,包含来自FreeSound平台的片段,就像AudioCaps一样,每个音频片段都使用Amazon Mechanical Turk平台用自然语言描述进行人工注释。

WavCaps

与AudioSet类似,WavCaps是一个大规模的弱标记音频数据集,包含超过40万个带有字幕的音频片段,总运行时间约为7568小时的训练数据。WavCaps数据集中的音频片段来自多个音频源,包括BBC Sound Effects、AudioSet、FreeSound、SoundBible等。

训练细节

在训练阶段,AudioSep模型从训练数据集中随机采样两个来自不同音频片段的音频段,然后将它们混合在一起创建一个训练混合, 每个音频段的长度约为5秒。然后,模型从波形信号中使用Hann窗口(大小为1024,hop大小为320)提取复杂谱图。

然后,模型使用CLIP/CLAP模型的文本编码器来提取文本嵌入,文本监督是AudioSep的默认配置。对于分离模型,AudioSep框架使用一个具有30层、6个编码器块和6个解码器块的ResUNet层,类似于通用声音分离框架中使用的架构。此外,每个编码器块都有两个卷积层,具有3×3的内核大小,编码器块的输出特征图的数量分别为32、64、128、256、512和1024。解码器块与编码器块对称,开发人员使用Adam优化器来训练AudioSep模型,批量大小为96。

评估结果

在已见数据集上

以下图表比较了AudioSep框架在训练阶段的已见数据集上的性能,包括训练数据集。以下图表表示AudioSep框架在与基准系统(包括语音增强模型、LASS和CLIP)相比时的基准评估结果。使用CLIP文本编码器的AudioSep模型表示为AudioSep-CLIP,而使用CLAP文本编码器的AudioSep模型表示为AudioSep-CLAP。

如图所示,AudioSep框架在使用音频字幕或文本标签作为查询输入时表现良好,结果表明AudioSep框架在与之前的基准LASS和音频查询声音分离模型相比时具有更好的性能。

在未见数据集上

为了评估AudioSep在零样本设置中的性能,开发人员继续评估其在未见数据集上的性能,AudioSep框架在零样本设置中实现了令人印象深刻的分离性能,结果如下图所示。

此外,以下图像显示了AudioSep模型与Voicebank-Demand语音增强的评估结果。

AudioSep框架的评估结果表明,在零样本设置中的未见数据集上具有强大且理想的性能,这为在新数据分布上执行声音操作任务铺平了道路。

分离结果的可视化

以下图表显示了当开发人员使用AudioSep-CLAP框架对不同音频或声音的文本查询进行分离时的分离结果的可视化。结果允许开发人员观察到分离源的谱图模式接近真实源,这进一步支持了实验中获得的目标结果。

文本查询的比较

开发人员评估了AudioSep-CLAP和AudioSep-CLIP在AudioCaps Mini上的性能,并使用AudioSet事件标签、AudioCaps字幕和重新注释的自然语言描述来检查不同的查询的影响,以下图表显示了AudioCaps Mini的一个示例。

结论

AudioSep是一种基础模型,旨在成为一种开放域的通用声音分离框架,使用自然语言描述进行音频分离。如评估结果所示,AudioSep框架能够通过使用音频字幕或文本标签作为查询输入来执行零样本和无监督学习。AudioSep的结果和评估性能表明其具有强大的性能,超越了当前的状态音频分离框架,如LASS,并且可能能够解决流行的音频分离框架的当前限制。

์ „๋ฌธ์ง์œผ๋กœ์„œ์˜ ์—”์ง€๋‹ˆ์–ด, ๋งˆ์Œ์œผ๋กœ์„œ์˜ ์ž‘๊ฐ€์ž…๋‹ˆ๋‹ค. Kunal์€ AI์™€ ML์— ๋Œ€ํ•œ ๊นŠ์€ ์‚ฌ๋ž‘๊ณผ ์ดํ•ด๋ฅผ ๊ฐ€์ง„ ๊ธฐ์ˆ  ์ž‘๊ฐ€๋กœ, ์ด๋Ÿฌํ•œ ๋ถ„์•ผ์˜ ๋ณต์žกํ•œ ๊ฐœ๋…์„ ํฅ๋ฏธ๋กญ๊ณ  ์ •๋ณด์ ์ธ ๋ฌธ์„œ๋ฅผ ํ†ตํ•ด ๋‹จ์ˆœํ™”ํ•˜๋Š”๋ฐ ํ—Œ์‹ ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.