人工智能

HierSpeech++：零样本语音合成的分层变分推理

更新 on 2024 年 7 月 29 日

库纳尔·凯杰里瓦尔

大型语言模型能力的最新发展和进步对于基于 LLM 的音频生成和语音合成任务框架的进步发挥了至关重要的作用，特别是在零样本设置中。由于集成了诸如用于离散音频和语音单元的神经音频编解码器等附加功能，传统的语音合成框架取得了显着的进步。尽管这些语音和音频合成框架提供了令人满意的结果，但仍有改进的空间，因为当前基于LLM的音频框架存在以下三个主要局限性

它们倾向于自动生成音频输出，最终导致缺乏鲁棒性和缓慢的干扰速度，并导致发音错误、跳过或重复。
他们倾向于过度依赖离散语音单元或预先训练的神经音频编解码器。
他们通常需要大量的训练数据。

为了解决上述问题，并提高基于 LLM 的音频和语音合成模型的能力，开发人员提出了 HierSpeech++，这是一种强大且高效的零样本语音合成器，用于语音和文本到语音或 TTS 转换。 HierSpeech++ 框架建立在分层语音合成框架的学习基础上，不仅提高了鲁棒性，而且增加了合成语音输出的表现力，同时即使在零样本设置下也提高了人工生成语音的自然度和说话者相似度。

在本文中，我们将详细讨论 HierSpeech++ 框架，并与最先进的文本和音频生成模型进行比较，看看该模型的架构、工作原理和结果。那么让我们开始吧。

HierSpeech++：零样本语音合成的分层变分推理

HierSpeech++ 是一种快速、稳健、高效的零样本语音合成框架，采用分层语音合成管道，通过采用这种端到端语音合成框架，HierSpeech++ 模型能够最大限度地发挥高质量波形生成的潜力通过采用自监督语音表示作为语义语音表示，分层地弥合语义表示和声学表示之间的差距，从而尝试解决当前风格适应的局限性。端到端语音合成框架首先由 VITS 模型引入，它采用 VAE 或变分自动编码器，增强了对抗性训练和标准化流程。此外，具有端到端训练管道的基于 VAE 的框架能够生成高质量的波形音频，其感知语音合成质量明显优于其他语音合成框架生成的质量。

通过使用 HierSpeech 框架中使用的分层条件变分自动编码器，可以进一步增强这些框架的音频重建质量。尽管有潜力，基于端到端训练管道的模型具有一定的局限性，特别是在零样本设置中，因为即使它们可以合成具有高质量音频的语音样本，但零样本语音克隆任务中的说话人相似度仍然很高。计算复杂度。另一方面，基于扩散的语音合成模型在说话人适应方面表现良好，但它们仍然远非完美，因为它们使用了交互式生成过程，这会减慢其推理速度，它们通常容易受到噪声数据的影响，并且由于训练和推理之间的不匹配梅尔频谱图和生成的地面实况之间的两阶段生成过程导致音频质量达不到标准。

为了解决其前身所面临的问题，HierSpeech++ 模型采用了分层语音合成器、语音超分辨率和文本到向量组件，并引入了基于分层条件 VAE 或变分自动编码器构建的改进的分层语音合成器。为了将音频质量提升到感知质量之外，HierSpeech++ 框架采用双音频来增强声学后验，并通过采用配备有条件和无条件生成的分层自适应生成器来增强分布泛化。此外，为了解开语音成分，增强与说话人相关和与说话人无关的语义信息，HierSpeech++框架还采用了基于源过滤理论的多路径语义编码器。由于采用了变分自动编码器，HierSpeech++ 模型可以分层连接和学习表示，并逐步适应目标语音风格以推断波形音频。此外，HierSpeech++框架还部署了归一化流Transformers的双向网络，试图增强适应性，并减少训练和推理之间的不匹配。

总体而言，HierSpeech++模型是一个完全并行、新颖且鲁棒的分层语音合成框架，旨在零样本环境下合成语音样本，并尝试做出以下贡献

使用分层语音合成框架来控制和传输语音风格和韵律。
通过对 16 至 48 kHz 的波形音频进行上采样，实现数据可扩展性和高分辨率语音合成。
在零次语音转换和文本到语音任务中实现人类水平的能力。

HierSpeech++：模型组件和架构

正如所讨论的，HierSpeech++ 是一种零样本语音合成模型，试图在语音相似度和语音自然度方面达到人类水平的准确性。

HierSpeech++模型由不同的组件组成，包括分层语音合成器、语音超分辨率和文本到向量到TTV，这些组件彼此同步工作，以方便每个模型的训练，从而有效地利用大量低用于语音克隆的分辨率语音数据。让我们分解一下框架，并讨论每个组件。

语音表示

由于人类的频带低于 4 kHz，为了进行语音合成，HierSpeech++ 框架以 16 kHz 的频率对音频进行下采样。此外，为了重建语音信号，除了对音频样本进行下采样之外，使用至少两倍的语音最高分量也至关重要。为了获得增强的感知质量，HierSpeech++ 框架利用语音超分辨率或 SpeechSR 组件将音频样本从 16 kHz 上采样到 48 kHz，并利用低分辨率表示进行语义和声学表示。

对于声学表示，传统的文本到语音或 TTS 框架采用梅尔声谱图作为其中间声学特征，然后借助 STFT 或短时傅里叶变换从波形进行转换。然而，值得注意的是，由于声学特征是包含内容、发音、语音信息等各种属性的丰富表示，这使得框架很难推断这些表示，这种情况经常导致发音错误、缺乏相似性、或言语过于平滑。

接下来，为了从波形中提取连续的语义表示，HierSpeech++ 框架利用 Wav2Vec 框架，这与流行的语义表示自监督语音表示方法形成鲜明对比。尽管该方法确实是丰富的单语言模型的一个很好的替代方案，但它在鲁棒性和表达力方面影响了模型的零样本语音克隆能力，尤其是在多语言语音合成任务上。

分层语音合成器

分层语音合成器组件是 HierSpeech++ 框架的基石，因为它允许在不使用文本记录或说话者 ID 等任何标签的情况下训练模块，并且仅依赖于语音数据。为了增加声学能力，先前最先进的语音合成模型用线性频谱图取代了梅尔频谱图，然而，该方法在音高周期、PESQ、语音和非语音分数、甚至梅尔频谱方面最小化了 KL 散度分数。谱图距离。分层语音合成器采用双音频声学编码器来解决使用旨在捕获更丰富、更全面的声学表示的线性频谱图所带来的挑战。该框架还采用波形编码器从原始波形音频中提取信息，并将其与线性频谱图表示连接起来，最后将声学表示投影为连接表示。

此外，为了处理与说话人无关和与说话人相关的语义表示，HierSpeech++ 框架利用多路径自监督语音表示，其中每个单独的表示用于分层风格适应，并提取语义表示以从语义表示中获取语言信息。彩信的中间层。该框架还利用基频来增强语音解缠结，从而能够手动控制音调轮廓。该框架还使用语言表示作为条件信息来分层生成波形音频，并使用自监督表示的增强语言表示。还值得注意的是，在训练期间使用波形和线性频谱图提取的声学表示用于重建原始波形音频，并使用分层变分推理将声学表示与多路径语言表示联系起来。该框架还采用了分层自适应生成器(HAG)以生成语义到波形样本，并且所生成的包括风格表示和声学表示的表示被馈送到源和波形生成器。

文本到 Vec

对于文本到语音合成，HierSpeech++ 框架采用文本到 vec 或 TTV 模型，从文本序列生成基频和语义表示，并利用单调对齐搜索与变分自动编码器相结合在内部对齐语音和文本。然后，HierSpeech++ 框架用自监督线性表示替换线性频谱图，并重建相同的表示作为 TTV 的输出。

此外，与自监督语音表示相比，HierSpeech++ 框架以四倍的分辨率预测基频，并使用条件文本表示作为先验信息。由于自监督语音表示的语义信息，该框架能够将文本中的韵律风格转移到 vec 模型，并将潜在表示提供给音素编码器以增强表示的语言能力。

SpeechSR 或语音超分辨率

HierSpeech++ 框架在数据效率和可用性方面在相对低分辨率的数据集上进行训练，并将低分辨率语音波形上采样为 16 至 48 kHz 的高分辨率语音波形。该框架还用最近邻上采样器取代了转置卷积，此前已知该上采样器可以减轻转置卷积造成的伪影。

卓越

文本到向量模型的内容编码器由 16 个非随机 WaveNet 层组成，内核大小为 5，隐藏大小为 256，而内容解码器由 8 个非随机 WaveNet 层组成，内核大小为 5，隐藏大小为 512。隐藏大小为 9。文本编码器组件由三个韵律条件 Transformer 网络和三个无条件 Transformer 网络组成，内核大小为 1024，滤波器大小为 256，隐藏大小为 0.2，文本编码器的丢失率为 5。为了编码相邻信息并增强韵律风格适应，该框架在 Transformer 块中采用内核大小为 32 的 CNN。另一方面，SpeechSR 包含一个具有 XNUMX 个初始通道的 AMP 块，而不存在上采样层。该框架利用最近邻上采样器对隐藏表示进行上采样，并利用 MPD 作为具有六种不同窗口大小的鉴别器和四个子带鉴别器。

上图展示了 HierSpeech++ 框架的推理流程，首先从频率为 16kHz 的音频中提取语义表示，并使用 YAPPT 算法在基频上提取语义表示。在将基频馈送到分层合成器之前，使用源音频的标准偏差和平均偏差对其进行归一化，然后使用目标音频的标准偏差和平均偏差对归一化的基频进行反归一化。对于文本到语音提取，HierSpeech++ 框架提取文本表示而不是语音表示，并采用文本到向量模型从韵律提示生成语义表示。

实验与结果

该框架利用公开可用的 LibriTTS 数据集来训练分层合成器组件，第一步是使用数据集的 trainclean 子集来训练模型，并利用剩余数据来增强语音风格的传输。此外，为了提高多样性和鲁棒性，该框架将数据集扩展至 1 kHz，如下图所示。

重建、再合成任务和语音转换

为了评估 HierSpeech++ 框架在重建和重新合成任务上的性能，开发人员进行了七个客观指标，下图分别展示了重建和重新合成任务的结果。

对于语音转换任务，该框架使用两个主观指标进行评估：语音相似度 MOS 或 sMOS 和 nMOS 的自然度平均意见得分，具有三个自然度客观指标和两个相似度客观指标。

接下来，HierSpeech++ 框架的主要目标是实现零样本语音合成，并评估其在零样本中的性能，并将其与 AutoVC、VoiceMixer、基于扩散的模型，以及更多，结果如下图所示。

下图展示了零样本文本转语音结果分别是嘈杂的提示和非常嘈杂的提示。

总结

在本文中，我们讨论了 HierSpeech++ 模型，这是一种在零样本设置中实现稳健、有效的语音合成的新颖方法，并克服了当前语音合成框架所面临的限制，包括过度依赖大量训练数据、对离散语音单元或预先训练的神经音频编解码器的依赖，以及它们自动生成音频输出的倾向，最终导致缺乏鲁棒性和缓慢的干扰速度，并导致发音错误、跳过或重复。 HierSpeech++模型是一个完全并行、新颖且鲁棒的分层语音合成框架，旨在零样本环境下合成语音样本，并尝试做出以下贡献

使用分层语音合成框架来控制和传输语音风格和韵律。
通过对 16 至 48 kHz 的波形音频进行上采样，实现数据可扩展性和高分辨率语音合成。
在零次语音转换和文本到语音任务中实现人类水平的能力。

相关话题：高级语音语音合成系统零射

下一步

彻底改变身体技能：人工智能机器人在迷宫弹珠游戏中超越人类能力

不要错过

Mamba：重新定义序列建模和 Outforming Transformers 架构

库纳尔·凯杰里瓦尔

“职业工程师，心灵作家”。 Kunal 是一位技术作家，对人工智能和机器学习有着深厚的热爱和理解，致力于通过他引人入胜且信息丰富的文档来简化这些领域的复杂概念。

联合人工智能

HierSpeech++：零样本语音合成的分层变分推理

HierSpeech++：零样本语音合成的分层变分推理

HierSpeech++：模型组件和架构

语音表示

分层语音合成器

文本到 Vec

SpeechSR 或语音超分辨率

卓越

实验与结果

重建、再合成任务和语音转换

总结

你可能会喜欢