人工智能

OpenVoice：多功能即时语音克隆

更新 on 2024 年 2 月 5 日

在文本到语音合成 (TTS) 中，即时语音克隆 (IVC) 使 TTS 模型能够使用短音频样本克隆任何参考说话者的声音，而无需对参考说话者进行额外的训练。该技术也称为零样本文本到语音合成。即时语音克隆方法允许灵活定制生成的语音，并在各种现实情况下展示出显着的价值，包括定制的聊天机器人、内容创建以及人类与大型语言模型 (LLM) 之间的交互。

尽管当前的语音克隆框架做得很好，但它们在该领域仍面临一些挑战，包括 灵活的语音风格控制 ie模型在克隆语音后缺乏灵活操控语音风格的能力。当前即时克隆框架遇到的另一个主要障碍是 零样本跨语言语音克隆 即，出于训练目的，当前模型需要访问广泛的大规模说话者多语言或 MSML 数据集，无论使用何种语言。

为了解决这些问题，并为增强即时语音克隆模型做出贡献，开发人员致力于开发 OpenVoice，这是一种多功能即时语音克隆框架，可以复制任何用户的语音，并使用来自参考说话者的简短音频片段生成多种语言的语音。 OpenVoice 演示了即时语音克隆模型可以复制参考说话者的音色，并实现对语音风格的精细控制，包括口音、节奏、语调、停顿，甚至情绪。更令人印象深刻的是，OpenVoice 框架还展示了对 MSML 数据集外部语言实现零样本跨语言语音克隆的卓越功能，允许 OpenVoice 将语音克隆到新语言中，而无需对该语言进行大量预训练。 OpenVoice 设法提供卓越的即时语音克隆结果，同时在计算上可行，运营成本比当前可用的性能较差的 API 低 10 倍。

在本文中，我们将深入讨论 OpenVoice 框架，并将揭示其架构，该架构使其能够在即时语音克隆任务中提供卓越的性能。那么让我们开始吧。

OpenVoice：实现多功能即时语音克隆

前面提到过，即时语音克隆，也称为零样本文本语音合成，允许 TTS 模型使用短音频样本克隆任何参考说话人的声音，而不需要对参考说话人进行任何额外的训练。即时语音克隆一直是一个热门研究课题，现有的工作包括 XTTS 和 VALLE 框架，它们从参考音频中提取说话人嵌入和/或声学标记，作为自回归模型的条件。然后，自回归模型依次生成声音标记，然后将这些标记解码为原始音频波形。

尽管自回归即时语音克隆模型可以显着地克隆音色，但它们在控制其他风格参数（包括重音、情感、停顿和节奏）方面存在不足。此外，自回归模型的推理速度也较低，且运营成本较高。 YourTTS 框架等现有方法采用非自回归方法，与自回归方法框架相比，其推理语音速度明显加快，但仍然无法为用户提供对样式参数的灵活控制。此外，基于自回归和非自回归的即时语音克隆框架都需要访问大型 MSML 或大量说话人多语言数据集以进行跨语言语音克隆。

为了解决当前即时语音克隆框架面临的挑战，开发人员研究了 OpenVoice，这是一个开源即时语音克隆库，旨在解决当前 IVC 框架面临的以下挑战。

第一个挑战是使 IVC 框架能够灵活控制除音色之外的风格参数，包括重音、节奏、语调和停顿。风格参数对于生成上下文中的自然对话和语音至关重要，而不是单调地叙述输入文本。
第二个挑战是使 IVC 框架能够在零样本环境中克隆跨语言语音。
最后的挑战是在不降低质量的情况下实现高实时推理速度。

为了解决前两个障碍，OpenVoice 框架的架构旨在最大限度地解耦语音中的组件。此外，OpenVoice 独立生成音色、语言和其他语音特征，使框架能够灵活地操纵各个语言类型和语音风格。 OpenVoice 框架默认解决了第三个挑战，因为解耦结构降低了计算复杂性和模型大小要求。

OpenVoice：方法论和架构

OpenVoice 框架的技术框架非常有效，而且实现起来非常简单。众所周知，克隆任何说话者的音色、添加新语言并同时实现对语音参数的灵活控制可能具有挑战性。之所以如此，是因为同时执行这三个任务需要使用大量组合数据集来使受控参数相交。此外，在常规的单扬声器中文本到语音合成，对于不需要语音克隆的任务，添加对其他样式参数的控制会更容易。在此基础上，OpenVoice 框架旨在将即时语音克隆任务分解为子任务。该模型建议使用基础说话人文本转语音模型来控制语言和风格参数，并采用音色转换器将参考音色包含到生成的语音中。下图展示了该框架的架构。

OpenVoice 框架的核心采用两个组件：音色转换器和基本说话者文本转语音或 TTS 模型。基本说话人文本转语音模型是单说话人或多说话人模型，允许精确控制风格参数、语言和口音。该模型生成语音，然后将其传递到音色转换器，将基本扬声器音色更改为参考扬声器的音色。

OpenVoice 框架在基本说话者文本到语音模型方面提供了很大的灵活性，因为它可以采用 VITS 模型，稍加修改，使其能够在其持续时间预测器和文本编码器中接受语言和风格嵌入。该框架还可以采用商业上便宜的 Microsoft TTS 等模型，或者可以部署能够接受样式提示的 InstructTTS 等模型。目前，OpenVoice框架采用VITS模型，尽管其他模型也是可行的选择。

谈到第二个组件，色调颜色转换器是一个编码器-解码器组件，在中心容纳可逆标准化流。音色转换器中的编码器组件是一个一维 CNN，它接受基本说话者文本到语音模型的短时傅里叶变换频谱作为其输入。然后编码器生成特征图作为输出。音色提取器是一个简单的二维 CNN，它对输入语音的梅尔频谱图进行操作，并生成单个特征向量作为对音色信息进行编码的输出。归一化流层接受编码器生成的特征图作为输入，并生成保留所有风格属性但消除音色信息的特征表示。然后，OpenVoice 框架以相反的方向应用归一化流层，并将特征表示作为输入并输出归一化流层。然后，该框架使用一堆转置一维卷积将归一化流层解码为原始波形。

OpenVoice 框架的整个架构是前馈的，没有使用任何自回归组件。音色转换器组件在概念层面上与语音转换类似，但在功能、训练目标和模型结构中的归纳偏差方面有所不同。标准化流层与基于流的文本到语音模型具有相同的结构，但在功能和训练目标方面有所不同。

此外，存在一种不同的方法来提取特征表示，OpenVoice 框架实现的方法可提供更好的音频质量。还值得注意的是，OpenVoice 框架无意在模型架构中发明组件，而是主要组件（即音色转换器和基础说话人 TTS 模型）均源自现有作品。 OpenVoice框架的主要目标是形成一个解耦框架，将语言控制和语音风格与音色克隆分开。尽管该方法非常简单，但它非常有效，尤其是在控制风格和重音的任务或新语言泛化任务上。使用耦合框架时实现相同的控制需要大量的计算和数据，并且不能很好地推广到新语言。

OpenVoice 框架的核心理念是将语言和语音风格的生成与音色的生成解耦。 OpenVoice 框架的主要优势之一是，只要单人 TTS 说话流利，克隆语音就流畅且高质量。

OpenVoice：实验和结果

由于多种原因，评估语音克隆任务是一个艰巨的目标。首先，现有的作品通常采用不同的训练和测试数据，这使得比较这些作品本质上是不公平的。尽管众包可用于评估平均意见得分等指标，但测试数据的难度和多样性将显着影响整体结果。其次，不同的语音克隆方法有不同的训练数据，这些数据的多样性和规模对结果影响很大。最后，现有作品的主要目标往往彼此不同，因此它们的功能也有所不同。

由于上述三个原因，对现有的语音克隆框架进行数值比较是不公平的。相反，定性比较这些方法更有意义。

准确的音色克隆

为了分析其性能，开发人员构建了一个测试集，以匿名个人、游戏角色和名人为参考说话者基础，并具有广泛的声音分布，包括中性样本和独特的表达声音。 OpenVoice 框架能够克隆参考音色，并为任何参考说话者和 4 个基本说话者生成多种语言和口音的语音。

灵活控制音色

OpenVoice 框架的目标之一是使用音色转换器灵活地控制语音风格，该转换器可以修改音色，同时保留所有其他语音特征和属性。

实验表明，该模型在转换为参考音色后保留了语音风格。然而，在某些情况下，模型会稍微中和情绪，这个问题可以通过向流层传递较少的信息以使它们无法摆脱情绪来解决。由于使用了音色转换器，OpenVoice 框架能够保留基本声音的风格。它允许 OpenVoice 框架操纵基本扬声器文本到语音模型，以轻松控制语音风格。

跨语言语音克隆

OpenVoice 框架不包含任何未见过的语言的海量说话人数据，但它能够在零样本设置中实现近乎跨语言的语音克隆。 OpenVoice 框架的跨语言语音克隆功能有两个方面：

当参考说话人的语言在多说话人多语言或 MSML 数据集中看不到时，该模型能够准确克隆参考说话人的音色。
此外，在看不到参考说话人的语言的情况下，OpenVoice 框架能够克隆参考说话人的声音，并在基本说话人文本到语音模型支持该语言的情况下以该语言说话。

最后的思考

在本文中，我们讨论了 OpenVoice，这是一种多功能即时语音克隆框架，它可以复制任何用户的声音，并使用参考扬声器的简短音频片段生成多种语言的语音。 OpenVoice 背后的主要直觉是，只要模型不必执行参考说话人的音色克隆，框架就可以采用基础说话人 TTS 模型来控制语言和语音风格。

OpenVoice 演示了即时语音克隆模型可以复制参考说话者的音色，并实现对语音风格的精细控制，包括口音、节奏、语调、停顿，甚至情绪。 OpenVoice 设法提供卓越的即时语音克隆结果，同时在计算上可行，运营成本比当前可用的性能较差的 API 低 10 倍。

联合人工智能

OpenVoice：多功能即时语音克隆

人工智能

OpenVoice：多功能即时语音克隆

目录

OpenVoice：实现多功能即时语音克隆

OpenVoice：方法论和架构