Connect with us

Intelligence artificielle

OpenVoice: Clonage Vocal Instantané Polyvalent

mm

Dans la synthèse de parole à partir de texte (TTS), le clonage vocal instantané (IVC) permet au modèle TTS de cloner la voix de n’importe quel locuteur de référence à l’aide d’un court échantillon audio, sans nécessiter de formation supplémentaire pour le locuteur de référence. Cette technique est également connue sous le nom de synthèse de parole à partir de texte en un seul essai. L’approche de clonage vocal instantané permet une personnalisation flexible de la voix générée et démontre une valeur significative dans une large gamme de situations réelles, notamment des chatbots personnalisés, la création de contenu et les interactions entre les humains et les grands modèles de langage (LLM).

Bien que les cadres de clonage vocal actuels fassent leur travail correctement, ils sont confrontés à quelques défis dans le domaine, notamment le contrôle flexible du style vocal, c’est-à-dire que les modèles manquent de capacité à manipuler les styles vocaux de manière flexible après avoir cloné la voix. Un autre obstacle majeur rencontré par les cadres de clonage instantané actuels est le clonage vocal cross-linguistique en un seul essai, c’est-à-dire que pour la formation, les modèles actuels nécessitent l’accès à un ensemble de données massives de locuteurs multilingues ou MSML, indépendamment de la langue.

Pour relever ces défis et contribuer à l’amélioration des modèles de clonage vocal instantané, les développeurs ont travaillé sur OpenVoice, un cadre de clonage vocal instantané polyvalent qui reproduit la voix de n’importe quel utilisateur et génère de la parole dans plusieurs langues à l’aide d’un court clip audio du locuteur de référence. OpenVoice démontre que les modèles de clonage vocal instantané peuvent reproduire la couleur de ton du locuteur de référence et atteindre un contrôle granulaire sur les styles vocaux, y compris l’accent, le rythme, l’intonation, les pauses et même les émotions. Ce qui est encore plus impressionnant, c’est que le cadre OpenVoice démontre également des capacités remarquables pour atteindre le clonage vocal cross-linguistique en un seul essai pour les langues externes à l’ensemble de données MSML, permettant à OpenVoice de cloner des voix dans de nouvelles langues sans formation extensive pour cette langue. OpenVoice parvient à fournir des résultats de clonage vocal instantané supérieurs tout en étant viable sur le plan computationnel avec des coûts d’exploitation jusqu’à 10 fois inférieurs à ceux des API actuellement disponibles avec des performances inférieures.

Dans cet article, nous allons parler du cadre OpenVoice en profondeur et nous allons découvrir son architecture qui lui permet de fournir des performances supérieures dans les tâches de clonage vocal instantané. Alors, commençons.

OpenVoice : Activation du clonage vocal instantané polyvalent

Comme mentionné précédemment, le clonage vocal instantané, également appelé synthèse de parole à partir de texte en un seul essai, permet au modèle TTS de cloner la voix de n’importe quel locuteur de référence à l’aide d’un court échantillon audio sans nécessiter de formation supplémentaire pour le locuteur de référence. Le clonage vocal instantané a toujours été un sujet de recherche très actif avec des travaux existants, notamment les cadres XTTS et VALLE, qui extraient l’empreinte du locuteur et/ou les jetons acoustiques à partir de l’audio de référence qui sert de condition pour le modèle auto-régressif. Le modèle auto-régressif génère ensuite des jetons acoustiques de manière séquentielle, puis décode ces jetons en un signal audio brut.

Bien que les modèles de clonage vocal instantané auto-régressifs clonent la couleur de ton de manière remarquable, ils manquent de capacité à manipuler d’autres paramètres de style, notamment l’accent, l’émotion, les pauses et le rythme. De plus, les modèles auto-régressifs connaissent une vitesse d’inférence faible et leurs coûts d’exploitation sont bastante élevés. Les approches existantes, telles que le cadre YourTTS, emploient une approche non auto-régressive qui démontre une vitesse d’inférence de parole significativement plus rapide que les cadres à base de modèle auto-régressif, mais sont toujours incapables de fournir à leurs utilisateurs un contrôle flexible sur les paramètres de style. De plus, les cadres de clonage vocal instantané à base de modèle auto-régressif et non auto-régressif nécessitent l’accès à un ensemble de données massives de locuteurs multilingues ou MSML pour le clonage vocal cross-linguistique.

Pour relever les défis auxquels sont confrontés les cadres de clonage vocal instantané actuels, les développeurs ont travaillé sur OpenVoice, une bibliothèque de clonage vocal instantané open source qui vise à résoudre les défis suivants auxquels sont confrontés les cadres IVC actuels.

  1. Le premier défi est de permettre aux cadres IVC d’avoir un contrôle flexible sur les paramètres de style, en plus de la couleur de ton, notamment l’accent, le rythme, l’intonation et les pauses. Les paramètres de style sont cruciaux pour générer des conversations naturelles et de la parole en contexte, plutôt que de narrer le texte d’entrée de manière monotone.
  2. Le deuxième défi est de permettre aux cadres IVC de cloner des voix cross-linguistiques dans un environnement en un seul essai.
  3. Le dernier défi est d’atteindre des vitesses d’inférence en temps réel élevées sans dégrader la qualité.

Pour relever les deux premiers obstacles, l’architecture du cadre OpenVoice est conçue pour découpler les composants de la voix de manière optimale. De plus, OpenVoice génère la couleur de ton, la langue et d’autres caractéristiques vocales de manière indépendante, permettant ainsi au cadre de manipuler de manière flexible les types de langue et les styles vocaux individuels. Le cadre OpenVoice relève le troisième défi par défaut, car la structure découplée réduit la complexité computationnelle et les exigences de taille de modèle.

OpenVoice : Méthodologie et architecture

Le cadre technique du cadre OpenVoice est efficace et étonnamment simple à mettre en œuvre. Il n’est un secret pour personne que cloner la couleur de ton pour n’importe quel locuteur, ajouter une nouvelle langue et permettre un contrôle flexible sur les paramètres vocaux simultanément peut être difficile. C’est parce que l’exécution de ces trois tâches simultanément nécessite que les paramètres contrôlés se croisent en utilisant une grande partie de l’ensemble de données combinatoires. De plus, dans la synthèse de parole à partir de texte pour un seul locuteur, pour les tâches qui n’exigent pas de clonage vocal, il est plus facile d’ajouter un contrôle sur d’autres paramètres de style. En partant de ces principes, le cadre OpenVoice vise à découpler les tâches de clonage vocal instantané en sous-tâches. Le modèle propose d’utiliser un modèle de synthèse de parole à partir de texte pour un locuteur de base pour contrôler la langue et les paramètres de style, et emploie un convertisseur de couleur de ton pour inclure la couleur de ton de référence dans la voix générée.

Au cœur du cadre OpenVoice, il y a deux composants : un convertisseur de couleur de ton et un modèle de synthèse de parole à partir de texte pour un locuteur de base. Le modèle de synthèse de parole à partir de texte pour un locuteur de base est soit un modèle pour un seul locuteur, soit un modèle pour plusieurs locuteurs, permettant un contrôle précis sur les paramètres de style, la langue et l’accent. Le modèle génère une voix qui est ensuite transmise au convertisseur de couleur de ton, qui change la couleur de ton du locuteur de base en la couleur de ton du locuteur de référence.

Le cadre OpenVoice offre beaucoup de flexibilité lorsqu’il s’agit du modèle de synthèse de parole à partir de texte pour un locuteur de base, car il peut employer le modèle VITS avec des modifications légères, lui permettant d’accepter des embeddings de langue et de style dans son prédicteur de durée et son encodeur de texte. Le cadre peut également employer des modèles comme Microsoft TTS qui sont commercialement abordables, ou il peut déployer des modèles comme InstructTTS qui sont capables d’accepter des invites de style. Pour l’instant, le cadre OpenVoice emploie le modèle VITS, bien que les autres modèles soient également une option viable.

En ce qui concerne le deuxième composant, le convertisseur de couleur de ton est un composant encodeur-décodeur qui abrite un flux de normalisation inversible au centre. Le composant encodeur du convertisseur de couleur de ton est un CNN unidimensionnel qui accepte le spectre transformé de Fourier à court terme du modèle de synthèse de parole à partir de texte pour un locuteur de base comme entrée. L’encodeur génère ensuite des cartes de fonction comme sortie. Le extracteur de couleur de ton est un CNN bidimensionnel simple qui opère sur le mél-spectrogramme de la voix d’entrée et génère un vecteur de fonction unique comme sortie qui encode les informations de la couleur de ton. Les couches de flux de normalisation acceptent les cartes de fonction générées par l’encodeur comme entrée et génèrent une représentation de fonction qui préserve toutes les propriétés de style, mais élimine les informations de couleur de ton. Le cadre OpenVoice applique ensuite les couches de flux de normalisation dans la direction inverse et prend les représentations de fonction comme entrée et sorties des couches de flux de normalisation. Le cadre décode ensuite les couches de flux de normalisation en signaux audio bruts à l’aide d’une pile de convolutions unidimensionnelles transposées.

L’ensemble de l’architecture du cadre OpenVoice est feed forward sans l’utilisation de composants auto-régressifs. Le composant convertisseur de couleur de ton est similaire à la conversion de voix sur un plan conceptuel, mais diffère en termes de fonctionnalité, d’objectifs de formation et de biais inductif dans la structure du modèle. Les couches de flux de normalisation partagent la même structure que les modèles de synthèse de parole à partir de texte basés sur le flux, mais diffèrent en termes de fonctionnalité et d’objectifs de formation.

De plus, il existe une approche différente pour extraire les représentations de fonction, la méthode mise en œuvre par le cadre OpenVoice fournit une meilleure qualité audio. Il est également important de noter que le cadre OpenVoice n’a pas l’intention d’inventer des composants dans l’architecture du modèle, mais les deux principaux composants, à savoir le convertisseur de couleur de ton et le modèle de synthèse de parole à partir de texte pour un locuteur de base, sont tous deux issus de travaux existants. L’objectif principal du cadre OpenVoice est de former un cadre découplé qui sépare le contrôle de la langue et du style vocal de la couleur de ton. Bien que l’approche soit assez simple, elle est très efficace, en particulier pour les tâches qui contrôlent les styles et les accents, ou les tâches de généralisation de nouvelle langue. Atteindre le même contrôle en utilisant un cadre couplé nécessite une grande quantité de calcul et de données et ne se généralise pas bien à de nouvelles langues.

Au cœur du cadre OpenVoice, la philosophie principale est de découpler la génération de la langue et des styles vocaux de la génération de la couleur de ton. L’une des principales forces du cadre OpenVoice est que la voix clonée est fluide et de haute qualité, tant que le modèle de synthèse de parole à partir de texte pour un seul locuteur parle de manière fluide.

OpenVoice : Expérimentation et résultats

Évaluer les tâches de clonage vocal est un objectif difficile en raison de nombreuses raisons. Tout d’abord, les travaux existants emploient souvent des données de formation et de test différentes, ce qui rend la comparaison de ces travaux intrinsèquement injuste. Bien que le crowdsourcing puisse être utilisé pour évaluer des métriques comme le score d’opinion moyen, la difficulté et la diversité des données de test influenceront considérablement le résultat final. Deuxièmement, les différentes méthodes de clonage vocal ont des données de formation différentes et la diversité et l’échelle de ces données influencent considérablement les résultats. Enfin, l’objectif principal des travaux existants diffère les uns des autres, ils diffèrent donc en termes de fonctionnalité.

En raison des trois raisons mentionnées ci-dessus, il est injuste de comparer les cadres de clonage vocal existants de manière numérique. Au lieu de cela, il est plus sensé de comparer ces méthodes de manière qualitative.

Clonage précis de la couleur de ton

Pour analyser ses performances, les développeurs créent un ensemble de test avec des individus anonymes, des personnages de jeu et des célébrités qui forment la base de locuteurs de référence et ont une large distribution de voix, y compris des échantillons neutres et des voix expressives uniques. Le cadre OpenVoice est capable de cloner la couleur de ton de référence et de générer de la parole dans plusieurs langues et accents pour n’importe lequel des locuteurs de référence et des 4 locuteurs de base.

Contrôle flexible sur les styles vocaux

L’un des objectifs du cadre OpenVoice est de contrôler les styles de parole de manière flexible en utilisant le convertisseur de couleur de ton qui peut modifier la couleur de ton tout en préservant toutes les autres caractéristiques vocales et propriétés.

Les expériences indiquent que le modèle préserve les styles vocaux après conversion en couleur de ton de référence. Dans certains cas, cependant, le modèle neutralise légèrement les émotions, un problème qui peut être résolu en passant moins d’informations aux couches de flux pour qu’elles ne puissent pas éliminer l’émotion. Le cadre OpenVoice est capable de préserver les styles à partir de la voix de base grâce à son utilisation d’un convertisseur de couleur de ton. Cela permet au cadre OpenVoice de manipuler le modèle de synthèse de parole à partir de texte pour un locuteur de base pour contrôler facilement les styles vocaux.

Clonage vocal cross-linguistique

Le cadre OpenVoice ne comprend pas de données massives de locuteurs pour une langue non vue, mais il est capable d’atteindre un clonage vocal cross-linguistique presque parfait en un seul essai. Les capacités de clonage vocal cross-linguistique du cadre OpenVoice sont doubles :

  1. Le modèle est capable de cloner la couleur de ton du locuteur de référence avec précision lorsque la langue du locuteur de référence n’est pas visible dans l’ensemble de données multilingues de locuteurs massifs ou MSML.
  2. De plus, dans le cas où la langue du locuteur de référence n’est pas visible, le cadre OpenVoice est capable de cloner la voix du locuteur de référence et de parler dans la langue à condition que le modèle de synthèse de parole à partir de texte pour un locuteur de base prenne en charge la langue.

Pensées finales

Dans cet article, nous avons parlé du cadre OpenVoice, un cadre de clonage vocal instantané polyvalent qui reproduit la voix de n’importe quel utilisateur et génère de la parole dans plusieurs langues à l’aide d’un court clip audio du locuteur de référence. L’intuition principale derrière OpenVoice est que tant que le modèle n’a pas à effectuer de clonage de couleur de ton du locuteur de référence, un cadre peut employer un modèle de synthèse de parole à partir de texte pour un locuteur de base pour contrôler la langue et les styles vocaux.

Le cadre OpenVoice démontre que les modèles de clonage vocal instantané peuvent reproduire la couleur de ton du locuteur de référence et atteindre un contrôle granulaire sur les styles vocaux, y compris l’accent, le rythme, l’intonation, les pauses et même les émotions. Le cadre OpenVoice parvient à fournir des résultats de clonage vocal instantané supérieurs tout en étant viable sur le plan computationnel avec des coûts d’exploitation jusqu’à 10 fois inférieurs à ceux des API actuellement disponibles avec des performances inférieures.

Un ingénieur de profession, un écrivain de cœur. Kunal est un rédacteur technique avec une profonde affection et une compréhension de l'IA et du ML, dédié à simplifier les concepts complexes dans ces domaines grâce à sa documentation engageante et informative.