Suivez nous sur

OpenVoice : clonage vocal instantanĂ© polyvalent

Intelligence Artificielle

OpenVoice : clonage vocal instantanĂ© polyvalent

mm

Dans la synthèse texte-parole (TTS), le clonage vocal instantané (IVC) permet au modèle TTS de cloner la voix de n'importe quel locuteur de référence à l'aide d'un court échantillon audio, sans nécessiter de formation supplémentaire pour le locuteur de référence. Cette technique est également connue sous le nom de synthèse texte-parole Zero-Shot. L'approche de clonage vocal instantané permet une personnalisation flexible de la voix générée et démontre une valeur significative dans un large éventail de situations réelles, notamment les chatbots personnalisés, la création de contenu et les interactions entre les humains et les grands modèles linguistiques (LLM).

Bien que les cadres actuels de clonage vocal fassent bien leur travail, ils sont confrontĂ©s Ă  quelques dĂ©fis sur le terrain, notamment ContrĂ´le flexible du style vocal c'est-Ă -dire que les modèles n'ont pas la capacitĂ© de manipuler les styles de voix avec flexibilitĂ© après le clonage de la voix. Un autre obstacle majeur rencontrĂ© par les frameworks de clonage instantanĂ© actuels est Clonage vocal multilingue Zero-Shot c'est-Ă -dire qu'Ă  des fins de formation, les modèles actuels nĂ©cessitent l'accès Ă  un vaste ensemble de donnĂ©es multilingues ou MSML pour locuteurs massifs, quelle que soit la langue. 

Pour rĂ©soudre ces problèmes et contribuer Ă  l'amĂ©lioration des modèles de clonage vocal instantanĂ©, les dĂ©veloppeurs ont travaillĂ© sur OpenVoice, un cadre de clonage vocal instantanĂ© polyvalent qui reproduit la voix de n'importe quel utilisateur et gĂ©nère la parole dans plusieurs langues Ă  l'aide d'un court clip audio du locuteur de rĂ©fĂ©rence. . OpenVoice dĂ©montre que les modèles de clonage vocal instantanĂ© peuvent reproduire la couleur tonale du locuteur de rĂ©fĂ©rence et obtenir un contrĂ´le granulaire sur les styles de voix, notamment l'accent, le rythme, l'intonation, les pauses et mĂŞme les Ă©motions. Ce qui est plus impressionnant, c'est que le framework OpenVoice dĂ©montre Ă©galement des capacitĂ©s remarquables dans la rĂ©alisation d'un clonage vocal multilingue zĂ©ro pour des langues externes Ă  l'ensemble de donnĂ©es MSML, permettant Ă  OpenVoice de cloner des voix dans de nouvelles langues sans formation prĂ©alable approfondie pour cette langue. OpenVoice parvient Ă  fournir des rĂ©sultats de clonage vocal instantanĂ©s supĂ©rieurs tout en Ă©tant viable sur le plan informatique avec des coĂ»ts d'exploitation jusqu'Ă  10 fois infĂ©rieurs Ă  ceux des API actuellement disponibles avec des performances infĂ©rieures. 

Dans cet article, nous parlerons en profondeur du framework OpenVoice et dĂ©couvrirons son architecture qui lui permet d'offrir des performances supĂ©rieures pour les tâches de clonage vocal instantanĂ©. Alors, commençons. 

OpenVoice : permettre un clonage vocal instantanĂ© et polyvalent

Comme mentionnĂ© prĂ©cĂ©demment, le clonage vocal instantanĂ©, Ă©galement appelĂ© Synthèse texte-parole Zero-Shot, permet au modèle TTS de cloner la voix de n'importe quel locuteur de rĂ©fĂ©rence Ă  l'aide d'un court Ă©chantillon audio sans nĂ©cessiter de formation supplĂ©mentaire pour le locuteur de rĂ©fĂ©rence. Le clonage vocal instantanĂ© a toujours Ă©tĂ© un sujet de recherche brĂ»lant avec des travaux existants, notamment les frameworks XTTS et VALLE qui extraient l'intĂ©gration des haut-parleurs et/ou les jetons acoustiques de l'audio de rĂ©fĂ©rence qui sert de condition au modèle auto-rĂ©gressif. Le modèle auto-rĂ©gressif gĂ©nère ensuite des jetons acoustiques de manière sĂ©quentielle, puis dĂ©code ces jetons en une forme d'onde audio brute. 

Bien que les modèles de clonage vocal instantanĂ© auto-rĂ©gressifs clonent remarquablement la couleur du ton, ils ne parviennent pas Ă  manipuler d'autres paramètres de style, notamment l'accent, l'Ă©motion, les pauses et le rythme. De plus, les modèles auto-rĂ©gressifs connaissent Ă©galement une faible vitesse d’infĂ©rence et leurs coĂ»ts opĂ©rationnels sont assez Ă©levĂ©s. Les approches existantes telles que le framework YourTTS utilisent une approche non autorĂ©gressive qui dĂ©montre un discours d'infĂ©rence beaucoup plus rapide que les frameworks d'approche autorĂ©gressive, mais sont toujours incapables de fournir Ă  leurs utilisateurs un contrĂ´le flexible sur les paramètres de style. De plus, les cadres de clonage vocal instantanĂ©, autorĂ©gressifs et non autorĂ©gressifs, nĂ©cessitent l'accès Ă  un vaste ensemble de donnĂ©es multilingues MSML ou Ă  locuteurs massifs pour le clonage vocal multilingue. 

Pour relever les dĂ©fis rencontrĂ©s par les frameworks actuels de clonage vocal instantanĂ©, les dĂ©veloppeurs ont travaillĂ© sur OpenVoice, une bibliothèque open source de clonage vocal instantanĂ© qui vise Ă  rĂ©soudre les dĂ©fis suivants rencontrĂ©s par les frameworks IVC actuels. 

  1. Le premier dĂ©fi consiste Ă  permettre aux cadres IVC d'avoir un contrĂ´le flexible sur les paramètres de style en plus de la couleur du ton, notamment l'accent, le rythme, l'intonation et les pauses. Les paramètres de style sont cruciaux pour gĂ©nĂ©rer des conversations et des discours naturels en contexte plutĂ´t que de raconter le texte saisi de manière monotone. 
  2. Le deuxième dĂ©fi est de permettre aux frameworks IVC de cloner des voix multilingues dans un environnement zĂ©ro-shot. 
  3. Le dernier dĂ©fi consiste Ă  atteindre des vitesses d’infĂ©rence en temps rĂ©el Ă©levĂ©es sans dĂ©tĂ©riorer la qualitĂ©. 

Pour surmonter les deux premiers obstacles, l'architecture du framework OpenVoice est conçue de manière Ă  dĂ©coupler au mieux les composants de la voix. De plus, OpenVoice gĂ©nère indĂ©pendamment la couleur du ton, la langue et d'autres fonctionnalitĂ©s vocales, permettant au framework de manipuler de manière flexible les types de langue et les styles de voix individuels. Le framework OpenVoice relève le troisième dĂ©fi par dĂ©faut, car la structure dĂ©couplĂ©e rĂ©duit la complexitĂ© de calcul et les exigences de taille du modèle. 

OpenVoice : Méthodologie et Architecture

Le cadre technique du framework OpenVoice est efficace et Ă©tonnamment simple Ă  mettre en Ĺ“uvre. Ce n’est un secret pour personne que cloner la couleur de tonalitĂ© d’un locuteur, ajouter une nouvelle langue et permettre simultanĂ©ment un contrĂ´le flexible des paramètres vocaux peut ĂŞtre un dĂ©fi. Il en est ainsi parce que l’exĂ©cution simultanĂ©e de ces trois tâches nĂ©cessite que les paramètres contrĂ´lĂ©s se croisent Ă  l’aide d’un grand nombre d’ensembles de donnĂ©es combinatoires. De plus, en mode simple haut-parleur synthèse texte-parole, pour les tâches qui ne nĂ©cessitent pas de clonage vocal, il est plus facile d'ajouter un contrĂ´le sur d'autres paramètres de style. Sur la base de ceux-ci, le framework OpenVoice vise Ă  dĂ©coupler les tâches de clonage instantanĂ© de voix en sous-tâches. Le modèle propose d'utiliser un modèle de synthèse vocale de haut-parleur de base pour contrĂ´ler les paramètres de langue et de style, et utilise un convertisseur de couleur de ton pour inclure la couleur de ton de rĂ©fĂ©rence dans la voix gĂ©nĂ©rĂ©e. La figure suivante montre l’architecture du framework. 

Ă€ la base, le framework OpenVoice utilise deux composants : un convertisseur de tons et de couleurs et un modèle de synthèse vocale ou TTS pour locuteur de base. Le modèle de synthèse vocale du locuteur de base est un modèle Ă  un ou plusieurs locuteurs permettant un contrĂ´le prĂ©cis des paramètres de style, de la langue et de l'accent. Le modèle gĂ©nère une voix qui est ensuite transmise au convertisseur de tonalitĂ©, qui modifie la couleur tonale du haut-parleur de base en couleur tonale du haut-parleur de rĂ©fĂ©rence. 

Le framework OpenVoice offre beaucoup de flexibilitĂ© en ce qui concerne le modèle de synthèse vocale du locuteur de base, car il peut utiliser le modèle VITS avec de lĂ©gères modifications lui permettant d'accepter les intĂ©grations de langue et de style dans son prĂ©dicteur de durĂ©e et son encodeur de texte. Le framework peut Ă©galement utiliser des modèles tels que Microsoft TTS qui sont commercialement bon marchĂ© ou dĂ©ployer des modèles comme InstructTTS capables d'accepter des invites de style. Pour le moment, le framework OpenVoice utilise le modèle VITS bien que les autres modèles constituent Ă©galement une option rĂ©alisable. 

En ce qui concerne le deuxième composant, le Tone Color Converter est un composant codeur-dĂ©codeur abritant un flux de normalisation inversible au centre. Le composant codeur du convertisseur de tonalitĂ© et de couleur est un CNN unidimensionnel qui accepte le spectre transformĂ© de Fourier Ă  court terme du modèle texte-parole du locuteur de base comme entrĂ©e. L'encodeur gĂ©nère ensuite des cartes de fonctionnalitĂ©s en sortie. L'extracteur de couleur tonale est un simple CNN bidimensionnel qui fonctionne sur le spectrogramme mel de la voix d'entrĂ©e et gĂ©nère un vecteur de caractĂ©ristiques unique comme sortie qui code les informations sur la couleur tonale. Les couches de flux de normalisation acceptent les cartes de caractĂ©ristiques gĂ©nĂ©rĂ©es par l'encodeur comme entrĂ©e et gĂ©nèrent une reprĂ©sentation de caractĂ©ristiques qui prĂ©serve toutes les propriĂ©tĂ©s de style mais Ă©limine les informations de couleur de ton. Le framework OpenVoice applique ensuite les couches de flux de normalisation dans le sens inverse et prend les reprĂ©sentations de fonctionnalitĂ©s comme entrĂ©e et sortie des couches de flux de normalisation. Le framework dĂ©code ensuite les couches de flux de normalisation en formes d'onde brutes Ă  l'aide d'une pile de convolutions unidimensionnelles transposĂ©es. 

L'ensemble de l'architecture du framework OpenVoice est rĂ©troactif sans l'utilisation d'un composant auto-rĂ©gressif. Le composant convertisseur de couleurs de tons est similaire Ă  la conversion vocale sur le plan conceptuel, mais diffère en termes de fonctionnalitĂ©s, d'objectifs de formation et de biais inductif dans la structure du modèle. Les couches de flux de normalisation partagent la mĂŞme structure que les modèles de synthèse vocale basĂ©s sur les flux, mais diffèrent en termes de fonctionnalitĂ©s et d'objectifs de formation. 

De plus, il existe une approche diffĂ©rente pour extraire les reprĂ©sentations de fonctionnalitĂ©s, la mĂ©thode implĂ©mentĂ©e par le framework OpenVoice offre une meilleure qualitĂ© audio. Il convient Ă©galement de noter que le framework OpenVoice n'a pas l'intention d'inventer des composants dans l'architecture du modèle, mais que les composants principaux, Ă  savoir le convertisseur de couleurs et le modèle TTS du haut-parleur de base, proviennent tous deux de travaux existants. L'objectif principal du framework OpenVoice est de former un framework dĂ©couplĂ© qui sĂ©pare le contrĂ´le du langage et le style de voix du clonage des couleurs tonales. Bien que l’approche soit assez simple, elle est très efficace, notamment sur les tâches qui contrĂ´lent les styles et les accents, ou sur les nouvelles tâches de gĂ©nĂ©ralisation d’un langage. Obtenir le mĂŞme contrĂ´le lors de l’utilisation d’un framework couplĂ© nĂ©cessite une grande quantitĂ© de calcul et de donnĂ©es, et cela ne se gĂ©nĂ©ralise pas bien aux nouveaux langages. 

Ă€ la base, la philosophie principale du framework OpenVoice est de dissocier la gĂ©nĂ©ration de styles de langage et de voix de la gĂ©nĂ©ration de couleurs tonales. L'un des principaux atouts du framework OpenVoice est que la voix clonĂ©e est fluide et de haute qualitĂ© tant que le TTS Ă  haut-parleur unique parle couramment. 

OpenVoice : Expérience et résultats

L'Ă©valuation des tâches de clonage vocal est un objectif difficile pour de nombreuses raisons. Pour commencer, les travaux existants utilisent souvent des donnĂ©es de formation et de test diffĂ©rentes, ce qui rend la comparaison de ces travaux intrinsèquement injuste. Bien que le crowdsourcing puisse ĂŞtre utilisĂ© pour Ă©valuer des mesures telles que le score d'opinion moyen, la difficultĂ© et la diversitĂ© des donnĂ©es du test influenceront de manière significative le rĂ©sultat global. Deuxièmement, diffĂ©rentes mĂ©thodes de clonage vocal ont des donnĂ©es de formation diffĂ©rentes, et la diversitĂ© et l'ampleur de ces donnĂ©es influencent considĂ©rablement les rĂ©sultats. Enfin, l'objectif premier des Ĺ“uvres existantes diffère souvent les unes des autres, donc elles diffèrent dans leur fonctionnalitĂ©. 

Pour les trois raisons mentionnĂ©es ci-dessus, il est injuste de comparer numĂ©riquement les cadres de clonage vocal existants. Au lieu de cela, il est beaucoup plus logique de comparer ces mĂ©thodes qualitativement. 

Clonage précis des couleurs

Pour analyser ses performances, les dĂ©veloppeurs crĂ©ent un ensemble de tests avec des individus anonymes, des personnages de jeu et des cĂ©lĂ©britĂ©s qui constituent la base de haut-parleurs de rĂ©fĂ©rence et disposent d'une large distribution de voix comprenant Ă  la fois des Ă©chantillons neutres et des voix expressives uniques. Le framework OpenVoice est capable de cloner la couleur du ton de rĂ©fĂ©rence et de gĂ©nĂ©rer des paroles dans plusieurs langues et accents pour n'importe lequel des locuteurs de rĂ©fĂ©rence et les 4 locuteurs de base. 

ContrĂ´le flexible des styles de voix

L'un des objectifs du framework OpenVoice est de contrĂ´ler les styles de parole de manière flexible Ă  l'aide du convertisseur de couleur de tonalitĂ© qui peut modifier la tonalitĂ© de couleur tout en prĂ©servant toutes les autres caractĂ©ristiques et propriĂ©tĂ©s vocales. 

Les expĂ©riences indiquent que le modèle prĂ©serve les styles de voix après la conversion en couleur de tonalitĂ© de rĂ©fĂ©rence. Dans certains cas cependant, le modèle neutralise lĂ©gèrement les Ă©motions, un problème qui peut ĂŞtre rĂ©solu en transmettant moins d'informations aux couches de flux afin qu'elles soient incapables de se dĂ©barrasser de l'Ă©motion. Le framework OpenVoice est capable de prĂ©server les styles de la voix de base grâce Ă  son utilisation d'un convertisseur de couleurs de ton. Il permet au framework OpenVoice de manipuler le modèle de synthèse vocale du locuteur de base pour contrĂ´ler facilement les styles de voix. 

Clone vocal multilingue

Le framework OpenVoice n'inclut aucune donnĂ©e de locuteurs massifs pour une langue invisible, mais il est capable de rĂ©aliser un clonage vocal quasi multilingue dans un environnement zĂ©ro-shot. Les capacitĂ©s de clonage vocal multilingue du framework OpenVoice sont de deux ordres :

  1. Le modèle est capable de cloner avec prĂ©cision la couleur tonale du locuteur de rĂ©fĂ©rence lorsque la langue du locuteur de rĂ©fĂ©rence n'est pas visible dans l'ensemble de donnĂ©es multi-locuteurs multilingues ou MSML. 
  2. De plus, dans le mĂŞme cas oĂą la langue du locuteur de rĂ©fĂ©rence n'est pas vue, le framework OpenVoice est capable de cloner la voix du locuteur de rĂ©fĂ©rence et de parler dans la langue Ă  condition que le modèle de synthèse vocale du locuteur de base prenne en charge la langue. 

Réflexions finales

Dans cet article, nous avons parlĂ© d'OpenVoice, un framework polyvalent de clonage vocal instantanĂ© qui reproduit la voix de n'importe quel utilisateur et gĂ©nère la parole dans plusieurs langues Ă  l'aide d'un court clip audio du locuteur de rĂ©fĂ©rence. L'intuition principale derrière OpenVoice est que tant qu'un modèle n'a pas besoin d'effectuer un clonage de couleur de ton du locuteur de rĂ©fĂ©rence, un framework peut utiliser un modèle TTS de haut-parleur de base pour contrĂ´ler la langue et les styles de voix. 

OpenVoice dĂ©montre que les modèles de clonage vocal instantanĂ© peuvent reproduire la couleur tonale du locuteur de rĂ©fĂ©rence et obtenir un contrĂ´le granulaire sur les styles de voix, notamment l'accent, le rythme, l'intonation, les pauses et mĂŞme les Ă©motions. OpenVoice parvient Ă  fournir des rĂ©sultats de clonage vocal instantanĂ©s supĂ©rieurs tout en Ă©tant viable sur le plan informatique avec des coĂ»ts d'exploitation jusqu'Ă  10 fois infĂ©rieurs Ă  ceux des API actuellement disponibles avec des performances infĂ©rieures. 

« IngĂ©nieur de profession, Ă©crivain de cĹ“ur Â». Kunal est un rĂ©dacteur technique avec un amour et une comprĂ©hension profonds de l'IA et du ML, dĂ©diĂ© Ă  la simplification de concepts complexes dans ces domaines grâce Ă  sa documentation engageante et informative.