Suivez nous sur

StyleTTS 2 : synthèse vocale au niveau humain avec de grands modèles de langage vocal

Intelligence Artificielle

StyleTTS 2 : synthèse vocale au niveau humain avec de grands modèles de langage vocal

mm

En raison de l'augmentation des approches de synthèse vocale naturelle et synthĂ©tique, l'une des rĂ©alisations majeures de l'industrie de l'IA au cours des dernières annĂ©es est de synthĂ©tiser efficacement des cadres de synthèse vocale avec des applications potentielles dans diffĂ©rents secteurs, notamment les livres audio, les assistants virtuels, la voix. -sur des narrations et bien plus encore, avec certains modes de pointe offrant des performances et une efficacitĂ© de niveau humain dans un large Ă©ventail de tâches liĂ©es Ă  la parole. Cependant, malgrĂ© leurs bonnes performances, les tâches peuvent encore ĂŞtre amĂ©liorĂ©es grâce Ă  un discours expressif et diversifiĂ©, Ă  la nĂ©cessitĂ© d'une grande quantitĂ© de donnĂ©es de formation pour optimiser les cadres de synthèse vocale zĂ©ro-shot et Ă  la robustesse des textes OOD ou hors distribution. les dĂ©veloppeurs doivent travailler sur un cadre de synthèse vocale plus robuste et plus accessible. 

Dans cet article, nous parlerons de StyleTTS-2, un cadre de synthèse vocale robuste et innovant qui repose sur les fondations du cadre StyleTTS et vise Ă  prĂ©senter la prochaine Ă©tape vers des systèmes de synthèse vocale de pointe. Le framework StyleTTS2 modĂ©lise les styles de parole en tant que variables alĂ©atoires latentes et utilise un modèle de diffusion probabiliste pour Ă©chantillonner ces styles de parole ou variables alĂ©atoires, permettant ainsi au framework StyleTTS2 de synthĂ©tiser efficacement une parole rĂ©aliste sans utiliser d'entrĂ©es audio de rĂ©fĂ©rence. Grâce Ă  cette approche, le framework StyleTTS2 est capable de fournir de meilleurs rĂ©sultats et fait preuve d'une grande efficacitĂ© par rapport aux frameworks de synthèse vocale de pointe actuels, mais est Ă©galement capable de tirer parti de la diversitĂ© de synthèse vocale offerte par les frameworks de modèles de diffusion. Nous discuterons plus en dĂ©tail du framework StyleTTS2, parlerons de son architecture et de sa mĂ©thodologie tout en examinant les rĂ©sultats obtenus par le framework. Alors, commençons. 

StyleTTS2 pour la synthèse texte-parole : une introduction

StyleTTS2 est un modèle innovant de synthèse de synthèse vocale qui franchit la prochaine Ă©tape vers la crĂ©ation de cadres TTS au niveau humain. Il est construit sur StyleTTS, un texte basĂ© sur le style pour modèle gĂ©nĂ©rateur de parole. Le framework StyleTTS2 modĂ©lise les styles de parole en tant que variables alĂ©atoires latentes et utilise un modèle de diffusion probabiliste pour Ă©chantillonner ces styles de parole ou variables alĂ©atoires, permettant ainsi au framework StyleTTS2 de synthĂ©tiser efficacement une parole rĂ©aliste sans utiliser d'entrĂ©es audio de rĂ©fĂ©rence. La modĂ©lisation des styles en tant que variables alĂ©atoires latentes est ce qui diffĂ©rencie le framework StyleTTS2 de son prĂ©dĂ©cesseur, le framework StyleTTS, et vise Ă  gĂ©nĂ©rer le style de parole le plus appropriĂ© pour le texte d'entrĂ©e sans avoir besoin d'une entrĂ©e audio de rĂ©fĂ©rence, et est capable d'obtenir des diffusions latentes efficaces tout en prenant profiter des diverses capacitĂ©s de synthèse vocale offertes par modèles de diffusion. De plus, le framework StyleTTS2 utilise Ă©galement un grand modèle SLM ou Speech Language Model prĂ©-entraĂ®nĂ© comme discriminateurs comme le framework WavLM, et l'associe Ă  sa propre nouvelle approche de modĂ©lisation de durĂ©e diffĂ©rentielle pour entraĂ®ner le framework de bout en bout et finalement gĂ©nĂ©rer une parole avec un naturel amĂ©liorĂ©. Grâce Ă  l'approche qu'il suit, le framework StyleTTS2 surpasse les frameworks de pointe actuels pour les tâches de gĂ©nĂ©ration de parole et constitue l'un des frameworks les plus efficaces pour prĂ©-entraĂ®ner des modèles de parole Ă  grande Ă©chelle dans un rĂ©glage zĂ©ro pour les tâches d'adaptation du locuteur. 

Pour continuer, pour fournir une synthèse texte-parole au niveau humain, le cadre StyleTTs2 intègre les enseignements des travaux existants, notamment des modèles de diffusion pour la synthèse vocale et de grands modèles de langage vocal. Les modèles de diffusion sont gĂ©nĂ©ralement utilisĂ©s pour les tâches de synthèse vocale grâce Ă  leurs capacitĂ©s de contrĂ´le prĂ©cis de la parole et Ă  leurs diverses capacitĂ©s d'Ă©chantillonnage vocal. Cependant, les modèles de diffusion ne sont pas aussi efficaces que les cadres non itĂ©ratifs basĂ©s sur le GAN et l'une des principales raisons en est la nĂ©cessitĂ© d'Ă©chantillonner les reprĂ©sentations latentes, les formes d'onde et les spectrogrammes Mel de manière itĂ©rative jusqu'Ă  la durĂ©e cible de la parole. 

D'autre part, des travaux rĂ©cents autour des grands modèles de langage vocal ont indiquĂ© leur capacitĂ© Ă  amĂ©liorer la qualitĂ© des tâches de gĂ©nĂ©ration de synthèse vocale et Ă  bien s'adapter au locuteur. Les grands modèles de langage vocal convertissent gĂ©nĂ©ralement la saisie de texte en reprĂ©sentations quantifiĂ©es ou continues dĂ©rivĂ©es de cadres de langage vocal prĂ©-entraĂ®nĂ©s pour les tâches de reconstruction de la parole. Cependant, les fonctionnalitĂ©s de ces modèles de langage vocal ne sont pas optimisĂ©es directement pour la synthèse vocale. En revanche, le framework StyleTTS2 tire parti des connaissances acquises par les grands frameworks SLM en utilisant la formation contradictoire pour synthĂ©tiser les caractĂ©ristiques des modèles de langage vocal sans utiliser de cartes d'espace latent, et par consĂ©quent, en apprenant directement un espace latent optimisĂ© pour la synthèse vocale.  

StyleTTS2 : Architecture et mĂ©thodologie

À la base, le StyleTTS2 est construit sur son prédécesseur, le framework StyleTTS, qui est un framework de synthèse vocale non autorégressif qui utilise un encodeur de style pour dériver un vecteur de style à partir de l'audio de référence, permettant ainsi une génération de parole expressive et naturelle. Le vecteur de style utilisé dans le framework StyleTTS est incorporé directement dans l'encodeur, la durée et les prédicteurs en utilisant AdaIN ou Adaptive Instance Normalization, permettant ainsi au modèle StyleTTS de générer des sorties vocales avec une prosodie, une durée et même des émotions variables. Le framework StyleTTS se compose de 8 modèles au total répartis en trois catégories

  1. Modèles acoustiques ou système de gĂ©nĂ©ration vocale avec un encodeur de style, un encodeur de texte et un dĂ©codeur vocal. 
  2. Un système de prĂ©diction de synthèse vocale utilisant des prĂ©dicteurs de prosodie et de durĂ©e. 
  3. Un système utilitaire comprenant un aligneur de texte, un extracteur de hauteur et un discriminateur Ă  des fins de formation. 

Grâce Ă  son approche, le framework StyleTTS offre des performances de pointe liĂ©es Ă  une synthèse vocale contrĂ´lable et diversifiĂ©e. Cependant, ces performances prĂ©sentent des inconvĂ©nients tels qu'une dĂ©gradation de la qualitĂ© des Ă©chantillons, des limitations d'expression et le recours Ă  des applications gĂŞnant la parole en temps rĂ©el. 

AmĂ©liorant le framework StyleTTS, le modèle StyleTTS2 permet d'amĂ©liorer l'expression texte Ă  la parole tâches avec une performance hors distribution amĂ©liorĂ©e et une qualitĂ© humaine Ă©levĂ©e. Le framework StyleTTS2 utilise un processus de formation de bout en bout qui optimise les diffĂ©rents composants avec une formation contradictoire et une synthèse directe de forme d'onde conjointement. Contrairement au framework StyleTTS, le framework StyleTTS2 modĂ©lise le style de parole en tant que variable latente et l'Ă©chantillonne via des modèles de diffusion, gĂ©nĂ©rant ainsi divers Ă©chantillons de parole sans utiliser d'audio de rĂ©fĂ©rence. Examinons en dĂ©tail ces composants. 

Formation de bout en bout pour les interférences

Dans le cadre StyleTTS2, une approche de formation de bout en bout est utilisĂ©e pour optimiser divers composants de synthèse vocale pour les interfĂ©rences sans avoir Ă  s'appuyer sur des composants fixes. Le framework StyleTTS2 y parvient en modifiant le dĂ©codeur pour gĂ©nĂ©rer la forme d'onde directement Ă  partir du vecteur de style, des courbes de hauteur et d'Ă©nergie et des reprĂ©sentations alignĂ©es. Le framework supprime ensuite la dernière couche de projection du dĂ©codeur et la remplace par un dĂ©codeur de forme d'onde. Le framework StyleTTS2 utilise deux encodeurs : un dĂ©codeur basĂ© sur HifiGAN pour gĂ©nĂ©rer directement la forme d'onde, et un dĂ©codeur basĂ© sur iSTFT pour produire la phase et l'amplitude qui sont converties en formes d'onde pour des interfĂ©rences et un entraĂ®nement plus rapides. 

La figure ci-dessus reprĂ©sente les modèles acoustiques utilisĂ©s pour la prĂ©-formation et la formation conjointe. Pour rĂ©duire le temps de formation, les modules sont d'abord optimisĂ©s dans la phase de prĂ©-formation suivi de l'optimisation de tous les composants moins l'extracteur de pitch lors de la formation conjointe. La raison pour laquelle l’entraĂ®nement conjoint n’optimise pas l’extracteur de pitch est qu’il est utilisĂ© pour fournir la vĂ©ritĂ© terrain pour les courbes de pitch. 

La figure ci-dessus reprĂ©sente la formation contradictoire du modèle de langage vocal et l'interfĂ©rence avec le cadre WavLM prĂ©-entraĂ®nĂ© mais non prĂ©-rĂ©glĂ©. Le processus diffère de celui mentionnĂ© ci-dessus car il peut nĂ©cessiter diffĂ©rents textes d'entrĂ©e mais accumule les dĂ©gradĂ©s pour mettre Ă  jour les paramètres dans chaque lot. 

Diffusion de styles

Le cadre StyleTTS2 vise Ă  modĂ©liser la parole comme une distribution conditionnelle via une variable latente qui suit la distribution conditionnelle, et cette variable est appelĂ©e style de parole gĂ©nĂ©ralisĂ© et reprĂ©sente toute caractĂ©ristique de l'Ă©chantillon de parole au-delĂ  de la portĂ©e de tout contenu phonĂ©tique, y compris l'accent lexical. prosodie, dĂ©bit de parole et mĂŞme transitions de formants. 

Discriminateurs du modèle de langage vocal

Les modèles de langage vocal sont rĂ©putĂ©s pour leurs capacitĂ©s gĂ©nĂ©rales Ă  coder des informations prĂ©cieuses sur un large Ă©ventail d'aspects sĂ©mantiques et acoustiques, et les reprĂ©sentations SLM sont traditionnellement capables d'imiter les perceptions humaines pour Ă©valuer la qualitĂ© de la parole synthĂ©tisĂ©e gĂ©nĂ©rĂ©e. Le framework StyleTTS2 utilise une approche de formation contradictoire pour utiliser la capacitĂ© des encodeurs SLM Ă  effectuer des tâches gĂ©nĂ©ratives et utilise un framework WavLM Ă  12 couches comme discriminateur. Cette approche permet au cadre de permettre une formation sur des textes OOD ou hors distribution qui peuvent aider Ă  amĂ©liorer les performances. De plus, pour Ă©viter les problèmes de surajustement, le cadre Ă©chantillonne les textes OOD et la distribution avec une probabilitĂ© Ă©gale. 

Modélisation de durée différenciable

Traditionnellement, un prĂ©dicteur de durĂ©e est utilisĂ© dans les cadres de synthèse vocale qui produisent des durĂ©es de phonèmes, mais les mĂ©thodes de surĂ©chantillonnage utilisĂ©es par ces prĂ©dicteurs de durĂ©e bloquent souvent le flux graduel pendant le processus de formation E2E, et le cadre NaturalSpeech utilise un surĂ©chantillonneur basĂ© sur l'attention pour le niveau humain. conversion texte-parole. Cependant, le cadre StyleTTS2 trouve cette approche instable pendant la formation contradictoire, car le StyleTTS2 s'entraĂ®ne en utilisant un surĂ©chantillonnage diffĂ©rentiable avec diffĂ©rentes formations contradictoires sans perte de termes supplĂ©mentaires en raison d'une inadĂ©quation de longueur due Ă  des Ă©carts. Bien que l'utilisation d'une approche de dĂ©formation temporelle dynamique douce puisse aider Ă  attĂ©nuer ce dĂ©calage, son utilisation est non seulement coĂ»teuse en termes de calcul, mais sa stabilitĂ© est Ă©galement une prĂ©occupation lorsque l'on travaille avec des objectifs contradictoires ou des tâches de reconstruction mel. Par consĂ©quent, pour atteindre des performances au niveau humain avec une formation contradictoire et stabiliser le processus de formation, le cadre StyleTTC2 utilise une approche de surĂ©chantillonnage non paramĂ©trique. Le surĂ©chantillonnage gaussien est une approche de surĂ©chantillonnage non paramĂ©trique populaire pour convertir les durĂ©es prĂ©dites bien qu'elle ait ses limites grâce Ă  la longueur fixe des noyaux gaussiens prĂ©dĂ©terminĂ©s. Cette restriction pour le surĂ©chantillonnage gaussien limite sa capacitĂ© Ă  modĂ©liser avec prĂ©cision des alignements de diffĂ©rentes longueurs. 

Pour rĂ©pondre Ă  cette limitation, le framework StyleTTC2 propose d'utiliser une nouvelle approche de surĂ©chantillonnage non paramĂ©trique sans aucune formation supplĂ©mentaire, et capable de prendre en compte diffĂ©rentes longueurs d'alignements. Pour chaque phonème, le framework StyleTTC2 modĂ©lise l'alignement comme une variable alĂ©atoire et indique l'index du cadre vocal avec lequel le phonème s'aligne. 

Modèle de formation et d'évaluation

Le framework StyleTTC2 est formĂ© et expĂ©rimentĂ© sur trois ensembles de donnĂ©es : VCTK, LibriTTS et LJSpeech. Le composant Ă  haut-parleur unique du framework StyleTTS2 est formĂ© Ă  l'aide de l'ensemble de donnĂ©es LJSpeech qui contient environ 13,000 12,500+ Ă©chantillons audio rĂ©partis en 100 500 Ă©chantillons d'entraĂ®nement, 24 Ă©chantillons de validation et près de 44,000 Ă©chantillons de test, avec leur durĂ©e d'exĂ©cution combinĂ©e totalisant près de 100 heures. Le composant multi-locuteurs du framework est formĂ© sur l'ensemble de donnĂ©es VCTK composĂ© de plus de 43,500 100 clips audio avec plus de 500 locuteurs natifs individuels avec des accents variĂ©s, et est divisĂ© en 250 1,150 Ă©chantillons d'apprentissage, XNUMX Ă©chantillons de validation et près de XNUMX Ă©chantillons de test. Enfin, pour doter le framework de capacitĂ©s d'adaptation zĂ©ro-shot, le framework est formĂ© sur l'ensemble de donnĂ©es combinĂ© LibriTTS qui se compose de clips audio totalisant environ XNUMX heures d'audio avec plus de XNUMX XNUMX haut-parleurs individuels. Pour Ă©valuer ses performances, le modèle utilise deux mĂ©triques : MOS-N ou score d'opinion moyen de naturalitĂ©, et MOUSSE ou score d'opinion moyen de similaritĂ©. 

Résultats

L'approche et la mĂ©thodologie utilisĂ©es dans le framework StyleTTS2 sont mises en valeur dans leurs performances, car le modèle surpasse plusieurs frameworks TTS de pointe, en particulier sur l'ensemble de donnĂ©es NaturalSpeech, et en route, Ă©tablissant une nouvelle norme pour l'ensemble de donnĂ©es. De plus, le framework StyleTTS2 surpasse le framework VITS de pointe sur l'ensemble de donnĂ©es VCTK, et les rĂ©sultats sont dĂ©montrĂ©s dans la figure suivante. 

Le modèle StyleTTS2 surpasse Ă©galement les modèles prĂ©cĂ©dents sur l'ensemble de donnĂ©es LJSpeech, et il n'affiche aucun degrĂ© de dĂ©gradation de la qualitĂ© sur les textes OOD ou hors distribution comme l'affichaient les frameworks prĂ©cĂ©dents sur les mĂŞmes mĂ©triques. De plus, en mode zĂ©ro tir, le modèle StyleTTC2 surpasse le framework Vall-E existant en termes de naturel, bien qu'il soit Ă  la traĂ®ne en termes de similitude. Cependant, il convient de noter que le framework StyleTTS2 est capable d'atteindre des performances compĂ©titives malgrĂ© une formation uniquement sur 245 heures d'Ă©chantillons audio, contre plus de 60 2 heures de formation pour le framework Vall-E, prouvant ainsi que StyleTTCXNUMX est une alternative efficace en matière de donnĂ©es. aux grandes mĂ©thodes de prĂ©-formation existantes telles qu'utilisĂ©es dans le Vall-E. 

En progressant, en raison du manque de donnĂ©es de texte audio Ă©tiquetĂ©es sur les Ă©motions, le framework StyleTTC2 utilise le modèle GPT-4 pour gĂ©nĂ©rer plus de 500 instances Ă  travers diffĂ©rentes Ă©motions pour la visualisation des vecteurs de style que le framework crĂ©e Ă  l'aide de son la diffusion processus. 

Dans la première figure, les styles Ă©motionnels en rĂ©ponse aux sentiments du texte saisi sont illustrĂ©s par les vecteurs de style du modèle LJSpeech, et dĂ©montre la capacitĂ© du framework StyleTTC2 Ă  synthĂ©tiser un discours expressif avec des Ă©motions variĂ©es. La deuxième figure reprĂ©sente la forme de groupes distincts pour chacun des cinq haut-parleurs individuels, dĂ©crivant ainsi un large Ă©ventail de diversitĂ© provenant d'un seul fichier audio. La figure finale montre le groupe d'Ă©motions du locuteur 1 et rĂ©vèle que, malgrĂ© certains chevauchements, les groupes basĂ©s sur les Ă©motions sont prĂ©dominants, indiquant ainsi la possibilitĂ© de manipuler la mĂ©lodie Ă©motionnelle d'un locuteur quel que soit l'Ă©chantillon audio de rĂ©fĂ©rence et sa tonalitĂ© d'entrĂ©e. . MalgrĂ© l'utilisation d'une approche basĂ©e sur la diffusion, le framework StyleTTS2 parvient Ă  surpasser les frameworks de pointe existants, notamment VITS, ProDiff et FastDiff. 

Réflexions finales

Dans cet article, nous avons parlĂ© de StyleTTS2, un cadre de synthèse vocale novateur, robuste et innovant qui repose sur les fondations du cadre StyleTTS et vise Ă  prĂ©senter la prochaine Ă©tape vers des systèmes de synthèse vocale de pointe. Le framework StyleTTS2 modĂ©lise les styles de parole en tant que variables alĂ©atoires latentes et utilise un modèle de diffusion probabiliste pour Ă©chantillonner ces styles de parole ou variables alĂ©atoires, permettant ainsi au framework StyleTTS2 de synthĂ©tiser efficacement une parole rĂ©aliste sans utiliser d'entrĂ©es audio de rĂ©fĂ©rence. Le framework StyleTTS2 utilise la diffusion de styles et les discriminateurs SLM. pour atteindre des performances de niveau humain sur les tâches de synthèse vocale, et parvient Ă  surpasser les cadres de pointe existants sur un large Ă©ventail de tâches vocales. 

« IngĂ©nieur de profession, Ă©crivain de cĹ“ur Â». Kunal est un rĂ©dacteur technique avec un amour et une comprĂ©hension profonds de l'IA et du ML, dĂ©diĂ© Ă  la simplification de concepts complexes dans ces domaines grâce Ă  sa documentation engageante et informative.