Intelligence artificielle
StyleTTS 2 : Synthèse de la parole humaine de niveau avec de grands modèles de langage de parole

En raison de l’augmentation des approches de synthèse de la parole naturelle et synthétique, l’une des principales réalisations que l’industrie de l’IA a accomplies au cours des dernières années est de synthétiser efficacement des cadres de texte-à-parole avec des applications potentielles dans différents secteurs, notamment les livres audio, les assistants virtuels, les narrations de voix et bien plus encore, certains modèles de pointe offrant des performances et une efficacité de niveau humain sur une large gamme de tâches liées à la parole. Cependant, malgré leurs solides performances, il y a encore de la place pour l’amélioration des tâches grâce à des discours expressifs et divers, à la nécessité d’une grande quantité de données d’entraînement pour optimiser les cadres de texte-à-parole à zéro tir, et à la robustesse pour les textes hors distribution ou Hors de la distribution, ce qui amène les développeurs à travailler sur un cadre de texte-à-parole plus robuste et plus accessible.
Dans cet article, nous allons parler de StyleTTS-2, un cadre de texte-à-parole robuste et innovant qui est construit sur les fondements du cadre StyleTTS, et vise à présenter l’étape suivante vers les systèmes de texte-à-parole de pointe. Le cadre StyleTTS2 modélise les styles de parole comme des variables aléatoires latentes, et utilise un modèle de diffusion probabiliste pour échantillonner ces styles de parole ou variables aléatoires, permettant ainsi au cadre StyleTTS2 de synthétiser efficacement des discours réalistes sans utiliser de références audio. En raison de cette approche, le cadre StyleTTS2 est capable de fournir de meilleurs résultats et montre une grande efficacité lorsqu’il est comparé aux cadres de texte-à-parole actuels de pointe, mais il est également capable de tirer parti de la synthèse de la parole diverse offerte par les cadres de modèle de diffusion. Nous allons discuter du cadre StyleTTS2 en détail, et examiner son architecture et sa méthodologie, tout en jetant un coup d’œil sur les résultats obtenus par le cadre. Alors, commençons.
StyleTTS2 pour la synthèse de la parole : Une introduction
StyleTTS2 est un modèle de synthèse de la parole innovant qui prend l’étape suivante vers la construction de cadres de texte-à-parole de niveau humain, et il est construit sur StyleTTS, un modèle de génération de parole basé sur le style. Le cadre StyleTTS2 modélise les styles de parole comme des variables aléatoires latentes, et utilise un modèle de diffusion probabiliste pour échantillonner ces styles de parole ou variables aléatoires, permettant ainsi au cadre StyleTTS2 de synthétiser efficacement des discours réalistes sans utiliser de références audio. La modélisation des styles comme des variables aléatoires latentes est ce qui distingue le cadre StyleTTS2 de son prédécesseur, le cadre StyleTTS, et vise à générer le style de parole le plus approprié pour le texte d’entrée sans avoir besoin d’une référence audio, et est capable d’obtenir des diffusions latentes efficaces tout en tirant parti des capacités de synthèse de la parole diversifiées offertes par les modèles de diffusion. De plus, le cadre StyleTTS2 emploie également un modèle de langage de parole pré-entraîné grand comme discriminateur, comme le cadre WavLM, et le couple avec sa propre approche de modélisation de durée différentiable pour former le cadre de bout en bout, et générer finalement des discours avec une naturalité améliorée. Grâce à l’approche qu’il suit, le cadre StyleTTS2 surpasse les cadres actuels de pointe pour les tâches de génération de la parole, et est l’un des cadres les plus efficaces pour le pré-entraînement de grands modèles de parole dans un réglage à zéro tir pour les tâches d’adaptation de locuteur.
En poursuivant, pour fournir une synthèse de la parole de niveau humain, le cadre StyleTTs2 intègre les connaissances issues des travaux existants, notamment les modèles de diffusion pour la synthèse de la parole, et les grands modèles de langage de parole. Les modèles de diffusion sont généralement utilisés pour les tâches de synthèse de la parole en raison de leurs capacités de contrôle fin de la parole et de leurs capacités d’échantillonnage de la parole diversifiées. Cependant, les modèles de diffusion ne sont pas aussi efficaces que les cadres non itératifs basés sur GAN, et une raison majeure est la nécessité d’échantillonner des représentations latentes, des formes d’onde et des mélo-spectrogrammes de manière itérative jusqu’à la durée cible de la parole.
D’un autre côté, les travaux récents sur les grands modèles de langage de parole ont indiqué leur capacité à améliorer la qualité des tâches de génération de la parole, et à s’adapter bien au locuteur. Les grands modèles de langage de parole convertissent généralement le texte d’entrée en représentations quantifiées ou continues dérivées de cadres de langage de parole pré-entraînés pour les tâches de reconstruction de la parole. Cependant, les caractéristiques de ces modèles de langage de parole ne sont pas optimisées directement pour la synthèse de la parole. En revanche, le cadre StyleTTS2 tire parti des connaissances acquises par les grands cadres SLM en utilisant un entraînement adversatif pour synthétiser les caractéristiques des modèles de langage de parole sans utiliser des cartes d’espace latent, et apprend donc un espace latent optimisé pour la synthèse de la parole directement.
StyleTTS2 : Architecture et méthodologie
Au cœur du StyleTTS2 se trouve son prédécesseur, le cadre StyleTTS, qui est un cadre de texte-à-parole non autoregressif qui utilise un encodeur de style pour dériver un vecteur de style à partir de la référence audio, permettant ainsi une génération de parole naturelle et expressive. Le vecteur de style utilisé dans le cadre StyleTTS est incorporé directement dans l’encodeur, la durée et les prédictions en utilisant l’AdaIN ou la normalisation d’instance adaptative, permettant ainsi au modèle StyleTTS de générer des sorties de parole avec des prosodies, des durées et même des émotions variables. Le cadre StyleTTS se compose de 8 modèles au total, divisés en trois catégories
- Modèles acoustiques ou système de génération de la parole avec un encodeur de style, un encodeur de texte et un décodeur de parole.
- Système de prédiction de la parole à partir du texte en utilisant des prédictions de prosodie et de durée.
- Système utilitaire comprenant un aligneur de texte, un extracteur de hauteur et un discriminateur pour l’entraînement.
Grâce à son approche, le cadre StyleTTS offre des performances de pointe en matière de synthèse de la parole contrôlable et diversifiée. Cependant, cette performance a ses inconvénients, tels que la dégradation de la qualité des échantillons, les limitations expressives et la dépendance à l’égard des applications de parole dans les applications en temps réel.
En améliorant le cadre StyleTTS, le modèle StyleTTS2 aboutit à des tâches de texte-à-parole expressives améliorées avec des performances hors distribution améliorées, et une qualité de niveau humain élevée. Le cadre StyleTTS2 utilise un processus d’entraînement de bout en bout qui optimise les différents composants avec un entraînement adversatif, et une synthèse directe de la forme d’onde. Contrairement au cadre StyleTTS, le cadre StyleTTS2 modélise le style de parole comme une variable latente, et l’échantillonne via des modèles de diffusion, générant ainsi des échantillons de parole diversifiés sans utiliser de référence audio. Examinons ces composants en détail.
Entraînement de bout en bout pour l’interférence
Dans le cadre StyleTTS2, une approche d’entraînement de bout en bout est utilisée pour optimiser les différents composants de la parole à partir du texte pour l’interférence sans avoir à compter sur des composants fixes. Le cadre StyleTTS2 réalise cela en modifiant le décodeur pour générer la forme d’onde directement à partir du vecteur de style, des courbes de hauteur et d’énergie, et des représentations alignées. Le cadre supprime ensuite la dernière couche de projection du décodeur et la remplace par un décodeur de forme d’onde. Le cadre StyleTTS2 utilise deux encodeurs : un décodeur basé sur HifiGAN pour générer la forme d’onde directement, et un décodeur basé sur iSTFT pour produire la phase et l’amplitude qui sont converties en formes d’onde pour une interférence et un entraînement plus rapides.

La figure ci-dessus représente les modèles acoustiques utilisés pour le pré-entraînement et l’entraînement conjoint. Pour réduire le temps d’entraînement, les modules sont d’abord optimisés dans la phase de pré-entraînement, suivie de l’optimisation de tous les composants, à l’exception de l’extracteur de hauteur, pendant l’entraînement conjoint. La raison pour laquelle l’entraînement conjoint n’optimise pas l’extracteur de hauteur est qu’il est utilisé pour fournir la vérité de terrain pour les courbes de hauteur.

La figure ci-dessus représente l’entraînement adversatif du modèle de langage de parole et l’interférence avec le cadre WavLM pré-entraîné mais non pré-repris. Le processus diffère de celui mentionné ci-dessus car il peut prendre des textes d’entrée variables mais accumule les gradients pour mettre à jour les paramètres à chaque lot.
Diffusion de style
Le cadre StyleTTS2 vise à modéliser la parole comme une distribution conditionnelle à travers une variable latente qui suit la distribution conditionnelle, et cette variable est appelée le style de parole généralisé, et représente toute caractéristique dans l’échantillon de parole au-delà de la portée de tout contenu phonétique, y compris le stress lexical, la prosodie, le taux de parole et même les transitions de formant.
Discriminateurs de modèle de langage de parole
Les modèles de langage de parole sont réputés pour leurs capacités générales à encoder des informations précieuses sur une large gamme de sémantiques et d’aspects acoustiques, et les représentations SLM ont traditionnellement pu imiter les perceptions humaines pour évaluer la qualité de la parole synthétisée générée. Le cadre StyleTTS2 utilise une approche d’entraînement adversatif pour utiliser la capacité des encodeurs SLM à effectuer des tâches génératives, et emploie un cadre WavLM de 12 couches comme discriminateur. Cette approche permet au cadre de permettre l’entraînement sur des textes hors distribution ou Hors de la distribution qui peuvent aider à améliorer les performances. De plus, pour prévenir les problèmes de sur-ajustement, le cadre échantillonne des textes hors distribution et en distribution avec une probabilité égale.
Modélisation de durée différentiable
Traditionnellement, un prédicteur de durée est utilisé dans les cadres de texte-à-parole qui produit des durées de phonèmes, mais les méthodes de sur-échantillonnage que ces prédicteurs de durée utilisent bloquent souvent le flux de gradient pendant le processus d’entraînement de bout en bout, et le cadre NaturalSpeech emploie un sur-échantillonneur basé sur l’attention pour la conversion de la parole de niveau humain. Cependant, le cadre StyleTTS2 trouve cette approche instable pendant l’entraînement adversatif car le StyleTTS2 forme en utilisant un sur-échantillonnage différentiable avec un entraînement adversatif sans la perte de termes supplémentaires en raison d’une différence de longueur due à des déviations. Même si l’utilisation d’une approche de warping temporel dynamique peut aider à atténuer cette différence, son utilisation n’est pas seulement coûteuse en termes de calcul, mais sa stabilité est également une préoccupation lorsqu’elle est utilisée avec des objectifs adversatifs ou des tâches de reconstruction de mélodie.
Pour faire face à cette limitation, le cadre StyleTTC2 propose d’utiliser une nouvelle approche de sur-échantillonnage non paramétrique sans entraînement supplémentaire, et capable de prendre en compte des longueurs d’alignement variables. Pour chaque phonème, le cadre StyleTTC2 modélise l’alignement comme une variable aléatoire, et indique l’index de la trame de parole avec laquelle le phonème s’aligne.
Entraînement et évaluation du modèle
Le cadre StyleTTC2 est entraîné et expérimenté sur trois ensembles de données : VCTK, LibriTTS et LJSpeech. La composante à locuteur unique du cadre StyleTTS2 est entraînée en utilisant l’ensemble de données LJSpeech qui contient environ 13 000 échantillons audio, répartis en 12 500 échantillons d’entraînement, 100 échantillons de validation et environ 500 échantillons de test, avec un temps de lecture combiné d’environ 24 heures. La composante multi-locuteurs du cadre est entraînée sur l’ensemble de données VCTK qui comprend plus de 44 000 clips audio avec plus de 100 locuteurs natifs ayant des accents différents, et est réparti en 43 500 échantillons d’entraînement, 100 échantillons de validation et environ 500 échantillons de test. Enfin, pour équiper le cadre avec des capacités d’adaptation à zéro tir, le cadre est entraîné sur l’ensemble de données combiné LibriTTS qui comprend des clips audio totalisant environ 250 heures de parole avec plus de 1 150 locuteurs. Pour évaluer ses performances, le modèle utilise deux métriques : la note moyenne d’opinion de naturalité et la note moyenne d’opinion de similarité.

Résultats
L’approche et la méthodologie utilisées dans le cadre StyleTTS2 sont mises en évidence dans ses performances, car le modèle surpasse plusieurs cadres de texte-à-parole de pointe, notamment sur l’ensemble de données NaturalSpeech, et établit une nouvelle norme pour l’ensemble de données. De plus, le cadre StyleTTS2 surpasse le cadre VITS de pointe sur l’ensemble de données VCTK, et les résultats sont présentés dans la figure suivante.

Le modèle StyleTTS2 surpasse également les modèles précédents sur l’ensemble de données LJSpeech, et il ne montre aucun degré de dégradation de la qualité sur les textes hors distribution ou Hors de la distribution, comme le montrent les modèles précédents sur les mêmes métriques. De plus, dans un réglage à zéro tir, le modèle StyleTTC2 surpasse le cadre Vall-E existant en termes de naturalité, même s’il est en retard en termes de similarité. Cependant, il est important de noter que le cadre StyleTTS2 est capable d’obtenir des performances compétitives malgré le fait qu’il n’a été entraîné que sur 245 heures d’échantillons audio, comparé à plus de 60 000 heures d’entraînement pour le cadre Vall-E, ce qui prouve que le StyleTTC2 est une alternative efficace en termes de données par rapport aux méthodes de pré-entraînement existantes utilisées dans le cadre Vall-E.

En poursuivant, en raison du manque de données audio étiquetées pour les émotions, le cadre StyleTTC2 utilise le modèle GPT-4 pour générer plus de 500 instances à travers différentes émotions pour la visualisation des vecteurs de style que le cadre crée à l’aide de son processus de diffusion.

Dans la première figure, les styles émotionnels en réponse aux sentiments du texte d’entrée sont illustrés par les vecteurs de style à partir du modèle LJSpeech, et il démontre la capacité du cadre StyleTTC2 à synthétiser des discours expressifs avec des émotions variées. La deuxième figure représente des clusters distincts pour chacun des cinq locuteurs individuels, montrant ainsi une grande variété de diversité issue d’un seul fichier audio. La figure finale démontre le cluster lâche des émotions du locuteur 1, et révèle que, malgré certaines chevauchements, les clusters basés sur les émotions sont prometteurs, indiquant ainsi la possibilité de manipuler le ton émotionnel d’un locuteur indépendamment de l’échantillon audio de référence et de son ton d’entrée. Malgré l’utilisation d’une approche basée sur la diffusion, le cadre StyleTTS2 parvient à surper les cadres existants de pointe, notamment VITS, ProDiff et FastDiff.

Pensées finales
Dans cet article, nous avons parlé du StyleTTS-2, un cadre de texte-à-parole novateur, robuste et innovant qui est construit sur les fondements du cadre StyleTTS, et vise à présenter l’étape suivante vers les systèmes de texte-à-parole de pointe. Le cadre StyleTTS2 modélise les styles de parole comme des variables aléatoires latentes, et utilise un modèle de diffusion probabiliste pour échantillonner ces styles de parole ou variables aléatoires, permettant ainsi au cadre StyleTTS2 de synthétiser efficacement des discours réalistes sans utiliser de références audio. Le cadre StyleTTS2 utilise la diffusion de style et les discriminateurs SLM pour atteindre des performances de niveau humain sur les tâches de texte-à-parole, et parvient à surper les cadres existants de pointe sur une large gamme de tâches de parole.












