Kunstmatige intelligentie

StyleTTS 2: Mensniveau-tekst-naar-spraak met grote spraaktaalmodellen

mm

Door de toename van natuurlijke en synthetische spraaksynthese-benaderingen, is een van de belangrijkste prestaties die de AI-industrie de afgelopen jaren heeft behaald, het effectief synthetiseren van tekst-naar-spraak-kaders met potentieel toepasbare toepassingen in verschillende industrieën, waaronder audioboeken, virtuele assistenten, voice-over-narraties en meer, waarbij sommige state-of-the-art-modellen mensniveau-prestaties en efficiëntie leveren op een breed scala aan spraakgerelateerde taken. Echter, ondanks hun sterke prestaties, is er nog steeds ruimte voor verbetering voor taken dankzij expressieve en diverse spraak, de behoefte aan een grote hoeveelheid trainingsgegevens voor het optimaliseren van zero-shot-tekst-naar-spraak-kaders en robuustheid voor OOD- of Out of Distribution-teksten, waardoor ontwikkelaars werken aan een meer robuust en toegankelijk tekst-naar-spraak-kader.

In dit artikel zullen we het hebben over StyleTTS-2, een robuust en innovatief tekst-naar-spraak-kader dat is gebouwd op de fundamenten van het StyleTTS-kader en dat als doel heeft de volgende stap te zetten naar state-of-the-art-tekst-naar-spraak-systemen. Het StyleTTS2-kader modelleert spraakstijlen als latent random variabelen en gebruikt een probabilistisch diffusiemodel om deze spraakstijlen of random variabelen te bemonsteren, waardoor het StyleTTS2-kader realistische spraak kan synthetiseren zonder gebruik te maken van referentie-audio-inputs. Door deze benadering kan het StyleTTS2-kader betere resultaten leveren en een hoge efficiëntie bereiken in vergelijking met de huidige state-of-the-art-tekst-naar-spraak-kaders, maar kan het ook profiteren van de diverse spraaksynthese die wordt aangeboden door diffusiemodel-kaders. We zullen het StyleTTS2-kader in meer detail bespreken en praten over zijn architectuur en methodologie, evenals de resultaten die door het kader zijn behaald. Laten we beginnen.

StyleTTS2 voor Tekst-naar-Spraak-Synthese: Een Inleiding

StyleTTS2 is een innovatief Tekst-naar-Spraak-synthesemodel dat de volgende stap zet naar het bouwen van mensniveau-TTS-kaders en is gebouwd op StyleTTS, een stijl-gebaseerd tekst-naar-spraak-generatiemodel. Het StyleTTS2-kader modelleert spraakstijlen als latent random variabelen en gebruikt een probabilistisch diffusiemodel om deze spraakstijlen of random variabelen te bemonsteren, waardoor het StyleTTS2-kader realistische spraak kan synthetiseren zonder gebruik te maken van referentie-audio-inputs. Het modelleren van stijlen als latent random variabelen is wat het StyleTTS2-kader onderscheidt van zijn voorganger, het StyleTTS-kader, en heeft als doel de meest geschikte spraakstijl te genereren voor de invoer-tekst zonder een referentie-audio-input nodig te hebben, en kan effectieve latent diffusies bereiken door gebruik te maken van de diverse spraaksynthese-mogelijkheden die worden aangeboden door diffusiemodellen. Bovendien gebruikt het StyleTTS2-kader ook een vooraf getrainde grote SLM of Speech Language Model als discriminatoren, zoals het WavLM-kader, en koppelt het aan zijn eigen novum differentieel duurmodellering-benadering om het kader eind-tot-eind te trainen, en uiteindelijk spraak te genereren met verhoogde naturaliteit. Door de benadering die het volgt, presteert het StyleTTS2-kader beter dan de huidige state-of-the-art-kaders voor spraakgeneratie-taken en is het een van de meest efficiënte kaders voor het vooraf trainen van grote spraakmodellen in zero-shot-setting voor spreker-aanpassingstaken.

Verder, om mensniveau-tekst-naar-spraak-synthese te leveren, incorporeert het StyleTTs2-kader de kennis uit bestaande werken, waaronder diffusiemodellen voor spraaksynthese en grote spraaktaalmodellen. Diffusiemodellen worden meestal gebruikt voor spraaksynthese-taken vanwege hun mogelijkheden voor fijne korrel-spraakcontrole en diverse spraakbemonstering. Echter, diffusiemodellen zijn niet zo efficiënt als GAN-gebaseerde non-iteratieve kaders en een belangrijke reden hiervoor is de vereiste om latent representaties, waveforms en mel-spectrograms iteratief te bemonsteren tot de doelduur van de spraak.

Aan de andere kant hebben recente werken rondom grote spraaktaalmodellen hun vermogen aangetoond om de kwaliteit van tekst-naar-spraak-generatie-taken te verbeteren en zich aan te passen aan de spreker. Grote spraaktaalmodellen zetten tekstinvoer meestal om in gequantificeerde of continue representaties die zijn afgeleid van vooraf getrainde spraaktaalmodellen voor spraakreconstructie-taken. Echter, de kenmerken van deze spraaktaalmodellen zijn niet geoptimaliseerd voor spraaksynthese rechtstreeks. In tegenstelling tot het StyleTTS2-kader, maakt gebruik van de kennis die is verkregen door grote SLM-kaders met behulp van adversariale training om spraaktaalmodellen-kenmerken te synthetiseren zonder latent ruimtekaarten te gebruiken, en leert het dus een spraaksynthese-geoptimaliseerde latent ruimte rechtstreeks.

StyleTTS2: Architectuur en Methodologie

In zijn kern is StyleTTS2 gebouwd op zijn voorganger, het StyleTTS-kader, dat een non-autoregressief tekst-naar-spraak-kader is dat gebruik maakt van een stijl-encoder om een stijlvector af te leiden van de referentie-audio, waardoor expressieve en natuurlijke spraakgeneratie mogelijk is. De stijlvector die in het StyleTTS-kader wordt gebruikt, wordt rechtstreeks in de encoder, duur en predictors opgenomen door gebruik te maken van AdaIN of Adaptive Instance Normalization, waardoor het StyleTTS-model spraakuitvoer kan genereren met variabele prosodie, duur en zelfs emoties. Het StyleTTS-kader bestaat uit 8 modellen in totaal die zijn onderverdeeld in drie categorieën

  1. Acoustic Models of Spraakgeneratie-systeem met een stijl-encoder, een tekst-encoder en een spraak-decoder.
  2. Een Tekst-naar-Spraak-voorspellingsysteem dat gebruik maakt van prosodie en duur-voorspellers.
  3. Een Utility-systeem dat een tekst-aligner, een pitch-extractor en een discriminator voor trainingsdoeleinden omvat.

Door zijn benadering levert het StyleTTS-kader state-of-the-art-prestaties voor controleerbare en diverse spraaksynthese. Echter, deze prestaties hebben hun nadelen, zoals degradatie van monsterkwaliteit, expressieve beperkingen en afhankelijkheid van spraak-belemmerende toepassingen in real-time.

Het StyleTTS2-model verbetert het StyleTTS-kader en resulteert in verbeterde expressieve tekst-naar-spraak-taken met een verbeterde out-of-distribution-prestatie en een hoge mensniveau-kwaliteit. Het StyleTTS2-kader maakt gebruik van een eind-tot-eind-trainingsproces dat de verschillende componenten optimaliseert met adversariale training en directe waveform-synthese gezamenlijk. In tegenstelling tot het StyleTTS-kader, modelleert het StyleTTS2-kader de spraakstijl als een latent variabele en bemonstert het via diffusiemodellen, waardoor het kader diverse spraakmonsters kan genereren zonder een referentie-audio te gebruiken. Laten we een gedetailleerde blik werpen op deze componenten.

Eind-tot-Eind-Training voor Interferentie

In het StyleTTS2-kader wordt een eind-tot-eind-trainingsbenadering gebruikt om verschillende tekst-naar-spraak-componenten te optimaliseren voor interferentie zonder te moeten vertrouwen op vaste componenten. Het StyleTTS2-kader bereikt dit door de decoder te modificeren om de waveform rechtstreeks te genereren vanuit de stijlvector, pitch- en energiekrommen en gealigneerde representaties. Het kader verwijdert vervolgens de laatste projectielaag van de decoder en vervangt het door een waveform-decoder. Het StyleTTS2-kader maakt gebruik van twee encoders: een HifiGAN-gebaseerde decoder om de waveform rechtstreeks te genereren en een iSTFT-gebaseerde decoder om fase- en magnitude te produceren die worden omgezet in waveforms voor snellere interferentie- en trainingsprocessen.

De bovenstaande figuur vertegenwoordigt de acoustische modellen die worden gebruikt voor voorafgaande training en gezamenlijke training. Om de trainingsduur te verminderen, worden de modules eerst geoptimaliseerd in de voorafgaande trainingsfase, gevolgd door de optimalisatie van alle componenten minus de pitch-extractor tijdens de gezamenlijke training. De reden waarom de gezamenlijke training de pitch-extractor niet optimaliseert, is omdat het wordt gebruikt om de grondwaarheid voor pitch-krommen te bieden.

De bovenstaande figuur vertegenwoordigt de Speech Language Model-adversariale training en interferentie met het WavLM-kader vooraf getraind maar niet vooraf afgestemd. Het proces verschilt van het bovenstaande omdat het verschillende invoer-teksten kan hebben maar accumuleert de gradients om de parameters bij te werken in elke batch.

Stijl-Diffusie

Het StyleTTS2-kader streeft ernaar om spraak te modelleren als een conditionele distributie via een latent variabele die de conditionele distributie volgt, en deze variabele wordt de generaliseerde spraakstijl genoemd, en vertegenwoordigt elke karakteristiek in het spraakmonster voorbij het bereik van enige fonetische inhoud, waaronder lexicale stress, prosodie, spreektempo en zelfs formant-overgangen.

Spraaktaalmodel-Discriminatoren

Spraaktaalmodellen zijn bekend om hun algemene vermogen om waardevolle informatie over een breed scala aan semantiek en akoestische aspecten te coderen, en SLM-representaties hebben traditioneel kunnen mimicken van menselijke percepties om de kwaliteit van de gegenereerde gesynthesiseerde spraak te evalueren. Het StyleTTS2-kader gebruikt een adversariale trainingsbenadering om het vermogen van SLM-encoders te gebruiken voor generatieve taken en maakt gebruik van een 12-laags WavLM-kader als discriminator. Deze benadering stelt het kader in staat om training te mogelijk maken op OOD- of Out Of Distribution-teksten die de prestaties kunnen verbeteren. Bovendien, om overfitting-problemen te voorkomen, bemonstert het kader OOD-teksten en in-distributie met gelijke waarschijnlijkheid.

Differentieerbare Duur-Modellering

Traditioneel wordt een duur-voorspeller gebruikt in tekst-naar-spraak-kaders die foneme-duur produceert, maar de upsampling-methoden die deze duur-voorspellers gebruiken, blokkeren vaak de gradient-stroom tijdens het E2E-trainingsproces, en het NaturalSpeech-kader gebruikt een attention-gebaseerde upsampler voor mensniveau-tekst-naar-spraak-conversie. Echter, het StyleTTS2-kader vindt deze benadering onstabiel tijdens adversariale training omdat het StyleTTS2 traint met differentieerbare upsampling met verschillende adversariale training zonder verlies van extra termen vanwege lengte-afwijkingen. Hoewel het gebruik van een zachte dynamische tijd-warp-benadering kan helpen bij het mitigeren van deze lengte-afwijking, is het gebruik ervan niet alleen computationeel duur, maar is de stabiliteit ervan ook een zorg bij het werken met adversariale objectieven of mel-reconstructie-taken. Daarom, om mensniveau-prestaties te bereiken met adversariale training en het trainingsproces te stabiliseren, gebruikt het StyleTTC2-kader een non-parametratische upsampling-benadering.

Om deze beperking te overwinnen, stelt het StyleTTC2-kader voor om een nieuwe non-parametratische upsampling-benadering te gebruiken zonder extra training, en in staat om rekening te houden met variabele lengtes van de aligneringen. Voor elke foneme, modelleert het StyleTTC2-kader de alignering als een random variabele en geeft het de index van de spraakframe aan waarop de foneme zich aligneert.

Model-Training en Evaluatie

Het StyleTTC2-kader wordt getraind en geëxperimenteerd op drie datasets: VCTK, LibriTTS en LJSpeech. De single-spreker-component van het StyleTTS2-kader wordt getraind met de LJSpeech-dataset die ongeveer 13.000+ audio-monsters bevat, verdeeld in 12.500 trainingsmonsters, 100 validatiemonsters en ongeveer 500 testmonsters, met een totale looptijd van ongeveer 24 uur. De multi-spreker-component van het kader wordt getraind op de VCTK-dataset die bestaat uit meer dan 44.000 audio-clips met meer dan 100 individuele native sprekers met variabele accenten, en is verdeeld in 43.500 trainingsmonsters, 100 validatiemonsters en ongeveer 500 testmonsters. Ten slotte, om het kader uit te rusten met zero-shot-aanpassingsmogelijkheden, wordt het kader getraind op de gecombineerde LibriTTS-dataset die bestaat uit audio-clips met een totale duur van ongeveer 250 uur met meer dan 1.150 individuele sprekers. Om zijn prestaties te evalueren, maakt het model gebruik van twee metrics: MOS-N of Mean Opinion Score van Naturaliteit, en MOS-S of Mean Opinion Score van Overeenkomst.MOS-N of Mean Opinion Score van Naturaliteit, en MOS-S of Mean Opinion Score van Overeenkomst.

Resultaten

De benadering en methodologie die in het StyleTTS2-kader worden gebruikt, worden weerspiegeld in zijn prestaties, aangezien het model verschillende state-of-the-art-TTS-kaders overtreft, met name op de NaturalSpeech-dataset, en stelt het een nieuwe standaard in voor de dataset. Bovendien treft het StyleTTS2-kader de state-of-the-art-VITS-kader op de VCTK-dataset, en worden de resultaten gedemonstreerd in de volgende figuur.

Het StyleTTS2-model treft ook eerder modellen op de LJSpeech-dataset, en toont het geen enkele mate van kwaliteitsdegradatie op OOD- of Out of Distribution-teksten, zoals eerder kaders op dezelfde metrics. Bovendien, in zero-shot-setting, treft het StyleTTC2-model het bestaande Vall-E-kader in naturaliteit, hoewel het achterblijft in termen van overeenkomst. Echter, het is de moeite waard om op te merken dat het StyleTTS2-kader in staat is om concurrerende prestaties te bereiken, ondanks dat het alleen wordt getraind op 245 uur aan audio-monsters in vergelijking met meer dan 60k uur aan training voor het Vall-E-kader, waardoor het StyleTTC2 een data-efficiënte alternatief is voor bestaande grote voorafgaande trainingsmethoden zoals die worden gebruikt in het Vall-E.

Verder, vanwege het ontbreken van emotie-gelabelde audio-tekstgegevens, gebruikt het StyleTTC2-kader het GPT-4-model om meer dan 500 instanties te genereren over verschillende emoties voor de visualisatie van stijlvector die het kader creëert met zijn diffusie-proces.

In de eerste figuur worden emotionele stijlen in reactie op invoer-tekst-sentimenten geïllustreerd door de stijlvector van het LJSpeech-model, en toont het de mogelijkheid van het StyleTTC2-kader om expressieve spraak te synthetiseren met variabele emoties. De tweede figuur toont afzonderlijke clusters voor elke vijf individuele sprekers, waardoor een breed scala aan diversiteit wordt getoond dat afkomstig is van één audio-bestand. De laatste figuur toont een losse cluster van emoties van spreker 1, en onthult dat, ondanks enkele overlappingen, emotie-gebaseerde clusters prominent zijn, waardoor het mogelijk is om de emotionele toon van een spreker te manipuleren, ongeacht het referentie-audio-monster en zijn invoer-toon. Ondanks het gebruik van een diffusie-gebaseerde benadering, weet het StyleTTS2-kader bestaande state-of-the-art-kaders te overtreffen, waaronder VITS, ProDiff en FastDiff.

Slotbeschouwingen

In dit artikel hebben we het gehad over StyleTTS2, een nieuw, robuust en innovatief tekst-naar-spraak-kader dat is gebouwd op de fundamenten van het StyleTTS-kader en dat als doel heeft de volgende stap te zetten naar state-of-the-art-tekst-naar-spraak-systemen. Het StyleTTS2-kader modelleert spraakstijlen als latent random variabelen en gebruikt een probabilistisch diffusiemodel om deze spraakstijlen of random variabelen te bemonsteren, waardoor het StyleTTS2-kader realistische spraak kan synthetiseren zonder gebruik te maken van referentie-audio-inputs. Het StyleTTS2-kader gebruikt stijl-diffusie en SLM-discriminatoren om mensniveau-prestaties te bereiken op tekst-naar-spraak-taken en weet het bestaande state-of-the-art-kaders te overtreffen op een breed scala aan spraaktaken.

Een ingenieur van beroep, een schrijver van hart. Kunal is een technisch schrijver met een diepe liefde en begrip voor AI en ML, toegewijd aan het vereenvoudigen van complexe concepten in deze gebieden door middel van zijn boeiende en informatieve documentatie.