Kunstig intelligens

StyleTTS 2: Menneske-nivå tekst-til-tale med store tale-språkmodeller

mm

Takket være en økning i naturlige og syntetiske tale-syntese-tilnærmelser, er en av de viktigste prestasjonene AI-industrien har oppnådd de siste årene å syntetisere tekst-til-tale-rammeverk med potensielle anvendelser over ulike bransjer, inkludert lydbøker, virtuelle assistenter, stemme-over-narrasjoner og mer, med noen state-of-the-art-modeller som leverer menneske-nivå-ytelse og effektivitet over en rekke tale-relaterte oppgaver. Imidlertid, til tross for deres sterke ytelse, er det fortsatt rom for forbedring for oppgaver takket være uttrykksfulle og diverse tale, krav om en stor mengde treningdata for å optimalisere null-skudd tekst-til-tale-rammeverk, og robusthet for OOD eller Utenfor-distribusjonstekster som fører utviklere til å arbeide med et mer robust og tilgjengelig tekst-til-tale-rammeverk.

I denne artikkelen, vil vi snakke om StyleTTS-2, et robust og innovativt tekst-til-tale-rammeverk som er bygget på grunnlag av StyleTTS-rammeverket, og som har som mål å presentere neste skritt mot state-of-the-art tekst-til-tale-systemer. StyleTTS2-rammeverket modellerer tale-stiler som latente tilfeldige variabler, og bruker en sannsynlig diffusjonsmodell til å prøve disse tale-stilene eller tilfeldige variablene, og lar dermed StyleTTS2-rammeverket syntetisere realistisk tale effektivt uten å bruke referanse-lyd-innganger. Takket være tilnærmingen, er StyleTTS2-rammeverket i stand til å levere bedre resultater og viser høy effektivitet når sammenlignet med nåværende state-of-the-art tekst-til-tale-rammeverk, men er også i stand til å dra nytte av den diverse tale-syntese som tilbys av diffusjonsmodell-rammeverk. Vi vil diskutere StyleTTS2-rammeverket i større detalj, og snakke om dens arkitektur og metode, samt se på resultater som er oppnådd av rammeverket. La oss begynne.

StyleTTS2 for Tekst-til-Tale-Syntese: En Innføring

StyleTTS2 er et innovativt tekst-til-tale-syntese-modell som tar neste skritt mot å bygge menneske-nivå TTS-rammeverk, og det er bygget på StyleTTS, en stil-basert tekst-til-tale-generativ modell. StyleTTS2-rammeverket modellerer tale-stiler som latente tilfeldige variabler, og bruker en sannsynlig diffusjonsmodell til å prøve disse tale-stilene eller tilfeldige variablene, og lar dermed StyleTTS2-rammeverket syntetisere realistisk tale effektivt uten å bruke referanse-lyd-innganger. Å modellere stiler som latente tilfeldige variabler er det som skiller StyleTTS2-rammeverket fra sin forgjenger, StyleTTS-rammeverket, og har som mål å generere den mest passende tale-stil for inndata-teksten uten å trenger en referanse-lyd-inngang, og er i stand til å oppnå effektiv latent diffusjon samtidig som det tar nytte av den diverse tale-syntese-kapasiteten som tilbys av diffusjonsmodell-rammeverk. I tillegg bruker StyleTTS2-rammeverket også forhånds-trent store SLM eller Tale-Språk-Modell som diskriminatorene, som WavLM-rammeverket, og kobler det med sin egen nyttige differensial-varig-modell-tilnærming til å trene rammeverket fra ende til ende, og ultimate genererer tale med forbedret naturlighet. Takket være tilnærmingen det følger, overgår StyleTTS2-rammeverket nåværende state-of-the-art-rammeverk for tale-generering-oppgaver, og er ett av de mest effektive rammeverkene for forhånds-trening av store skala tale-modeller i null-skudd-innstilling for tale-tilpasning-oppgaver.

Videre, for å levere menneske-nivå tekst-til-tale-syntese, inkorporerer StyleTTs2-rammeverket lærdom fra eksisterende arbeid, inkludert diffusjonsmodeller for tale-syntese, og store tale-språk-modeller. Diffusjonsmodeller brukes vanligvis for tale-syntese-oppgaver takket være deres evne til å kontrollere tale på en finmålet måte, og diverse tale-prøving-kapasiteter. Imidlertid er diffusjonsmodeller ikke like effektive som GAN-baserte ikke-iterative rammeverk, og en viktig årsak til dette er kravet om å prøve latente representasjoner, bølgeformer og mel-spektrogrammer iterativt til mål-dannelsen av tale.

På den andre siden, har nylige arbeid omkring store Tale-Språk-Modeller indikert deres evne til å forbedre kvaliteten på tekst-til-tale-generering-oppgaver, og tilpasse seg godt til taleren. Store Tale-Språk-Modeller konverterer vanligvis tekst-inndata enten til kvantiserte eller kontinuerlige representasjoner avledet fra forhånds-trente tale-språk-rammeverk for tale-rekonstruksjons-oppgaver. Imidlertid er funksjonene til disse Tale-Språk-Modellene ikke optimert for tale-syntese direkte. I motsetning tar StyleTTS2-rammeverket nytte av kunnskapen som er vunnet av store SLM-rammeverk ved å bruke adversarial-trening til å syntetisere tale-språk-modell-funksjoner uten å bruke latent-rom-kart, og dermed lærer det en tale-syntese-optimert latent-rom direkte.

StyleTTS2: Arkitektur og Metodologi

I sin kerne er StyleTTS2 bygget på sin forgjenger, StyleTTS-rammeverket, som er et ikke-autoregressivt tekst-til-tale-rammeverk som bruker en stil-encoder til å avlede en stil-vektor fra referanse-lyden, og lar dermed expressive og naturlig tale-generering. Stil-vektoren som brukes i StyleTTS-rammeverket inkorporeres direkte i encoderen, varighet og prediktorer ved å bruke AdaIN eller Adaptive Instance Normalization, og lar dermed StyleTTS-modellen generere tale-utganger med varierende prosodi, varighet og selv følelser. StyleTTS-rammeverket består av 8 modeller i totalt, som er delt inn i tre kategorier

  1. Akustiske Modeller eller Tale-Genererings-System med en stil-encoder, en tekst-encoder og en tale-dekoder.
  2. En Tekst-til-Tale-Prediksjons-System som bruker prosodi og varighet-prediktorer.
  3. En Utility-System som inkluderer en tekst-justerings-verktøy, en pitch-ekstraktor og en diskriminator for trening-formål.

Takket være sin tilnærming, leverer StyleTTS-rammeverket state-of-the-art-ytelse relatert til kontrollerbar og divers tale-syntese. Imidlertid har denne ytelsen sine ulemper, som degradering av prøve-kvalitet, uttrykksfulle begrensninger og avhengighet av tale-hindrende applikasjoner i sanntid.

Ved å forbedre StyleTTS-rammeverket, resulterer StyleTTS2-modellen i forbedret uttrykksfulle tekst-til-tale-oppgaver med forbedret ut-dannelses-ytelse, og en høy menneske-nivå-kvalitet. StyleTTS2-rammeverket bruker en ende-til-ende-trening-prosess som optimaliserer de ulike komponentene med adversarial-trening, og direkte bølgeform-syntese sammen. I motsetning til StyleTTS-rammeverket, modellerer StyleTTS2-rammeverket tale-stilen som en latent variabel, og prøver den via diffusjonsmodeller, og genererer dermed diverse tale-prøver uten å bruke en referanse-lyd. La oss se nærmere på disse komponentene.

Ende-til-Ende-Trening for Interferens

I StyleTTS2-rammeverket, brukes en ende-til-ende-trening-tilnærming til å optimalisere ulike tekst-til-tale-komponenter for interferens uten å måtte stole på faste komponenter. StyleTTS2-rammeverket oppnår dette ved å modifisere dekoderen til å generere bølgeformen direkte fra stil-vektoren, pitch- og energi-kurver og justerte representasjoner. Rammeverket fjerner deretter den siste prosjeksjons-lagene av dekoderen, og erstatter den med en bølgeform-dekoder. StyleTTS2-rammeverket bruker to encodere: HifiGAN-basert dekoder til å generere bølgeformen direkte, og en iSTFT-basert dekoder til å produsere fase- og størrelse som konverteres til bølgeformer for raskere interferens- og trening.

Figuren over representerer de akustiske modellene som brukes for forhånds-trening og felles-trening. For å redusere treningstiden, optimaliseres modulene først i forhånds-trening-fasen, fulgt av optimalisering av alle komponentene minus pitch-ekstraktoren under felles-trening. Grunnen til at felles-trening ikke optimaliserer pitch-ekstraktoren er fordi den brukes til å gi grunn-sannheten for pitch-kurver.

Figuren over representerer Tale-Språk-Modell-adversarial-trening og interferens med WavLM-rammeverket forhånds-trent, men ikke forhånds-justert. Prosessen skiller seg fra den ovennevnte, da den kan ta ulike inndata-tekster, men akkumulerer gradientene til å oppdatere parameterne i hver batch.

Stil-Diffusjon

StyleTTS2-rammeverket har som mål å modellere tale som en betinget distribusjon gjennom en latent variabel som følger den betingede distribusjonen, og denne variabelen kalles den generaliserte tale-stilen, og representerer noen karakteristika i tale-prøven utenfor rekkevidden av noen fonetisk innhold, inkludert leksikalsk stress, prosodi, tale-hastighet og selv formant-overganger.

Tale-Språk-Modell-Diskriminatorene

Tale-Språk-Modeller er kjent for deres generelle evne til å kode verdifull informasjon om en rekke semantiske og akustiske aspekter, og SLM-representasjoner har tradisjonelt vært i stand til å etterligne menneskelige persepsjoner for å evaluere kvaliteten på den genererte syntetiserte tale. StyleTTS2-rammeverket bruker en adversarial-trening-tilnærming til å bruke evnen til SLM-encodere til å utføre generative oppgaver, og bruker en 12-lags WavLM-rammeverk som diskriminator. Denne tilnærmingen lar rammeverket åpne for trening på OOD eller Utenfor-distribusjonstekster som kan hjelpe med å forbedre ytelsen. Videre, for å forhindre over-fitting-problemer, sampler rammeverket OOD-tekster og in-distribusjon med lik sannsynlighet.

Differensierbar Varighet-Modellering

Tradisjonelt brukes en varighet-prediktor i tekst-til-tale-rammeverk som produserer fonem-varighet, men oppsamplings-metodene disse varighet-prediktorer bruker ofte blokkerer gradient-flux under E2E-trening-prosessen, og NaturalSpeech-rammeverket bruker en oppsamling-basert oppsamler for menneske-nivå tekst-til-tale-omforming. Imidlertid finner StyleTTS2-rammeverket denne tilnærmingen å være ustabil under adversarial-trening, da StyleTTS2-trener med differensierbar oppsamling uten ekstra tap-termer på grunn av lengde-forskjell. Selv om å bruke en myk dynamisk tid-værende-tilnærming kan hjelpe med å mildne denne forskjellen, er å bruke den ikke bare komputasjonelt dyrt, men også ustabil når det gjelder adversarial-objektiver eller mel-rekonstruksjons-oppgaver. Derfor, for å oppnå menneske-nivå-ytelse med adversarial-trening og stabilisere trening-prosessen, bruker StyleTTC2-rammeverket en ikke-parametrisk oppsamling-tilnærming.

For å møte denne begrensningen, foreslår StyleTTC2-rammeverket å bruke en ny ikke-parametrisk oppsamling-tilnærming uten ekstra trening, og som kan håndtere varierende lengder av justeringer. For hver fonem, modellerer StyleTTC2-rammeverket justeringen som en tilfeldig variabel, og indikerer indeksen til tale-rammen som fonemet justerer med.

Modell-Trening og Evaluering

StyleTTC2-rammeverket er trent og eksperimentert på tre datasett: VCTK, LibriTTS og LJSpeech. Enkelt-taler-komponenten av StyleTTS2-rammeverket er trent ved å bruke LJSpeech-datasettet, som inneholder omtrent 13 000+ lyd-eksempler delt inn i 12 500 trening-eksempler, 100 validerings-eksempler og omtrent 500 test-eksempler, med en kombineret kjøretid på omtrent 24 timer. Flere-talere-komponenten av rammeverket er trent på VCTK-datasettet, som består av over 44 000 lyd-klipp med over 100 individuelle native talere med varierende aksenter, og er delt inn i 43 500 trening-eksempler, 100 validerings-eksempler og omtrent 500 test-eksempler. Til slutt, for å utstyre rammeverket med null-skudd-tilpasning-egenskaper, er rammeverket trent på det kombinerte LibriTTS-datasettet, som består av lyd-klipp som tilsammen utgjør omtrent 250 timer med lyd med over 1 150 individuelle talere. For å evaluere ytelsen, bruker modellen to metrikker: MOS-N eller Gjennomsnittlig Mening av Naturlighet, og MOS-S eller Gjennomsnittlig Mening av Likhet.

Resultater

Tilnærmingen og metoden som brukes i StyleTTS2-rammeverket kommer til syne i dens ytelse, da modellen overgår flere state-of-the-art TTS-rammeverk, spesielt på NaturalSpeech-datasettet, og setter en ny standard for datasettet. Videre overgår StyleTTS2-rammeverket state-of-the-art VITS-rammeverket på VCTK-datasettet, og resultater demonstreres i figuren under.

StyleTTS2-modellen overgår også tidligere modeller på LJSpeech-datasettet, og den viser ikke noen grad av kvalitets-degradering på OOD eller Utenfor-distribusjonstekster, som vist av tidligere rammeverk på samme metrikker. Videre, i null-skudd-innstilling, overgår StyleTTC2-modellen den eksisterende Vall-E-rammeverket i naturlighet, selv om den ligger bak i likhet. Imidlertid er det verdt å merke seg at StyleTTS2-rammeverket er i stand til å oppnå konkurrerende ytelse til tross for å være trent på bare 245 timer med lyd-eksempler, sammenlignet med over 60 000 timer med trening for Vall-E-rammeverket, og dermed viser StyleTTC2 seg å være en data-efektiv alternativ til eksisterende store forhånds-trening-metoder som brukes i Vall-E.

Videre, på grunn av mangelen på emocjon-merkede lyd-tekst-data, bruker StyleTTC2-rammeverket GPT-4-modellen til å generere over 500 eksempler over ulike emosjoner for visualisering av stil-vektorer som rammeverket skaper ved å bruke sin diffusjons-prosess.

I den første figuren, vises emosjon-stile i respons til inndata-tekst-sentimenter, illustrert av stil-vektorene fra LJSpeech-modellen, og det demonstrerer evnen til StyleTTC2-rammeverket til å syntetisere uttrykksfulle tale med varierende emosjoner. Den andre figuren viser distinkte kluster som dannes for hver av de fem enkelt-talerne, og viser en stor variasjon av diversitet som kommer fra en enkelt lyd-fil. Den siste figuren viser en løs klasse av emosjoner fra taler 1, og avslører at, til tross for noen overlapp, emosjons-baserte kluster er fremtredende, og indikerer muligheten for å manipulere den emosjonelle tone til en taler, uavhengig av referanse-lyd-eksemplet og dens inndata-tone. Til tross for å bruke en diffusjons-basert tilnærming, overgår StyleTTS2-rammeverket eksisterende state-of-the-art-rammeverk, inkludert VITS, ProDiff og FastDiff.

Slutt-tanker

I denne artikkelen, har vi snakket om StyleTTS2, et nytt, robust og innovativt tekst-til-tale-rammeverk som er bygget på grunnlag av StyleTTS-rammeverket, og som har som mål å presentere neste skritt mot state-of-the-art tekst-til-tale-systemer. StyleTTS2-rammeverket modellerer tale-stiler som latente tilfeldige variabler, og bruker en sannsynlig diffusjonsmodell til å prøve disse tale-stilene eller tilfeldige variablene, og lar dermed StyleTTS2-rammeverket syntetisere realistisk tale effektivt uten å bruke referanse-lyd-innganger. StyleTTS2-rammeverket bruker stil-diffusjon og SLM-diskriminatorene til å oppnå menneske-nivå-ytelse på tekst-til-tale-oppgaver, og overgår eksisterende state-of-the-art-rammeverk på en rekke tale-relaterte oppgaver.

En ingeniør av yrke, en forfatter av hjerte. Kunal er en teknisk forfatter med en dyp kjærlighet og forståelse av AI og ML, dedikert til å forenkle komplekse konsepter i disse feltene gjennom sin engasjerende og informerende dokumentasjon.