Tekoäly

StyleTTS 2: Ihmisen luokan teksti-puhe-synteesi suurilla puhekielimalleilla

Julkaistu 4. joulukuuta 2023

Päivitetty 22. toukokuuta 2026

Tekijä

Kunal Kejriwal

Tekstistä puheen synteesiin perustuvien menetelmien lisääntyessä yksi suurimmista saavutuksista, jonka tekoälyteollisuus on saavuttanut viime vuosina, on tehokkaasti syntetisoida teksti-puhe-kehykset, joilla on potentiaalisia sovelluksia eri aloilla, kuten äänikirjoissa, virtuaaliavustajissa, äänikertoimissa ja muissa, ja jotkut valmiit mallit toimivat ihmisen luokan tehokkuudella ja tehokkuudella laajalla valikoimalla puheen liittyvissä tehtävissä. Kuitenkin, vaikka niillä on vahva suorituskyky, on edelleen parantamisen varaa tehtävissä, jotka liittyvät ilmaisevaan ja monipuoliseen puheeseen, suuren määrän koulutusdatan tarpeeseen nollasuorituksen teksti-puhe-kehykset optimoimaan, ja robustiuteen OOD- tai jakautumattomille teksteille, mikä johtaa kehittäjiä työskentelemään entistä vahvemmassa ja saatavammassa teksti-puhe-kehyksessä.

Tässä artikkelissa puhumme StyleTTS-2:sta, vahvasta ja innovatiivisesta teksti-puhe-kehyksestä, joka on rakennettu StyleTTS-kehyksen perustalle, ja joka pyrkii esittämään seuraavan askeleen kohti valmiita teksti-puhe-järjestelmiä. StyleTTS2-kehyksessä mallinnetaan puhetyylejä latentteina satunnaismuuttujina, ja käytetään todennäköisyydellistä diffuusiomallia näiden puhetyylien tai satunnaismuuttujien ottoon, mikä mahdollistaa StyleTTS2-kehykselle realistisen puheen synteesin ilman viiteääni- syötteitä. Koska lähestymistapa, StyleTTS2-kehyksessä saavuttaa paremmat tulokset ja näyttää korkeaa tehokkuutta verrattuna nykyisiin valmiisiin teksti-puhe-kehyksiin, mutta se pystyy myös hyödyntämään monipuolista puheen synteesiä, jota diffuusiomallikehykset tarjoavat. Tarkastelemme StyleTTS2-kehyksestä tarkemmin ja käymme läpi sen arkkitehtuuri ja metodologia, sekä tarkastelemme tuloksia, joita kehyksessä on saavutettu. Aloita.

StyleTTS2 teksti-puhe-synteesiin: Johdanto

StyleTTS2 on innovatiivinen teksti-puhe-synteesimalli, joka edustaa seuraavaa askelta ihmisen luokan TTS-kehyksien rakentamisessa, ja se on rakennettu StyleTTS:lle, joka on tyyliperustuva teksti-puhe-generaattorimalli. StyleTTS2-kehyksessä mallinnetaan puhetyylejä latentteina satunnaismuuttujina, ja käytetään todennäköisyydellistä diffuusiomallia näiden puhetyylien tai satunnaismuuttujien ottoon, mikä mahdollistaa StyleTTS2-kehykselle realistisen puheen synteesin ilman viiteääni-syötteitä. Tyylien mallintaminen latentteina satunnaismuuttujina on se, mikä erottaa StyleTTS2-kehyksen sen edeltäjästä, StyleTTS-kehyksestä, ja pyrkii generoimaan sopivimman puhetyylin syötetekstin ilman viiteääni-syötettä, ja pystyy saavuttamaan tehokkaan latentin diffuusion hyödyntäen diffuusiomallien tarjoamaa monipuolista puheen synteesin mahdollisuuksia. Lisäksi StyleTTS2-kehyksessä käytetään esikoulutettua suurta SLM- eli puhekielimalleja diskriminaattoreina, kuten WavLM-kehyksestä, ja yhdistetään siihen uusi differentiaalinen kestomallinnuslähestymistapa kouluttaa kehyksestä päättyen, ja lopulta generoimaan puhetta, jossa on korostettu luonnollisuus. Kiitos lähestymistavasta, StyleTTS2-kehyksessä ylittää nykyiset valmiit kehykset puheen generoimisessa tehtävissä, ja se on yksi tehokkaimmista kehyksistä suurten puhekielimallejen esikoulutukseen nollasuorituksessa puhujan sovittamistehtävissä.

Jatkaa, ihmisen luokan teksti-puhe-synteesiin, StyleTTs2-kehyksessä otetaan oppia olemassa olevista töistä, mukaan lukien diffuusiomallit puheen synteesiin, ja suuret puhekielimallet. Diffuusiomallit ovat yleensä käytettyjä puheen synteesitehtävissä niiden kykyjen vuoksi hienorakeiseen puheen kontrollointiin ja monipuoliseen puheen näytteiden ottamiseen. Kuitenkin, diffuusiomallit eivät ole yhtä tehokkaita kuin GAN-pohjaiset ei-iteratiiviset kehykset, ja yksi syy tähän on vaatimus latentin edustusten, aaltojen ja mel-spektrograffien iteratiiviseen näytteiden ottamiseen kohdekeston puheajan mukaan.

Toisaalta, viimeaikaiset työt suurten puhekielimallejen ympärillä osoittavat niiden kykyä parantaa teksti-puhe-generoimisen laatu, ja sopeutua puhujaan. Suuret puhekielimallet muuttavat yleensä tekstisyötteen joko kvantitoiduksi tai jatkuvaan edustukseen, joka perustuu esikoulutettuihin puhekielikehyksiin puheen rekonstruktio tehtävissä. Kuitenkin, näiden puhekielimallejen ominaisuudet eivät ole optimoituja suoraan puheen synteesiin. Sen sijaan, StyleTTS2-kehyksessä hyödyntää suurten SLM-kehysten tietoa vastakkaisella koulutuksella syntetisoida puhekielimallejen ominaisuuksia ilman latentin avaruuden karttoja, ja siten, oppia puheen synteesioptimoitu latentin avaruuden suoraan.

StyleTTS2: Arkkitehtuuri ja Metodologia

StyleTTS2 on rakennettu sen edeltäjän, StyleTTS-kehyksen, perustalle, joka on ei-autoregressiivinen teksti-puhe-kehyksessä, joka käyttää tyyli-encoderia johdattaakseen tyyli-vektorin viiteääniestä, mikä mahdollistaa ilmaisevan ja luonnollisen puheen generoinnin. StyleTTS-kehyksessä käytettävä tyyli-vektori on sisällytetty suoraan encoderiin, kestoon ja ennustimiin käyttäen AdaIN:ia eli sopeutuvaa instanssinormaali, mikä mahdollistaa StyleTTS-mallin generoida puhe- tulokset, joissa on vaihteleva prosodia, kesto ja jopa emotionaalisuus. StyleTTS-kehyksessä on yhteensä 8 mallia, jotka on jaettu kolmeen kategoriaan

Akustiset mallit eli puheen generoimisjärjestelmä, jossa on tyyli-encoderi, teksti-encoderi ja puhe-dekooderi.
Teksti-puhe-ennustemisjärjestelmä, jossa käytetään prosodiaa ja kestoa ennustimia.
Apujärjestelmä, jossa on teksti- aligner, pitch- extractor ja diskriminaattori koulutuksen tarkoituksiin.

Kiitos lähestymistavasta, StyleTTS-kehyksessä saavuttaa valmiin suorituskyvyn kontrolloidusta ja monipuolisesta puheen synteesistä. Kuitenkin, tämä suorituskyky on heikentynyt, kuten näyte-laadun heikkeneminen, ilmaisevan rajoitukset ja riippuvuus puheen haittaavista sovelluksista reaaliajassa.

Parantaa StyleTTS-kehyksestä, StyleTTS2-malli johtaa parantuneeseen ilmaisevaan teksti-puhe-tehtäviin, parantuneeseen jakautumattoman suorituskykyyn ja korkeaan ihmisen luokan laatuun. StyleTTS2-kehyksessä käytetään päättyneen koulutuksen lähestymistapaa, joka optimoi eri komponentteja vastakkaisella koulutuksella ja suoran aaltojen synteesin yhdessä. Toisin kuin StyleTTS-kehyksessä, StyleTTS2-kehyksessä mallinnetaan puhetyyli latentteina satunnaismuuttujina, ja näytetään diffuusiomalleja, mikä generoi monipuolisia puhe-näytteitä ilman viiteääniä. Tarkastelemme näitä komponentteja tarkemmin.

Päättyneen Koulutuksen Interferenssi

StyleTTS2-kehyksessä käytetään päättyneen koulutuksen lähestymistapaa optimoida eri teksti-puhe-komponentteja interferenssille ilman kiinteiden komponenttien riippuvuutta. StyleTTS2-kehyksessä saavutetaan tämä muuttamalla dekooderia generoimaan aalto suoraan tyyli-vektorista, pitch- ja energia-kaavioista ja alignattuista edustuksista. Kehyksessä poistetaan dekooderin viimeinen projektiolayer ja korvataan se aalto-dekooderilla. StyleTTS2-kehyksessä käytetään kahta encoderia: HifiGAN-pohjaista dekooderia generoimaan aallon suoraan, ja iSTFT-pohjaista dekooderia tuottamaan vaihe- ja suuruusarvoja, jotka muunnetaan aalloiksi nopeamman interferenssin ja koulutuksen vuoksi.

Yllä oleva kuva edustaa akustisia malleja, jotka käytetään esikoulutukseen ja yhteiskoulutukseen. Vähentääksesi koulutuksen aikaa, moduulit optimoidaan ensin esikoulutusvaiheessa, ja sitten kaikkien komponenttien, lukuun ottamatta pitch-extractoria, optimointi tehdään yhteiskoulutuksessa. Syy, miksi yhteiskoulutus ei optimoi pitch-extractoria, on se, että se käytetään antamaan pitch-kaavion perustotuuksia.

Yllä oleva kuva edustaa puhekielimallejen vastakkaisen koulutuksen ja interferenssin WavLM-kehyksen kanssa, joka on esikoulutettu mutta ei esisäätelty. Prosessi poikkeaa edellisestä, koska se voi ottaa vaihtelevia syötteitä, mutta kertyy gradientit päivittääksesi parametreja kussakin erässä.

Tyyli-Diffuusio

StyleTTS2-kehyksessä pyrkii mallintamaan puhetta ehdollisena jakautumisena latentin muuttujan kautta, joka seuraa ehdollista jakautumista, ja tämä muuttuja on yleistetty puhetyyli, joka edustaa mitä tahansa ominaisuutta puhe-näytteessä fonetiikan sisällön ulottuvuuden ulkopuolella, mukaan lukien leksikaalinen stressi, prosodia, puhujanopeus ja jopa formaatti-siirtymät.

Puhekielimalle-Diskriminaattorit

Puhekielimallet ovat tunnettuja kyvystään koodata arvokkaita tietoja laajasta valikoimasta semantiikkaa ja akustiikkaa, ja SLM-edustukset ovat perinteisesti pystyneet jäljittelemään ihmisen havaintoja arvioidaakseen generoidun puheen laatu. StyleTTS2-kehyksessä käytetään vastakkaisen koulutuksen lähestymistapaa hyödyntääksesi SLM-encoderien kykyä suorittaa generatiivisia tehtäviä, ja käytetään 12-kerroksista WavLM-kehyksestä diskriminaattorina. Tämä lähestymistapa mahdollistaa kehykselle koulutuksen OOD- tai jakautumattomille teksteille, mikä voi parantaa suorituskykyä. Lisäksi, estääksesi ylioppimisen, kehyksessä näytetään OOD-tekstejä ja jakautumisen sisällä samaan todennäköisyyteen.

Differentiaalinen Kestomallinnus

Perinteisesti, kestopredictori käytetään teksti-puhe-kehyksissä, joka tuottaa fonetiikan kestot, mutta upsampling-menetelmät, joita nämä kestopredictorit käyttävät, usein estävät gradientin virtaamisen E2E-koulutusprosessissa, ja NaturalSpeech-kehyksessä käytetään huomion- perustuvaa upsampleria ihmisen luokan teksti-puhe-muunnokseen. Kuitenkin, StyleTTS2-kehyksessä tämä lähestymistapa on epävakaa vastakkaisen koulutuksen aikana, koska StyleTTS2 koulutetaan differentiaalisella upsamplingilla ilman extra-termin menetystä keston eroon johtuen poikkeamista. Vaikka pehmeän dynaamisen aikamuunnoksen käyttäminen voi auttaa vähentämään tämän poikkeaman, sen käyttäminen on kalliita, ja sen vakaus on huolenaihe, kun työskentelet vastakkaisilla objektiiveilla tai mel-rekonstruktio tehtävissä. Siksi, saavuttaakseen ihmisen luokan suorituskyvyn vastakkaisen koulutuksen kanssa ja stabiloidakseen koulutusprosessin, StyleTTS2-kehyksessä käytetään non-parametrinen upsampling-lähestymistapaa. Gaussian- upsampling on suosittu non-parametrinen upsampling-lähestymistapa kestojen muuntamiseksi, vaikka se on rajoitettu kiinteän Gaussian- kernelin pituuden vuoksi. Tämä rajoitus Gaussian- upsamplingissa rajoittaa sen kykyä mallintaa tarkasti eri pituisia alignauksia.

Kohtaamaan tämän rajoituksen, StyleTTS2-kehyksessä ehdotetaan uuden non-parametrinen upsampling-lähestymistapan käyttämistä ilman lisäkoulutusta, ja joka pystyy ottamaan huomioon eri pituisia alignauksia. Kunkin fonetiikan kohdalla, StyleTTS2-kehyksessä mallinnetaan alignaus satunnaismuuttujana, ja osoittaa ääni-kehyksen indeksin, johon fonetiikka alignaa.

Mallin Koulutus ja Arviointi

StyleTTS2-kehyksessä koulutetaan ja kokeillaan kolmella tietokannalla: VCTK, LibriTTS ja LJSpeech. Yksipuhujan komponentti StyleTTS2-kehyksestä koulutetaan LJSpeech-tietokannalla, joka sisältää noin 13 000 ääni-näytettä, jaetaan 12 500 koulutusnäytteisiin, 100 validointinäytteisiin ja noin 500 testinäytteisiin, ja yhdistetty aika on noin 24 tuntia. Monipuhujan komponentti kehyksestä koulutetaan VCTK-tietokannalla, joka sisältää yli 44 000 ääni-klippiä, yli 100 eri puhujaa eri aksenteilla, ja jaetaan 43 500 koulutusnäytteisiin, 100 validointinäytteisiin ja noin 500 testinäytteisiin. Lopulta, antaakseen kehykselle nollasuorituksen sovittamiskyky, kehyksessä koulutetaan yhdistetyllä LibriTTS-tietokannalla, joka sisältää ääni-klippejä, jotka ovat noin 250 tuntia, ja yli 1 150 puhujaa. Arvioidakseen suorituskyvyn, malli käyttää kahta mittaria: MOS-N eli keskimääräinen mielipide luonnollisuudesta, ja MOS-S eli keskimääräinen mielipide samankaltaisuudesta.

Tulokset

Lähestymistapa ja metodologia, joita StyleTTS2-kehyksessä käytetään, näkyy sen suorituskyvyssä, koska malli ylittää useita valmiita TTS-kehyksiä, erityisesti NaturalSpeech-tietokannalla, ja asettaa uuden standardin tietokannalle. Lisäksi, StyleTTS2-kehyksessä ylittää valmiin VITS-kehyksen VCTK-tietokannalla, ja tulokset on esitetty seuraavassa kuvassa.

StyleTTS2-malli ylittää myös aiemmat mallit LJSpeech-tietokannalla, ja se ei näytä laadun heikkenemistä OOD- tai jakautumattomilla teksteillä, kuten aiemmat kehykset samoilla mittareilla. Lisäksi, nollasuorituksessa, StyleTTS2-malli ylittää olemassa olevan Vall-E-kehyksen luonnollisuudessa, vaikka se jää jälkeen samankaltaisuuden suhteen. Kuitenkin, on huomattava, että StyleTTS2-kehyksessä saavutetaan kilpailukykyinen suorituskyky vain 245 tunnin ääni-näytteiden koulutuksella, verrattuna yli 60 000 tunnin koulutukseen Vall-E-kehyksessä, mikä osoittaa StyleTTS2:n olevan data-tehokas vaihtoehto olemassa oleville suurille esikoulutusmenetelmille.

Jatkaa, koska ei ole emotionaalisesti merkittyjä ääni-teksti-aineistoja, StyleTTS2-kehyksessä käytetään GPT-4-mallia generoimaan yli 500 esimerkkiä eri emotionaalisista tiloista tyyli-vektorin visualisointiin, jonka kehyksessä luodaan diffuusioprosessin kautta.

Ensimmäisessä kuvassa emotionaaliset tyylit syötetekstin mielipiteiden mukaan ovat esitetty tyyli-vektoreilla LJSpeech-mallista, ja se osoittaa StyleTTS2-kehyksen kyvyn generoida ilmaisevaa puhetta eri emotionaalisilla tiloilla. Toisessa kuvassa on eri puhujien eri ryhmät, jotka muodostavat laajan valikoiman monipuolisuutta yhdestä ääni-näytteestä. Viimeinen kuva osoittaa löyhän emotionaaliset ryhmät puhujasta 1, ja paljastaa, että vaikka on joitakin yhteisiä piirteitä, emotionaaliset ryhmät ovat merkittäviä, mikä osoittaa mahdollisuuden manipuloida puhujan emotionaalisia sävyjä riippumatta viiteääni-näytteestä ja sen syötetekstistä. Vaikka StyleTTS2-kehyksessä käytetään diffuusiopohjaista lähestymistapaa, se ylittää olemassa olevat valmiit kehykset, mukaan lukien VITS, ProDiff ja FastDiff.

Lopputulet

Tässä artikkelissa olemme puhuneet StyleTTS2:sta, uudesta ja innovatiivisesta teksti-puhe-kehyksestä, joka on rakennettu StyleTTS-kehyksen perustalle, ja joka pyrkii esittämään seuraavan askeleen kohti valmiita teksti-puhe-järjestelmiä. StyleTTS2-kehyksessä mallinnetaan puhetyylejä latentteina satunnaismuuttujina, ja käytetään todennäköisyydellistä diffuusiomallia näiden puhetyylien tai satunnaismuuttujien ottoon, mikä mahdollistaa StyleTTS2-kehykselle realistisen puheen synteesin ilman viiteääni-syötteitä. StyleTTS2-kehyksessä käytetään tyyli-diffuusiota ja SLM-diskriminaattoreita saavuttaakseen ihmisen luokan suorituskyvyn teksti-puhe-tehtävissä, ja se ylittää olemassa olevat valmiit kehykset laajalla valikoimalla puheen liittyvissä tehtävissä.