Umetna inteligenca

HierSpeech++ : Hierarhično variacijsko sklepanje za sintezo govora brez strela

Posodobljeno on December 19, 2023

HierSpeech++ : Hierarhično variacijsko sklepanje za sintezo govora brez strela

Nedavni razvoj in napredek v zmogljivostih velikih jezikovnih modelov sta igrala ključno vlogo pri napredku ogrodij, ki temeljijo na LLM, za naloge generiranja zvoka in sinteze govora, zlasti v nastavitvah zero-shot. Tradicionalna ogrodja za sintezo govora so bila priča pomembnemu napredku zaradi integracije dodatnih funkcij, kot so nevronski zvočni kodeki za diskretne zvočne in govorne enote. Čeprav ti okviri za sintezo govora in zvoka zagotavljajo zadovoljive rezultate, je še vedno prostor za izboljšave, saj imajo trenutni zvočni okviri, ki temeljijo na LLM, naslednje tri glavne omejitve

Ponavadi samodejno ustvarijo zvočni izhod, ki na koncu povzroči pomanjkanje robustnosti in nizke hitrosti motenj ter povzroči napačno izgovorjavo, preskoke ali ponavljanje.
Ponavadi se preveč zanašajo na diskretne govorne enote ali vnaprej usposobljen nevronski zvočni kodek.
Pogosto zahtevajo veliko količino podatkov o usposabljanju.

Za reševanje zgoraj omenjenih težav in izboljšanje zmogljivosti modelov sinteze zvoka in govora, ki temeljijo na LLM, so razvijalci pripravili HierSpeech++, robusten in učinkovit zero-shot sintetizator govora za pretvorbo glasu in besedila v govor ali TTS. Ogrodje HierSpeech++ temelji na učenju ogrodij za hierarhično sintezo govora, ki ne le povečuje robustnost, ampak tudi dodaja izraznost sintetičnega govornega izhoda, hkrati pa povečuje naravnost in podobnost govorca umetno ustvarjenega govora tudi v nastavitvi ničelnega posnetka.

V tem članku bomo podrobno govorili o ogrodju HierSpeech++ in si ogledali arhitekturo, delovanje in rezultate modela v primerjavi z najsodobnejšimi modeli za ustvarjanje besedila in zvoka. Pa začnimo.

HierSpeech++ : Hierarhično variacijsko sklepanje za sintezo govora brez strela

HierSpeech++ je hitro, robustno in učinkovito ogrodje za sintezo govora z ničelnim strelom, ki uporablja hierarhični cevovod za sintezo govora, in s sprejetjem tega ogrodja za sintezo govora od konca do konca lahko model HierSpeech++ poveča potencial visokokakovostnega generiranja valov. hierarhično premosti vrzel med pomenskimi in akustičnimi reprezentacijami s prevzemom samonadzorovane govorne reprezentacije kot semantične govorne reprezentacije in tako poskuša rešiti trenutne omejitve slogovnih prilagoditev. Ogrodje za sintezo govora od konca do konca je bilo prvič uvedeno z modelom VITS in sprejema VAE ali variacijski samodejni kodirnik, nadgrajen z kontradiktornim usposabljanjem in normalizacijo toka. Poleg tega imajo ogrodja, ki temeljijo na VAE, z cevovodom za usposabljanje od konca do konca zmožnost generiranja visokokakovostnega zvoka valovne oblike, pri čemer je kakovost zaznavne sinteze govora bistveno boljša od tistih, ki jih ustvarijo druga ogrodja za sintezo govora.

Kakovost rekonstrukcije zvoka teh ogrodij je mogoče dodatno izboljšati z uporabo hierarhičnega pogojnega variacijskega samodejnega kodirnika, kot se uporablja v ogrodju HierSpeech. Kljub svojemu potencialu imajo modeli, ki temeljijo na cevovodih za usposabljanje od konca do konca, določene omejitve, zlasti pri nastavitvi zero-shot, saj čeprav lahko sintetizirajo vzorce govora z visokokakovostnim zvokom, je podobnost zvočnikov pri nalogah zero-shot glasovnega kloniranja še vedno prepredena z visoko računska kompleksnost. Po drugi strani, modeli sinteze govora na osnovi difuzije dobro delujejo v smislu prilagajanja zvočnikov, vendar so še daleč od popolnosti, saj uporabljajo interaktivni proces generiranja, ki upočasnjuje njihovo hitrost sklepanja, pogosto so občutljivi na šumne podatke in kot posledica neusklajenosti med usposabljanjem in sklepanjem dvostopenjski proces generiranja med spektrogramom Mel in generirano zemeljsko resnico kakovost zvoka ni na najboljši ravni.

Za reševanje težav, s katerimi so se soočali njegovi predhodniki, model HierSpeech++ uporablja hierarhični sintetizator govora, govorno super-ločljivost in komponento besedila v vec ter uvaja izboljšan hierarhični sintetizator govora, zgrajen na hierarhičnem pogojnem VAE ali variacijskem samodejnem kodirniku. V poskusu izboljšanja kakovosti zvoka, ki presega zaznavno kakovost, ogrodje HierSpeech++ sprejme dvojni zvok za povečanje akustičnega posteriorja in izboljša generalizacijo distribucije z uporabo hierarhičnega prilagodljivega generatorja, opremljenega s pogojno in brezpogojno generacijo. Poleg tega za ločitev govornih komponent in izboljšanje semantičnih informacij, povezanih z govorcem in govorcem, ogrodje HierSpeech++ sprejme tudi večpotni semantični kodirnik, ki temelji na teoriji izvornega filtra. Kot rezultat uporabe variacijskega samodejnega kodirnika se lahko model HierSpeech++ hierarhično poveže in nauči predstavitve ter se postopoma prilagaja ciljnemu glasovnemu slogu, da sklepa o zvoku valovne oblike. Poleg tega ogrodje HierSpeech++ uporablja tudi dvosmerno omrežje normalizirajočih transformatorjev toka v poskusu izboljšanja prilagajanja in zmanjšanja neskladja med usposabljanjem in sklepanjem.

Na splošno je model HierSpeech++ popolnoma vzporedno, novo in robustno ogrodje za hierarhično sintezo govora, katerega cilj je sintetizirati vzorce govora v nastavitvi ničelnega strela in poskuša prispevati naslednje

Uporaba hierarhičnega okvira za sintezo govora za nadzor in prenos glasovnih slogov in prozodije.
Omogočite razširljivost podatkov in sintezo govora z visoko ločljivostjo z nadvzorčenjem zvoka valovne oblike s 16 na 48 kHz.
Dosezite zmogljivost na človeški ravni pri opravilih zero-shot glasovne pretvorbe in besedila v govor.

HierSpeech++ : Komponente in arhitektura modela

Kot smo že omenili, je HierSpeech++ model sinteze govora z ničelnim strelom, ki poskuša doseči natančnost na človeški ravni v smislu glasovne podobnosti in naravnosti govora.

Model HierSpeech++ je sestavljen iz različnih komponent, vključno s hierarhičnim sintetizatorjem govora, visoko ločljivostjo govora in pretvorbo besedila v vec v TTV, ki delujejo med seboj sinhronizirano, da olajšajo usposabljanje vsakega modela, ki lahko učinkovito uporablja veliko količino nizkih ločljivost govornih podatkov za glasovno kloniranje. Razčlenimo okvir in se pogovorimo o vsaki komponenti.

Govorne predstavitve

Ker je človeški frekvenčni pas pod 4 kHz, za sintezo govora ogrodje HierSpeech++ zniža zvok pri 16 kHz. Poleg tega je za rekonstrukcijo glasovnega signala bistvenega pomena, da poleg zmanjšanja vzorčenja zvočnega vzorca uporabite vsaj dvojno najvišjo komponento glasovne frekvence. Za dosego izboljšane zaznavne kakovosti ogrodje HierSpeech++ uporablja govorno super ločljivost ali komponento SpeechSR za nadvzorčenje zvočnega vzorca s 16 na 48 kHz ter uporablja predstavitve nizke ločljivosti za semantične in akustične predstavitve.

Za akustične predstavitve tradicionalni okvir besedila v govor ali TTS uporablja Mel-spektrogram kot svojo vmesno akustično značilnost, ki se nato preoblikuje iz valovne oblike s pomočjo STFT ali kratkotrajne Fourierove transformacije. Vendar je treba omeniti, da ker so akustične značilnosti bogate predstavitve, ki vključujejo različne atribute, vključno z vsebino in izgovorjavo, glasovnimi informacijami in še več, zaradi česar okvir težko sklepa na te predstavitve, situacija, ki pogosto vodi do napačne izgovorjave, pomanjkanja podobnosti, ali pretirano glajenje govora.

Če nadaljujemo, za pridobivanje neprekinjene semantične predstavitve iz valovne oblike, ogrodje HierSpeech++ uporablja ogrodje Wav2Vec v nasprotju s priljubljenim samonadzorovanim pristopom govorne predstavitve za semantične predstavitve. Čeprav je pristop dobra alternativa za bogat enojezični model, vpliva na zmožnosti brezhibnega glasovnega kloniranja modela v smislu robustnosti in izraznosti, zlasti pri nalogah večjezične sinteze govora.

Hierarhični sintetizator govora

Komponenta Hierarchical Speech Synthesizer je temeljni kamen za okvir HierSpeech++, saj omogoča usposabljanje modula brez uporabe kakršnih koli oznak, kot so prepisi besedila ali ID govorca, in se zanaša izključno na govorne podatke. Za povečanje akustične zmogljivosti so prejšnji najsodobnejši modeli sinteze govora zamenjali Mel-spektrogram z linearnim spektrogramom, vendar pa pristop minimizira rezultat divergence KL v smislu periodičnosti višine, PESQ, glasovnega in brezglasnega rezultata in celo Mel- razdalja spektrograma. Hierarchical Speech Synthesizer uporablja dvojni zvočni akustični kodirnik za reševanje izzivov, ki jih predstavlja uporaba linearnega spektrograma, zasnovanega za zajemanje bogatejših in celovitejših akustičnih predstavitev. Ogrodje uporablja tudi kodirnik valovne oblike za destilacijo informacij iz zvoka neobdelane valovne oblike in jih združi s predstavitvijo linearnega spektrograma ter na koncu projicira akustično predstavitev kot povezano predstavitev.

Poleg tega ogrodje HierSpeech++ za obravnavanje semantičnih predstavitev, ki so neodvisne od govorca, in povezanih z govorcem, uporablja večpotno samonadzorovano predstavitev govora, kjer se vsaka posamezna predstavitev uporablja za prilagoditev hierarhičnega sloga s semantičnimi predstavitev, ekstrahiranimi za pridobitev jezikovnih informacij iz srednji sloj MMS. Ogrodje uporablja tudi osnovno frekvenco za izboljšanje ločevanja govora, ki omogoča ročno krmiljenje konture višine. Ogrodje uporablja tudi jezikovno predstavitev kot pogojno informacijo za hierarhično generiranje zvoka valovne oblike in uporablja izboljšano jezikovno predstavitev samonadzorovane predstavitve. Prav tako je treba omeniti, da se akustične predstavitve, ekstrahirane med usposabljanjem z uporabo valovne oblike in linearnega spektrograma, uporabljajo za rekonstrukcijo zvoka neobdelane valovne oblike, hierarhično variacijsko sklepanje pa se uporablja za povezavo akustičnih predstavitev z večpotnimi jezikovnimi predstavitvami. Ogrodje zaposluje tudi a hierarhični prilagodljivi generator(HAG) za generiranje vzorcev semantike v valovno obliko, ustvarjene predstavitve, ki obsegajo slogovno predstavitev in akustično predstavitev, se napajajo k izvoru in generatorjem valovnih oblik.

Besedilo Vec

Za sintezo besedila v govor ogrodje HierSpeech++ uporablja model besedila v vec ali TTV, ki ustvari osnovno frekvenco in semantično predstavitev iz zaporedja besedila ter uporablja iskanje monotone poravnave skupaj z variacijskim samodejnim kodirnikom za notranjo uskladitev govora in besedila. Ogrodje HierSpeech++ nato nadomesti linearni spektrogram s samonadzorovano linearno predstavitvijo in rekonstruira isto predstavitev, da služi kot izhod za TTV.

Poleg tega ogrodje HierSpeech++ predvideva osnovno frekvenco s štirikrat večjo ločljivostjo v primerjavi s samonadzorovanimi govornimi predstavitvami in uporablja pogojno besedilno predstavitev kot predhodne informacije. Zaradi semantičnih informacij samonadzorovanih govornih predstavitev je ogrodje sposobno prenesti slog prozodije v besedilu v model vec in posreduje latentno predstavitev kodirniku fonema, da izboljša jezikovne zmožnosti predstavitve.

SpeechSR ali Speech Super Resolution

Ogrodje HierSpeech++ se usposablja na naboru podatkov z relativno nizko ločljivostjo v smislu podatkovne učinkovitosti in razpoložljivosti ter vzorči valovno obliko govora nizke ločljivosti v valovno obliko govora visoke ločljivosti od 16 do 48 kHz. Ogrodje prav tako nadomesti transponirano konvolucijo z najbližjim sosednjim vzorčevalnikom, za katerega je bilo prej znano, da blaži artefakte zaradi transponiranih konvolucij.

Arhitektura

Kodirnik vsebine modela besedilo v vec je sestavljen iz 16 nepriložnostnih plasti WaveNet z velikostjo jedra 5 in skrite velikosti 256, medtem ko je dekodirnik vsebine sestavljen iz 8 neobičajnih plasti WaveNet z velikostjo jedra 5 in skrita velikost 512. Komponenta kodirnika besedila je sestavljena iz treh prozodijskih pogojnih omrežij transformatorjev in treh brezpogojnih omrežij transformatorjev z velikostjo jedra 9, velikostjo filtra 1024 in skrito velikostjo 256, pri čemer ima kodirnik besedila stopnjo osipa 0.2. Za kodiranje sosednjih informacij in izboljšanje prilagoditve sloga prozodije ogrodje sprejme CNN z velikostjo jedra 5 v transformatorskih blokih. SpeechSR na drugi strani obsega en sam blok AMP z 32 začetnimi kanali brez prisotnosti sloja za dvig vzorčenja. Ogrodje uporablja vzorčevalnik najbližjega soseda za vzorčenje skritih predstavitev in uporablja MPD kot diskriminator s šestimi različnimi velikostmi oken in štirimi podpasovnimi diskriminatorji.

Zgornja slika prikazuje sklepni cevovod ogrodja HierSpeech++, ki se začne z ekstrakcijo semantičnih predstavitev iz zvoka pri frekvenci 16 kHz in pri osnovni frekvenci z uporabo algoritma YAPPT. Preden se osnovna frekvenca lahko poda v hierarhični sintetizator, se normalizira z uporabo standardnih in srednjih odstopanj izvornega zvoka, normalizirana osnovna frekvenca pa se nato denormalizira z uporabo standardne in srednje deviacije ciljnega zvoka. Za ekstrakcije besedila v govor ogrodje HierSpeech++ izvleče besedilne predstavitve namesto govornih predstavitev in uporabi model besedila v vec za generiranje semantične predstavitve iz poziva za prozodijo.

Poskus in rezultati

Ogrodje uporablja javno dostopen nabor podatkov LibriTTS za usposabljanje komponente hierarhičnega sintetizatorja, pri čemer je prvi korak usposabljanje modela z trainclean podnabori nabora podatkov in uporaba preostalih podatkov za omogočanje izboljšanega prenosa glasovnega sloga. Poleg tega za izboljšanje raznolikosti in robustnosti ogrodje poveča nabor podatkov na 1 kHz, kot je prikazano na naslednji sliki.

Naloge rekonstrukcije, resinteze in glasovne pretvorbe

Za ovrednotenje uspešnosti ogrodja HierSpeech++ pri nalogah rekonstrukcije in ponovne sintetizacije so razvijalci izvedli sedem objektivnih metrik, rezultati pa so prikazani na naslednjih slikah za naloge ponovne in ponovne sintetizacije.

Za naloge glasovne pretvorbe ogrodje za vrednotenje uporablja dve subjektivni metriki: glasovno podobnost MOS ali sMOS in povprečno oceno naravnosti nMOS s tremi objektivnimi metrikami naravnosti in dvema objektivnima metrikama podobnosti.

Če gremo dalje, je glavni cilj ogrodja HierSpeech++ omogočiti zero-shot sintezo govora, za oceno njegove učinkovitosti v zero-shot pa ga primerjamo z drugimi osnovnimi modeli, kot so AutoVC, VoiceMixer, Modeli na osnovi difuzijein še veliko več z rezultati, prikazanimi na naslednji sliki.

Naslednje slike prikazujejo zero-shot besedilo v govor rezultati s hrupnimi pozivi oziroma zelo hrupnimi pozivi.

Končna thoughts

V tem članku smo govorili o modelu HierSpeech++, novem pristopu za omogočanje robustne in učinkovite sinteze govora v nastavitvi zero-shot in premagovanje omejitev, s katerimi se soočajo trenutni okviri za sintezo govora, vključno z njihovim prevelikim zanašanjem na velike količine usposabljanja podatkov, zanašanje na diskretne govorne enote ali vnaprej usposobljen nevronski zvočni kodek in njihovo težnjo po samodejnem ustvarjanju zvočnega izhoda, ki na koncu povzroči pomanjkanje robustnosti in počasne hitrosti motenj ter povzroči napačno izgovorjavo, preskakovanje ali ponavljanje. Model HierSpeech++ je popolnoma vzporedno, novo in robustno ogrodje za hierarhično sintezo govora, katerega namen je sintetizirati vzorce govora v nastavitvi ničelnega strela in poskuša prispevati naslednje

Uporaba hierarhičnega okvira za sintezo govora za nadzor in prenos glasovnih slogov in prozodije.
Omogočite razširljivost podatkov in sintezo govora z visoko ločljivostjo z nadvzorčenjem zvoka valovne oblike s 16 na 48 kHz.
Dosezite zmogljivost na človeški ravni pri opravilih zero-shot glasovne pretvorbe in besedila v govor.

Sorodne teme:HierSpeech govorne sinteze ničelni strel

Up Next

Revolucioniranje telesnih spretnosti: robot z umetno inteligenco presega človeške sposobnosti v igri Labyrinth Marble Game

Ne zamudite

Mamba: Redefiniranje zaporednega modeliranja in preoblikovanje transformatorske arhitekture

Kunal Kejriwal

"Po poklicu inženir, po srcu pisatelj". Kunal je tehnični pisec z globoko ljubeznijo in razumevanjem umetne inteligence in strojnega upravljanja, ki je predan poenostavljanju zapletenih konceptov na teh področjih s svojo privlačno in informativno dokumentacijo.

Unite.AI

HierSpeech++ : Hierarhično variacijsko sklepanje za sintezo govora brez strela

Umetna inteligenca

HierSpeech++ : Hierarhično variacijsko sklepanje za sintezo govora brez strela

Kazalo vsebine

HierSpeech++ : Hierarhično variacijsko sklepanje za sintezo govora brez strela