Connect with us

Inteligență artificială

HierSpeech++ : Inferență Variatională Ierarhică pentru Sinteză de Vorbire Zero-Shot

mm

Dezvoltările recente și progresele în capacitățile modelelor de limbaj mare au jucat un rol crucial în avansurile cadrelor bazate pe LLM pentru generarea de audio și sinteză de vorbire, în special în setarea zero-shot. Cadrele tradiționale de sinteză de vorbire au fost martorii unor avansuri semnificative ca urmare a integrării unor caracteristici suplimentare, cum ar fi codec-urile audio neurale pentru sunete și unități de vorbire discrete. Chiar dacă aceste cadre de sinteză de vorbire și audio livrează rezultate satisfăcătoare, există încă loc pentru îmbunătățire, deoarece cadrele actuale bazate pe LLM au următoarele trei limitări majore

  1. Tind să auto-genereze ieșiri audio care, în final, cauzează o lipsă de robustețe și viteze de interferență lente și rezultă în pronunții greșite, sărituri sau repetiții.
  2. Tind să se bazeze prea mult pe unități de vorbire discrete sau pe codec-uri audio neurale pre-antrenate.
  3. De obicei, necesită o cantitate mare de date de antrenare.

Pentru a aborda problemele menționate mai sus și a îmbunătăți capacitățile modelelor de sinteză de vorbire și audio bazate pe LLM, dezvoltatorii au creat HierSpeech++, un sintetizator de vorbire zero-shot robust și eficient pentru conversii de voce și text în vorbire sau TTS. Cadruul HierSpeech++ se bazează pe învățămintele cadrelor de sinteză de vorbire ierarhică care nu numai că îmbunătățește robustețea, dar adaugă și expresivitatea ieșirii de vorbire sintetică, îmbunătățind, de asemenea, naturalitatea și asemănarea vorbirii artificiale, chiar și într-un mediu zero-shot.

În acest articol, vom discuta despre cadruul HierSpeech++ în detaliu și vom examina arhitectura modelului, funcționarea și rezultatele în comparație cu modelele actuale de generare de text și audio. Așadar, să începem.

HierSpeech++ : Inferență Variatională Ierarhică pentru Sinteză de Vorbire Zero-Shot

HierSpeech++ este un cadru de sinteză de vorbire zero-shot rapid, robust și eficient care utilizează o conductă de sinteză de vorbire ierarhică, iar prin adoptarea acestui cadru de sinteză de vorbire de la capăt la capăt, modelul HierSpeech++ poate maximiza potențialul generării de valuri de înaltă calitate pentru a podi distanța dintre reprezentările semantice și acustice prin adoptarea unei reprezentări de vorbire auto-supervizate ca reprezentare semantică de vorbire și, astfel, încearcă să rezolve limitările actuale ale adaptărilor de stil. Cadruul de sinteză de vorbire de la capăt la capăt a fost introdus pentru prima dată de modelul VITS, și el adoptă un VAE sau un Auto-Encoder Variational augmentat cu antrenare adversă și flux normalizator. Mai mult, cadrele bazate pe VAE cu o conductă de antrenare de la capăt la capăt au capacitatea de a genera valuri audio de înaltă calitate, calitatea percepției sintezei de vorbire fiind semnificativ mai bună decât cea generată de alte cadre de sinteză de vorbire.

Calitatea reconstruirii audio a acestor cadre poate fi îmbunătățită și mai mult prin utilizarea unui Auto-Encoder Variational condițional ierarhic, așa cum se utilizează în cadruul HierSpeech. În ciuda potențialului lor, modelele cu conducte de antrenare de la capăt la capăt au anumite limitări, în special într-un mediu zero-shot, deoarece, chiar dacă pot sintetiza mostre de vorbire cu audio de înaltă calitate, asemănarea vorbirii în sarcinile de clonare a vocii zero-shot este încă plină de complexitate computațională ridicată. Pe de altă parte, modelele de sinteză de vorbire bazate pe difuzie se descurcă bine în ceea ce privește adaptările de vorbire, dar ele sunt încă departe de a fi perfecte, deoarece ele utilizează un proces de generare interactiv care încetinește viteza de inferență, sunt adesea vulnerabile la date zgomotoase și, ca urmare a neconcordanței dintre antrenarea și inferența procesului de generare în două etape între mel-spectrogramă și audio generat, calitatea audio nu este pe măsură.

Pentru a aborda problemele cu care se confruntă predecesorii săi, modelul HierSpeech++ utilizează un sintetizator de vorbire ierarhic, o super-rezoluție de vorbire și o componentă text-to-vec pentru a TTV și introduce un sintetizator de vorbire ierarhic îmbunătățit, construit pe baza Auto-Encoder-ului Variational condițional. În încercarea de a îmbunătăți calitatea audio dincolo de calitatea percepției, cadruul HierSpeech++ adoptă un dual-audio pentru a îmbunătăți posteriorul acustic și îmbunătățește generalizarea din afara distribuției prin utilizarea unui generator adaptiv ierarhic echipat atât cu generare condițională, cât și cu generare necondițională. Mai mult, pentru a disocia componentele de vorbire și a îmbunătăți informațiile semantice legate de vorbire și independente de vorbire, cadruul HierSpeech++ adoptă, de asemenea, un codator semantic multi-canal bazat pe teoria sursă-filtru. Ca urmare a utilizării unui Auto-Encoder Variational, modelul HierSpeech++ poate conecta și învăța reprezentări ierarhic și se adaptează progresiv la stilul de voce țintă pentru a infera audio-ul valului. În plus, cadruul HierSpeech++ utilizează, de asemenea, o rețea bidirecțională de transformatori de flux normalizator pentru a îmbunătăți adaptarea și reduce neconcordanța dintre antrenare și inferență.

În general, modelul HierSpeech++ este un cadru de sinteză de vorbire ierarhic, complet paralel, nou și robust, destinat sintezei de mostre de vorbire într-un mediu zero-shot și încearcă să facă următoarele contribuții

  • Utilizarea unui cadru de sinteză de vorbire ierarhică pentru a controla și transfera stiluri de voce și prozodie.
  • Permiterea escalabilității datelor și a sintezei de vorbire de înaltă rezoluție prin upsampling-ul valului audio de la 16 la 48 kHz.
  • Atingerea capacității umane în ceea ce privește conversia de voce zero-shot și sarcinile de text-la-vorbire.

HierSpeech++ : Componente de Model și Arhitectură

Așa cum s-a discutat, HierSpeech++ este un model de sinteză de vorbire zero-shot care încearcă să atingă acuratețea umană în ceea ce privește asemănarea vocii și naturalitatea vorbirii.

Modelul HierSpeech++ constă din componente diferite, inclusiv un sintetizator de vorbire ierarhic, o super-rezoluție de vorbire și text-to-vec pentru a TTV, care lucrează în sincron pentru a facilita antrenarea fiecărui model care poate utiliza eficient o cantitate mare de date de vorbire de joasă rezoluție pentru clonarea vocii. Să descompunem cadruul și să discutăm despre fiecare component.

Reprezentări de Vorbire

Deoarece benzile de frecvență umană sunt sub 4 kHz, pentru sinteza de vorbire, cadruul HierSpeech++ downsamplează audio-ul la 16 kHz. Mai mult, pentru a reconstrui semnalul de voce, este vital să se utilizeze cel puțin dublul componentei de frecvență a vocii, împreună cu downsamplearea mostrelor audio. Pentru a obține o calitate percepțională îmbunătățită, cadruul HierSpeech++ utilizează o super-rezoluție de vorbire sau un component SpeechSR pentru a upsampla mostrea audio de la 16 la 48 kHz și utilizează reprezentări de joasă rezoluție pentru reprezentări semantice și acustice.

Pentru reprezentări acustice, un cadru tradițional de text-la-vorbire utilizează o mel-spectrogramă ca fiind trăsătura sa intermediară acustică, care este apoi transformată din valul cu ajutorul unei transformări Fourier pe termen scurt. Cu toate acestea, este demn de remarcat faptul că, deoarece trăsăturile acustice sunt reprezentări bogate care cuprind diverse atribute, inclusiv conținut și pronunție, informații despre voce și multe altele, ceea ce face dificilă pentru cadru să inferă aceste reprezentări, o situație care adesea duce la pronunții greșite, lipsă de asemănare sau netezire excesivă a vorbirii.

Continuând, pentru a extrage o reprezentare semantică continuă dintr-un val, cadruul HierSpeech++ utilizează un cadru Wav2Vec, în contrast cu abordarea populară de reprezentare de vorbire auto-supervizată pentru reprezentări semantice. Deși abordarea face o bună alternativă pentru un model monolingv bogat, ea afectează capacitățile de clonare a vocii zero-shot ale modelului în ceea ce privește atât robustețea, cât și expresivitatea, în special în sarcinile de sinteză de vorbire multilingvă.

Sintetizator de Vorbire Ierarhic

Componentul Sintetizator de Vorbire Ierarhic este piatra de temelie pentru cadruul HierSpeech++, deoarece permite antrenarea modulelor fără a utiliza etichete precum transcrieri de text sau ID de vorbitor, și se bazează exclusiv pe date de vorbire. Pentru a crește capacitatea acustică, modelele de sinteză de vorbire de ultimă oră au înlocuit mel-spectrograma cu o spectrogramă liniară, cu toate acestea, abordarea minimizează scorul de divergență KL în ceea ce privește periodicitatea tonului, PESQ, scorul de voce și nevorbire și chiar distanța mel-spectrogramă. Sintetizatorul de Vorbire Ierarhic utilizează un codator acustic dual-audio pentru a rezolva provocările prezentate de utilizarea unei spectrograme liniare, proiectate pentru a captura reprezentări acustice mai bogate și mai cuprinzătoare. Cadruul utilizează, de asemenea, un codator de val pentru a distila informații dintr-un val audio brut și le concatenează cu reprezentarea spectrogramă liniară și, în final, proiectează reprezentarea acustică ca o reprezentare concatenată.

Mai mult, pentru a face față reprezentărilor semantice independente de vorbire și legate de vorbire, cadruul HierSpeech++ utilizează o reprezentare de vorbire auto-supervizată multi-canal, unde fiecare reprezentare individuală este utilizată pentru adaptarea stilului ierarhic cu reprezentările semantice extrase pentru a obține informații lingvistice din stratul mijlociu al MMS. Cadruul utilizează, de asemenea, o frecvență fundamentală pentru a îmbunătăți disocierea vorbirii, ceea ce permite controlul manual al conturului de pitch. Cadruul utilizează, de asemenea, o reprezentare lingvistică ca informație condițională pentru a genera valuri audio ierarhic și utilizează o reprezentare lingvistică îmbunătățită a reprezentării auto-supervizate. Este, de asemenea, demn de remarcat faptul că reprezentările acustice extrase în timpul antrenării prin utilizarea unui val și a unei spectrograme liniare sunt utilizate pentru a reconstrui valul audio brut, iar o inferență variatională ierarhică este utilizată pentru a lega reprezentările acustice de reprezentările lingvistice multi-canal. Cadruul utilizează, de asemenea, un generator adaptiv ierarhic (HAG) pentru a genera mostre semantic-la-val, iar reprezentările generate, care cuprind o reprezentare de stil și o reprezentare acustică, sunt alimentate cu generatorul de surse și generatorul de valuri.

Text la Vec

Pentru sinteza de vorbire de la text, cadruul HierSpeech++ utilizează un model text-la-vec sau TTV care generează o frecvență fundamentală și o reprezentare semantică dintr-o secvență de text și utilizează o căutare de aliniere monotonă cuplată cu un Auto-Encoder Variational pentru a alinia vorbirea și textul intern. Cadruul HierSpeech++ înlocuiește apoi spectrograma liniară cu o reprezentare liniară auto-supervizată și reconstruieste această reprezentare pentru a servi ca ieșire pentru TTV.

În plus, cadruul HierSpeech++ prezice frecvența fundamentală cu rezoluții de patru ori mai mari în comparație cu reprezentările de vorbire auto-supervizate și utilizează o reprezentare condițională de text ca informație prioritară. Ca urmare a informațiilor semantice ale reprezentărilor de vorbire auto-supervizate, cadruul este capabil să transfere stilul de prozodie din modelul text-la-vec și alimentează o reprezentare latentă cu codatorul de foneme pentru a îmbunătăți capacitățile lingvistice ale reprezentării.

SpeechSR sau Super-Rezoluție de Vorbire

Cadruul HierSpeech++ se antrenează pe un set de date relativ de joasă rezoluție în ceea ce privește eficiența și disponibilitatea datelor și upsamplează un val de vorbire de joasă rezoluție într-un val de vorbire de înaltă rezoluție de la 16 la 48 kHz. Cadruul înlocuiește, de asemenea, o transpunere de convoluție cu un upsampler de cel mai apropiat vecin, care a fost anterior cunoscut pentru a ameliora artefactele ca urmare a transpuneri convoluției.

Arhitectură

Codatorul de conținut al modelului text-la-vec constă din 16 straturi WaveNet ne-cazuale cu o dimensiune a kernel-ului de 5 și o dimensiune ascunsă de 256, în timp ce decodatorul de conținut constă din 8 straturi WaveNet ne-cazuale cu o dimensiune a kernel-ului de 5 și o dimensiune ascunsă de 512. Componenta codator de text constă din trei rețele neuronale conditionale de prozodie și trei rețele neuronale neconditionale cu o dimensiune a kernel-ului de 9, o dimensiune a filtrului de 1024 și o dimensiune ascunsă de 256, cu un raport de abandon de 0,2. Pentru a codifica informații adiacente și pentru a îmbunătăți adaptarea stilului de prozodie, cadruul adoptă o rețea CNN cu o dimensiune a kernel-ului de 5 în blocurile de transformare. SpeechSR, pe de altă parte, constă dintr-un singur bloc AMP cu 32 de canale inițiale fără prezența unui strat de upsampling. Cadruul utilizează un upsampler de cel mai apropiat vecin pentru a upsampla reprezentările ascunse și utilizează un MPD ca discriminator cu șase dimensiuni de fereastră diferite și patru discriminatoare de sub-benzile.

Figura de mai sus demonstrează conducta de inferență a cadruului HierSpeech++, care începe cu extragerea reprezentărilor semantice din audio la o frecvență de 16 kHz și la frecvența fundamentală prin utilizarea algoritmului YAPPT. Înainte de a fi alimentată cu Sintetizatorul Ierarhic, frecvența fundamentală este normalizată utilizând deviația standard și media sursă audio, iar frecvența fundamentală normalizată este apoi denormalizată utilizând deviația standard și media țintă audio. Pentru extragerea text-la-vorbire, cadruul HierSpeech++ extrage reprezentări textuale în loc de reprezentări de vorbire și utilizează modelul text-la-vec pentru a genera o reprezentare semantică din promptul de prozodie.

Experiment și Rezultate

Cadruul utilizează setul de date public disponibil LibriTTS pentru a antrena componenta Sintetizator de Vorbire Ierarhic, prima etapă fiind antrenarea modelului cu subseturile de antrenare curate ale setului de date și utilizarea restului de date pentru a permite o transferare îmbunătățită a stilului de voce. În plus, pentru a îmbunătăți diversitatea și robustețea, cadruul upscalează setul de date la 1 kHz, așa cum se demonstrează în figura următoare.

Reconstrucție, Re-sinteză și Conversie de Voce

Pentru a evalua performanța cadruului HierSpeech++ în ceea ce privește reconstrucția și re-sinteza, dezvoltatorii au efectuat șapte metrice obiective, iar rezultatele sunt demonstrate în figurile următoare pentru reconstrucția și re-sinteza sarcinilor.

Pentru sarcinile de conversie de voce, cadruul utilizează două metrice subiective de evaluare: asemănarea vocii MOS sau sMOS și scorul de opinie al naturalității de nMOS, cu trei metrice obiective de naturalitate și două metrice obiective de asemănare.

Continuând, obiectivul principal al cadruului HierSpeech++ este de a permite sinteza de vorbire zero-shot și de a evalua performanța în zero-shot, fiind comparat cu alte modele de bază, cum ar fi AutoVC, VoiceMixer, modele bazate pe difuzie și multe altele, iar rezultatele sunt demonstrate în figura următoare.

Figurile următoare demonstrează rezultatele text-la-vorbire zero-shot cu prompturi zgomotoase și foarte zgomotoase.

Gânduri Finale

În acest articol, am discutat despre modelul HierSpeech++, o abordare nouă pentru a permite sinteza de vorbire robustă și eficientă într-un mediu zero-shot și pentru a depăși limitările actuale ale cadrelor de sinteză de vorbire, inclusiv dependența lor de cantități mari de date de antrenare, dependența de unități de vorbire discrete sau codec-uri audio neurale pre-antrenate și tendința de a auto-genera ieșiri audio care, în final, cauzează o lipsă de robustețe și viteze de interferență lente și rezultă în pronunții greșite, sărituri sau repetiții. Modelul HierSpeech++ este un cadru de sinteză de vorbire ierarhic, complet paralel, nou și robust, destinat sintezei de mostre de vorbire într-un mediu zero-shot și încearcă să facă următoarele contribuții

  • Utilizarea unui cadru de sinteză de vorbire ierarhică pentru a controla și transfera stiluri de voce și prozodie.
  • Permiterea escalabilității datelor și a sintezei de vorbire de înaltă rezoluție prin upsampling-ul valului audio de la 16 la 48 kHz.
  • Atingerea capacității umane în ceea ce privește conversia de voce zero-shot și sarcinile de text-la-vorbire.

"Un inginer de profesie, un scriitor din inimă". Kunal este un scriitor tehnic cu o dragoste și o înțelegere profundă a inteligenței artificiale și a învățării automate, dedicat simplificării conceptelor complexe din aceste domenii prin documentația sa captivantă și informativă.