Kunstig intelligens

HierSpeech++ : Hierarkisk Variational Inferens for Zero-shot TaleSynthese

Published December 19, 2023

Updated April 28, 2026

Kunal Kejriwal

De seneste udviklinger og fremskridt i større sprogmodellers evner har spillet en afgørende rolle i fremgangen for LLM-baserede rammer for audio-generering og tale-synteseopgaver, især i zero-shot-indstillingen. Traditionelle tale-syntese-rammer har oplevet betydelige fremskridt som følge af integrationen af yderligere funktioner som neurale audio-codecs til diskret audio og tale-enheder. Selvom disse tale- og audio-syntese-rammer leverer tilfredsstillende resultater, er der stadig plads til forbedring, da de nuværende LLM-baserede audio-rammer har følgende tre store begrænsninger

De har tilbøjelighed til at auto-generere audio-udgang, der ultimativt resulterer i mangel på robusthed og langsom interferenshastighed og resulterer i udtalefejl, spring eller gentagelse.
De har tilbøjelighed til at over-rely på diskrete tale-enheder eller forudtrænede neurale audio-codecs.
De kræver ofte en stor mængde træningsdata.

For at tackle de ovennævnte problemer og forbedre evnerne hos LLM-baserede audio- og tale-syntese-modeller, har udviklere kommet med HierSpeech++, en robust og effektiv zero-shot tale-syntesizer til stemme- og tekst-til-tale eller TTS-konverteringer. HierSpeech++-rammen bygger på erfaringerne fra hierarkiske tale-syntese-rammer, der ikke kun øger robustheden, men også tilføjer til udtrykskraften af syntetisk tale-udgang, samt øger naturligheden og lignende taler af kunstigt genereret tale, selv i en zero-shot-indstilling.

I denne artikel vil vi tale om HierSpeech++-rammen i detaljer og se på modellens arkitektur, funktion og resultater i sammenligning med state-of-the-art tekst- og audio-genereringsmodeller. Så lad os komme i gang.

HierSpeech++ : Hierarkisk Variational Inferens for Zero-shot TaleSyntese

HierSpeech++ er en hurtig, robust og effektiv zero-shot tale-syntese-ramme, der bruger en hierarkisk tale-syntese-pipeline, og ved at antage denne slut-til-slut tale-syntese-ramme, kan HierSpeech++-modellen maksimere potentialet for høj-kvalitets bølgeform-generering for at hierarkisk brokke mellem semantiske og akustiske repræsentationer ved at antage en selv-overvåget tale-repræsentation som en semantisk tale-repræsentation, og således forsøger at løse de nuværende begrænsninger for stil-tilpasninger. Den slut-til-slut tale-syntese-ramme blev først introduceret af VITS-modellen, og den antager en VAE eller Variational Auto-Encoder forstærket med adversarial træning og normaliserende flow. Desuden har VAE-baserede rammer med en slut-til-slut trænings-pipeline evnen til at generere høj-kvalitets bølgeform-audio med en perceptuel tale-syntese-kvalitet, der er betydeligt bedre end de andre tale-syntese-rammer.

Den audio-gendannelses-kvalitet af disse rammer kan yderligere forbedres ved at bruge en hierarkisk betinget Variational AutoEncoder, som bruges i HierSpeech-rammen. Trods deres potentiale har slut-til-slut trænings-pipeline-baserede modeller visse begrænsninger, især i en zero-shot-indstilling, da selvom de kan syntetisere tale-prøver med høj-kvalitets audio, er taler-lignende i zero-shot stemme-kloning-opgaver stadig forhindret af høj beregningskompleksitet. På den anden side udfører diffusions-baserede tale-syntese-modeller godt i forhold til taler-tilpasninger, men de er stadig langt fra perfekte, da de bruger en interaktiv generations-proces, der langsomer deres inferens-hastighed, de er ofte sårbare over for støjende data, og som følge af misforholdet mellem træning og inferens af den to-trins generations-proces mellem Mel-spectrogram og genereret grund-sandhed er audio-kvaliteten ikke op til mærket.

For at tackle de problemer, som forgængerne havde, bruger HierSpeech++-modellen en hierarkisk tale-syntesizer, en tale-super-resolution og en tekst-til-vec-komponent, og introducerer en forbedret hierarkisk tale-syntesizer bygget på den hierarkiske betingede VAE eller Variational AutoEncoder. I et forsøg på at forbedre audio-kvaliteten ud over den perceptuelle kvalitet, antager HierSpeech++-rammen en dual-audio for at forbedre den akustiske posterior, og forbedrer ud af distributions-generalisering ved at bruge en hierarkisk adaptiv generator udstyret med både betinget og ubetinget generation. Desuden til at afvikle tale-komponenter og forbedre taler-relateret og taler-agnostic semantisk information, antager HierSpeech++-rammen også en kilde-filter-teori-baseret multi-path semantisk encoder. Som følge af at bruge en Variational AutoEncoder, kan HierSpeech++-modellen forbinde og lære repræsentationer hierarkisk og progressivt tilpasse sig mål-stemme-stilen for at slutte sig til bølgeform-audio. Desuden udstyrer HierSpeech++-rammen også en bi-retning-netværk af normaliserende flow-Transformatorer i et forsøg på at forbedre tilpasning og også reducere misforholdet mellem træning og inferens.

Samlet set er HierSpeech++-modellen en fuldt-parallell, ny og robust hierarkisk tale-syntese-ramme, der sigter mod at syntetisere tale-prøver i en zero-shot-indstilling, og forsøger at bidrage med følgende

At bruge en hierarkisk tale-syntese-ramme til at kontrollere og overføre stemme-stilarter og prosodi.
At aktivere data-skalerbarhed og højopløst tale-syntese ved at opsample bølgeform-audio fra 16 til 48 kHz.
At opnå menneske-niveau på tværs af zero-shot stemme-konvertering og tekst-til-tale-opgaver.

HierSpeech++ : Model Komponenter og Arkitektur

Som diskuteret, er HierSpeech++ en zero-shot tale-syntese-model, der forsøger at opnå menneske-niveau-nøjagtighed i forhold til stemme-lignende og tale-naturlighed.

HierSpeech++-modellen består af forskellige komponenter, herunder en hierarkisk tale-syntesizer, en tale-super-resolution og tekst-til-vec til TTV, der arbejder i harmoni med hinanden for at facilitere træningen af hver model, der kan effektivt udnytte en stor mængde lavopløst tale-data til stemme-kloning. Lad os bryde rammen ned og tale om hver komponent.

Tale-Repræsentationer

Da det menneskelige frekvens-bånd er under 4 kHz, er det for tale-syntese vigtigt at nedsample audioen til 16 kHz. Desuden er det vigtigt at bruge mindst dobbelt den højeste komponent af tale-frekvens samt nedsample audio-prøven for at genskabe stemme-signalet. For at opnå forbedret perceptuel kvalitet, bruger HierSpeech++-rammen en tale-super-resolution eller SpeechSR-komponent til at opsample audio-prøven fra 16 til 48 kHz og bruger lavopløste repræsentationer til semantiske og akustiske repræsentationer.

For akustiske repræsentationer, bruger en traditionel tekst-til-tale eller TTS-ramme en Mel-spectrogram som sin intermediate akustiske funktion, der derefter omdannes fra bølgeformen med hjælp af en STFT eller Short-Time Fourier Transform. Det er dog værd at bemærke, at da akustiske funktioner er rige repræsentationer, der består af forskellige attributter, herunder indhold og udtale, stemme-information og mere, gør det svært for rammen at slutte sig til disse repræsentationer, en situation, der ofte resulterer i udtalefejl, mangel på lignende eller over-glatterning af tale.

Ved at fortsætte, til at trække en kontinuierlig semantisk repræsentation fra en bølgeform, bruger HierSpeech++-rammen en Wav2Vec-ramme i modsætning til den populære selv-overvågede tale-repræsentations-tilgang for semantiske repræsentationer. Selvom tilgangen er en god alternativ til en rig monolingual model, påvirker den zero-shot stemme-kloning-evnerne af en model i forhold til både robusthed og udtrykskraft, især på multilingval tale-syntese-opgaver.

Hierarkisk Tale-Syntesizer

Den hierarkiske tale-syntesizer-komponent er grundstenen for HierSpeech++-rammen, da den tillader træning af modulen uden at bruge nogen mærker som tekst-transkriptioner eller taler-id, og kun afhænger af tale-data. For at øge den akustiske kapacitet, erstattede tidligere state-of-the-art tale-syntese-modeller Mel-spectrogrammet med et lineært spectrogram, men tilgangen minimiserer KL-divergens-scoren i forhold til tone-periodicitet, PESQ, stemme og u-stemme-score og selv Mel-spectrogram-afstand. Den hierarkiske tale-syntesizer bruger en dual-audio akustisk encoder til at løse udfordringerne, der præsenteres af at bruge et lineært spectrogram, designet til at fange rigere og mere omfattende akustiske repræsentationer. Rammen bruger også en bølgeform-encoder til at destillere information fra en rå bølgeform-audio og konkatenerer den med det lineære spectrogram-repræsentation og projekterer derefter den akustiske repræsentation som en konkateneret repræsentation.

Desuden til at tackle taler-agnostic og taler-relaterede semantiske repræsentationer, bruger HierSpeech++-rammen en multi-path selv-overvåget tale-repræsentation, hvor hver enkelt repræsentation bruges til hierarkisk stil-tilpasning med de semantiske repræsentationer, der trækkes for at få linguistisk information fra midt-laget af MMS. Rammen bruger også en grundfrekvens til at forbedre tale-afvikling, der tillader manuel kontrol over tone-konturen. Rammen bruger også en linguistisk repræsentation som betinget information til at generere bølgeform-audio hierarkisk og bruger en forbedret linguistisk repræsentation af den selv-overvågede repræsentation. Det er også værd at bemærke, at de akustiske repræsentationer, der trækkes under træning ved at bruge en bølgeform og et lineært spectrogram, bruges til at genskabe den rå bølgeform-audio, og en hierarkisk variational inferens bruges til at forbinde de akustiske repræsentationer med de multi-path linguistiske repræsentationer. Rammen bruger også en hierarkisk adaptiv generator (HAG) til at generere semantisk-til-bølgeform-prøver, og de genererede repræsentationer, der består af en stil-repræsentation og en akustisk repræsentation, fødes til kilde- og bølgeform-generatorene.

Tekst til Vec

For tekst-til-tale-syntese, bruger HierSpeech++-rammen en tekst-til-vec eller TTV-model, der genererer en grundfrekvens og en semantisk repræsentation fra en tekst-sekvens, og bruger en monotonisk alignmentsøgning kombineret med en variational autoencoder til at justere tale og tekst internt. HierSpeech++-rammen erstatter derefter det lineære spectrogram med en selv-overvåget lineær repræsentation og genskaber derefter samme repræsentation for at fungere som output for TTV.

Desuden forudser HierSpeech++-rammen den grundfrekvens med fire gange større opløsninger i forhold til de selv-overvågede tale-repræsentationer og bruger en betinget tekst-repræsentation som prior-information. Som følge af den semantiske information af selv-overvågede tale-repræsentationer, er rammen i stand til at overføre prosodi-stilen i teksten til TTV-modellen og føder en latent repræsentation til fonem-encoderen for at forbedre de linguistiske evner af repræsentationen.

Tale-Super-Resolution eller TaleSR

HierSpeech++-rammen trænes på en relativt lavopløst dataset i forhold til data-effektivitet og tilgængelighed og op-sampler en lavopløst tale-bølgeform til en højopløst tale-bølgeform fra 16 til 48 kHz. Rammen erstatter også en transponeret convolution med den nærmeste nabo-opsampler, der tidligere er kendt for at lette artefakter som følge af transponerede convolutioner.

Arkitektur

Indhold-encoderen af tekst-til-vec-modellen består af 16 ikke-kasuelle WaveNet-lag med en kernel-størrelse på 5 og en skjult størrelse på 256, hvorimod indhold-decoderen består af 8 ikke-kasuelle WaveNet-lag med en kernel-størrelse på 5 og en skjult størrelse på 512. Tekst-encoder-komponenten består af tre prosodi-betingede Transformer-netværk og tre ubetingede Transformer-netværk med en kernel-størrelse på 9, filter-størrelse på 1024 og en skjult størrelse på 256 med en dropout-rate på 0,2. For at kode tilstødende information og forbedre prosodi-stil-tilpasning, bruger rammen en CNN med en kernel-størrelse på 5 i Transformer-blokke. TaleSR består af en enkelt AMP-blok med 32 initielle kanaler uden en opsamplings-lag. Rammen bruger en nærmeste nabo-opsampler til at opsample de skjulte repræsentationer og bruger en MPD som diskriminator med seks forskellige vindue-størrelser og fire sub-bånd-diskriminatore.

Figuren ovenfor demonstrerer HierSpeech++-rammens inferens-pipeline, der starter med at trække semantiske repræsentationer fra audioen i en frekvens på 16 kHz og ved grundfrekvensen ved at bruge YAPPT-algoritmen. Før grundfrekvensen kan fødes til den hierarkiske syntesizer, normaliseres den ved at bruge standard- og middel-afvigelserne af kilde-audioen, og den normaliserede grundfrekvens denormaliseres derefter ved at bruge standard- og middel-afvigelserne af mål-audioen. For tekst-til-tale-ekstraktioner, trækker HierSpeech++-rammen tekstuelle repræsentationer i stedet for tale-repræsentationer og bruger TTV-modellen til at generere en semantisk repræsentation fra prosodi-prompten.

Eksperiment og Resultater

Rammen bruger den offentligt tilgængelige LibriTTS-dataset til at træne den hierarkiske syntesizer-komponent med den første trin være at træne modellen med trainclean-undermængder af datasettet og bruge den resterende data til at aktivere forbedret overføring af stemme-stilen. Desuden til at forbedre diversitet og robusthed, op-skalrer rammen datasettet til 1 kHz, som demonstreret i følgende figur.

Rekonstruktion, Resyntese-opgaver og Stemme-Konvertering

For at evaluere HierSpeech++-rammens præstation på rekonstruktion og resyntese-opgaver, udførte udviklerne syv objektive metrikker, og resultaterne demonstreres i følgende figurer for rekonstruktion og resyntese-opgaver.

For stemme-konverterings-opgaver, bruger rammen to subjektive metrikker til evaluering: stemme-lignende MOS eller sMOS og naturlighed-gennemsnitlig mening-score af nMOS med tre naturligheds-objektive metrikker og to lignende objektive metrikker.

Ved at fortsætte, er det primære mål for HierSpeech++-rammen at aktivere zero-shot tale-syntese, og for at evaluere dens præstation i zero-shot, sammenlignes den med andre basis-modeller som AutoVC, VoiceMixer, diffusions-baserede modeller og mange flere, med resultaterne demonstreret i følgende figur.

Følgende figurer demonstrerer zero-shot tekst-til-tale resultater med støjende prompts og meget støjende prompts.

Endelige Tanker

I denne artikel har vi talt om HierSpeech++-modellen, en ny tilgang til at aktivere robust og effektiv tale-syntese i en zero-shot-indstilling og overvinde begrænsningerne, som nuværende tale-syntese-rammer har, herunder deres over-reliance på store mængder træningsdata, afhængighed af diskrete tale-enheder eller forudtrænede neurale audio-codecs og deres tilbøjelighed til at auto-generere audio-udgang, der ultimativt resulterer i mangel på robusthed og langsom interferenshastighed og resulterer i udtalefejl, spring eller gentagelse. HierSpeech++-modellen er en fuldt-parallell, ny og robust hierarkisk tale-syntese-ramme, der sigter mod at syntetisere tale-prøver i en zero-shot-indstilling, og forsøger at bidrage med følgende

At bruge en hierarkisk tale-syntese-ramme til at kontrollere og overføre stemme-stilarter og prosodi.
At aktivere data-skalerbarhed og højopløst tale-syntese ved at opsample bølgeform-audio fra 16 til 48 kHz.
At opnå menneske-niveau på tværs af zero-shot stemme-konvertering og tekst-til-tale-opgaver.

Related Topics:HierSpeech speech synthesys zero-shot