Umělá inteligence
HierSpeech++ : Hierarchický variabilní odhad pro zero-shot syntézu řeči
Poslední vývoj a pokrok v možnostech velkých jazykových modelů sehrály zásadní roli v pokrocích rámců založených na LLM pro úkoly generace audia a syntézy řeči, zejména v nastavení zero-shot. Tradiční rámce syntézy řeči prošly významnými pokroky v důsledku integrace dalších funkcí, jako jsou neuronové audio kodeky pro diskrétní audio a řečové jednotky. Přestože tyto rámce syntézy řeči a audia poskytují uspokojivé výsledky, stále existuje prostor pro zlepšení, protože současné rámce založené na LLM mají následující tři hlavní omezení
- Tendují automaticky generovat audio výstup, který nakonec způsobuje nedostatek robustnosti a pomalou interferenční rychlost a vede k nesprávné výslovnosti, přeskočení nebo opakování.
- Tendují příliš spoléhat na diskrétní řečové jednotky nebo předtrénované neuronové audio kodeky.
- Často vyžadují velké množství trénovacích dat.
Abyste řešili výše uvedené problémy a zlepšili schopnosti modelů syntézy audia a řeči založených na LLM, vývojáři vytvořili HierSpeech++, robustní a efektivní zero-shot syntézér řeči pro převody hlasu a text-to-speech nebo TTS. Rámec HierSpeech++ vychází z poznatků z hierarchických rámců syntézy řeči, které nejenom zvyšují robustnost, ale také přidávají expresivitu syntetického výstupu řeči a zvyšují přirozenost a podobnost mluvčího uměle generované řeči, dokonce i v nastavení zero-shot.
V tomto článku budeme podrobně diskutovat o rámcu HierSpeech++, prohlédneme si architekturu modelu, jeho fungování a výsledky ve srovnání se stávajícími modely generace textu a audia. Takže pojďme začít.
HierSpeech++ : Hierarchický variabilní odhad pro zero-shot syntézu řeči
HierSpeech++ je rychlý, robustní a efektivní zero-shot syntézér řeči, který používá hierarchický řetězec syntézy řeči a přijetím tohoto koncového syntézéru HierSpeech++ je schopen maximalizovat potenciál generace high-quality vlnové formy, aby hierarchicky překlenul mezеру mezi sémantickými a akustickými reprezentacemi přijetím samo-supervizovaného řečového reprezentace jako sémantického řečového reprezentace a tím se pokusí vyřešit současné omezení stylů adaptace. Koncový syntézér byl poprvé představen modelem VITS a používá VAE nebo Variabilní Auto-Encoder augmentovaný s adversariálním trénováním a normalizujícím tokem. Kromě toho mají rámce založené na VAE s koncovým trénovacím potrubím schopnost generovat high-quality vlnovou formu audia s percepční kvalitou syntézy řeči, která je významně lepší než ta, která je generována jinými rámci syntézy řeči.
Kvalita rekonstrukce audia těchto rámců může být dále vylepšena pomocí hierarchického podmíněného Variabilního Auto-Encoderu, jak je použit v rámcu HierSpeech. Přes jejich potenciál mají modely založené na koncovém trénovacím potrubí certain omezení, zejména v nastavení zero-shot, protože i když mohou syntetizovat vzorky řeči s high-quality audiem, podobnost mluvčího v úkolech zero-shot voice cloning je stále zatížena vysokou výpočetní složitostí. Na druhé straně difuzní modely syntézy řeči fungují dobře z hlediska adaptace mluvčího, ale jsou stále daleko od dokonalosti, protože využívají interaktivního generativního procesu, který zpomaluje rychlost inference, jsou často zranitelné vůči šumu dat a v důsledku nesouladu mezi trénováním a inferencí dvoufázového generativního procesu mezi Mel-spectrogramem a generovaným ground-truth je kvalita audia není na úrovni.
Abyste řešili problémy svých předchůdců, model HierSpeech++ využívá hierarchického syntézéru řeči, syntézy super-rozlišení a text-to-vec komponenty a představuje vylepšený hierarchický syntézér postavený na hierarchickém podmíněném VAE nebo Variabilním Auto-Encoderu. V pokusu o vylepšení kvality audia za hranice percepční kvality, rámec HierSpeech++ přijímá duální audio, aby zvýšil akustický posteriorní a vylepšil generalizaci mimo distribuci, využívaje hierarchického adaptivního generátoru vybaveného podmíněnou a nepodmíněnou generací. Kromě toho, aby se rozlišily komponenty řeči a vylepšily mluvčí-související a mluvčí-agnostic sémantické informace, rámec HierSpeech++ také přijímá zdroj-filtr teorie-založeného multi-path sémantického kodéru. V důsledku využití Variabilního Auto-Encoderu, model HierSpeech++ může propojit a naučit se reprezentace hierarchicky a progresivně adaptovat na cílový styl hlasu, aby odhadl vlnovou formu audia. Kromě toho rámec HierSpeech++ také nasazuje bidirekční síť normalizujících toků Transformérů v pokusu o vylepšení adaptace a také snížení nesouladu mezi trénováním a inferencí.
Celkově je model HierSpeech++ plně-paralelní, novým a robustním hierarchickým rámcem syntézy řeči zaměřeným na syntézu vzorků řeči v nastavení zero-shot a snaží se učinit následující příspěvky
- Použití hierarchického rámcu syntézy řeči pro kontrolu a přenos stylů hlasu a prozodie.
- Povolit škálovatelnost dat a high-resolution syntézu řeči upsampling vlnové formy audia z 16 na 48 kHz.
- Dosáhnout lidské úrovně přes zero-shot převod hlasu a text-to-speech úkoly.
HierSpeech++ : Komponenty modelu a architektura
Jak bylo diskutováno, HierSpeech++ je zero-shot syntézér řeči, který se snaží dosáhnout lidské úrovně přesnost ve smyslu podobnosti hlasu a přirozenosti řeči.

Model HierSpeech++ se skládá z různých komponent, včetně hierarchického syntézéru řeči, syntézy super-rozlišení a text-to-vec do TTV, které fungují společně, aby umožnily trénování každého modelu, který může efektivně využít velké množství nízko-rozlišení dat řeči pro klonování hlasu. Pojďme rozebrat rámec a diskutovat o každé komponentě.
Řečové reprezentace
Jako lidská frekvenční pásma jsou pod 4 kHz, pro syntézu řeči, rámec HierSpeech++ downsamples audio na 16 kHz. Kromě toho pro rekonstrukci signálu hlasu je důležité použít alespoň dvojnásobek nejvyšší složky frekvence hlasu, kromě downsamplingu audio vzorku. Abyste získali vylepšenou percepční kvalitu, rámec HierSpeech++ využívá syntézu super-rozlišení nebo SpeechSR komponentu, aby upsampluje audio vzorek z 16 na 48 kHz a využívá nízko-rozlišení reprezentací pro sémantické a akustické reprezentace.

Pro akustické reprezentace, tradiční text-to-speech nebo TTS rámec využívá Mel-spectrogram jako jeho mezitímní akustickou funkci, která je pak transformována z vlnové formy s pomocí STFT nebo Short-Time Fourier Transform. Je však důležité poznamenat, že поскольку akustické funkce jsou bohaté reprezentace, které zahrnují různé atributy, včetně obsahu a výslovnosti, informace o hlasu a další, což činí obtížným pro rámec odhadnout tyto reprezentace, situace, která často vede k nesprávné výslovnosti, nedostatečné podobnosti nebo přehnanému vyhlazování řeči.
Pokračujeme, aby extrahovat kontinuální sémantickou reprezentaci z vlnové formy, rámec HierSpeech++ využívá Wav2Vec rámec v kontrastu s populárním samo-supervizovaným řečovým reprezentacím pro sémantické reprezentace. Ačkoli přístup dělá dobrý alternativu pro bohatý monolingvální model, ovlivňuje zero-shot klonování hlasu schopnosti modelu, jak z hlediska robustnosti, tak expresivnosti, zejména u multilingvální syntézy řeči.
Hierarchický syntézér řeči
Komponenta Hierarchického syntézéru řeči je základním kamenem rámcu HierSpeech++, protože umožňuje trénovat modul bez použití jakýchkoli štítků, jako jsou textové přepisy nebo ID mluvčího, a spoléhající se pouze na data řeči. Abyste zvýšili akustickou kapacitu, předchozí státní modely syntézy řeči nahradily Mel-spectrogram lineárním spektrogramem, nicméně přístup minimalizuje skóre KL divergence v termínech pitch periody, PESQ, hlasu a unvoice skóre a dokonce Mel-spectrogram vzdálenosti. Hierarchický syntézér řeči využívá duální audio akustického kodéru, aby vyřešil výzvy, které představuje použití lineárního spektrogramu, navrženého pro zachycení bohatších a komplexnějších akustických reprezentací. Rámec také využívá vlnový encoder, aby destiloval informace z raw vlnové formy audia a spojí ji s lineárním spektrogramem reprezentací a nakonec projekty akustické reprezentace jako spojenou reprezentaci.

Kromě toho, aby se vyrovnaly mluvčí-agnostic a mluvčí-související sémantické reprezentace, rámec HierSpeech++ využívá multi-path samo-supervizovaného řečového reprezentace, kde každá jednotlivá reprezentace je použita pro hierarchickou styl adaptaci se sémantickými reprezentacemi extrahovanými pro získání lingvistické informace z prostřední vrstvy MMS. Rámec také využívá fundamentální frekvenci, aby vylepšil rozlišování řeči, což umožňuje ruční kontrolu kontury tónu. Rámec také využívá lingvistické reprezentace jako podmíněné informace pro generování vlnové formy audia hierarchicky a využívá vylepšené lingvistické reprezentace samo-supervizovaného reprezentace. Je také důležité poznamenat, že akustické reprezentace extrahované během trénování pomocí vlnové formy a lineárního spektrogramu jsou použity pro rekonstrukci raw vlnové formy audia a hierarchický variabilní odhad je použit pro propojení akustických reprezentací s multi-path lingvistickými reprezentacemi. Rámec také využívá hierarchický adaptivní generátor (HAG) pro generování sémantických-ke-vlnové formě vzorků a generované reprezentace, které zahrnují styl reprezentaci a akustickou reprezentaci, jsou krmeny do zdrojového a vlnového generátoru.
Text-to-vec
Pro text-to-speech syntézu, rámec HierSpeech++ využívá text-to-vec nebo TTV model, který generuje fundamentální frekvenci a sémantickou reprezentaci z textové sekvence a využívá monotonic align search spojený s variabilním auto-encoderem, aby zarovnal řeč a text interně. Rámec HierSpeech++ pak nahrazuje lineární spektrogram samo-supervizovaným lineárním reprezentací a rekonstruuje stejnou reprezentaci, aby sloužila jako výstup pro TTV.

Kromě toho, rámec HierSpeech++ předpovídá fundamentální frekvenci se čtyřnásobně většími rozlišeními ve srovnání se samo-supervizovanými řečovými reprezentacemi a využívá podmíněné textové reprezentace jako předchozí informace. V důsledku sémantických informací samo-supervizovaných řečových reprezentací, rámec je schopen přenášet styl prozodie v text-to-vec modelu a krmit latentní reprezentaci do fonémového encoderu, aby vylepšil lingvistické schopnosti reprezentace.
SpeechSR nebo Syntéza super-rozlišení
Rámec HierSpeech++ trénuje na relativně nízko-rozlišení datovém souboru z hlediska efektivity dat a dostupnosti a upsampluje nízko-rozlišení vlnovou formu audia na high-rozlišení vlnovou formu audia z 16 na 48 kHz. Rámec také nahrazuje transponovaný konvoluci s nearest neighbor upsamplarem, který byl dříve známý pro zmírnění artifactů v důsledku transponovaných konvolucí.

Architektura
Obsahový encoder text-to-vec modelu se skládá z 16 non-casual WaveNet vrstev s velikostí jádra 5 a skrytou velikostí 256, zatímco obsahový decoder se skládá z 8 non-casual WaveNet vrstev s velikostí jádra 5 a skrytou velikostí 512. Textový encoder komponent se skládá ze tří prosodie podmíněných Transformer sítí a tří nepodmíněných Transformer sítí s velikostí jádra 9, filtrem velikosti 1024 a skrytou velikostí 256 s textovým encoderem, který má dropout rate 0,2. Abyste zakódovat sousední informace a aby se vylepšila adaptace stylu prozodie, rámec přijímá CNN s velikostí jádra 5 v Transformer blocích. SpeechSR na druhé straně se skládá z jediného AMP bloku s 32 počátečními kanály bez přítomnosti upsamplovací vrstvy. Rámec využívá nearest neighbor upsamplera, aby upsamplовал skryté reprezentace a využívá MPD jako diskriminátor s šesti různými velikostmi oken a čtyřmi sub-band diskriminátory.

Nahoře uvedená figura demonstruje inferenční potrubí rámcu HierSpeech++, které začíná extrahováním sémantických reprezentací z audia na frekvenci 16 kHz a na fundamentální frekvenci pomocí YAPPT algoritmu. Předtím, než může být fundamentální frekvence krmena do Hierarchického syntézéru, je normalizována pomocí standardních a moyen deviation zdrojového audia a normalizovaná fundamentální frekvence je pak denormalizována pomocí standardních a moyen deviation cílového audia. Pro text-to-speech extrakci, rámec HierSpeech++ extrahuje textové reprezentace místo řečových reprezentací a využívá text-to-vec model, aby generoval sémantickou reprezentaci z prosodie promptu.
Experiment a výsledky
Rámec využívá veřejně dostupný LibriTTS datový soubor pro trénování hierarchického syntézéru komponenty s prvním krokem, který spočívá v trénování modelu s trainclean podmnožinami datového souboru a využívá zbývající data pro vylepšení přenosu stylu hlasu. Kromě toho, aby se vylepšila diverzita a robustnost, rámec upsampluje datový soubor na 1 kHz, jak je ukázáno v následující figurce.

Rekonstrukce, resyntéza úkolů a převod hlasu
Abyste vyhodnotili výkon rámcu HierSpeech++ na rekonstrukčních a resyntézích úkolech, vývojáři provedli sedm objektivní metrik a výsledky jsou demonstrovány v následující figurce pro rekonstrukční a resyntézích úkolech.


Pro úkoly převodu hlasu, rámec využívá dvě subjektivní metriky pro hodnocení: hlasová podobnost MOS nebo sMOS a přirozenost střední opinion skóre nMOS se třemi přirozenými objektivními metrikami a dvěma podobnostními objektivními metrikami.

Pokračujeme, primárním cílem rámcu HierSpeech++ je umožnit zero-shot syntézu řeči a aby se vyhodnotil jeho výkon v zero-shot, je srovnán s jinými základními modely, jako je AutoVC, VoiceMixer, difuzními modely a mnoha dalšími, s výsledky, které jsou demonstrovány v následující figurce.

Následující figurky demonstrují zero-shot text-to-speech výsledky s hlukem promptem a velmi hlukem promptem.


Konečné myšlenky
V tomto článku jsme diskutovali o modelu HierSpeech++, novém přístupu k umožnění robustní a efektivní syntézy řeči v nastavení zero-shot a překonání omezení stávajících rámců syntézy řeči, včetně jejich nadměrné závislosti na velkém množství trénovacích dat, závislosti na diskrétních řečových jednotkách nebo předtrénovaných neuronových audio kodecích a jejich tendenci automaticky generovat audio výstup, který nakonec způsobuje nedostatek robustnosti a pomalou interferenční rychlost a vede k nesprávné výslovnosti, přeskočení nebo opakování. Model HierSpeech++ je plně-paralelní, novým a robustním hierarchickým rámcem syntézy řeči zaměřeným na syntézu vzorků řeči v nastavení zero-shot a snaží se učinit následující příspěvky
- Použití hierarchického rámcu syntézy řeči pro kontrolu a přenos stylů hlasu a prozodie.
- Povolit škálovatelnost dat a high-resolution syntézu řeči upsampling vlnové formy audia z 16 na 48 kHz.
- Dosáhnout lidské úrovně přes zero-shot převod hlasu a text-to-speech úkoly.












