Umělá inteligence
HierSpeech++: Hierarchická variační inference pro syntézu řeči s nulovým záběrem

Nedávný vývoj a pokrok ve schopnostech velkých jazykových modelů hrál klíčovou roli ve vývoji rámců založených na LLM pro úlohy generování zvuku a syntézy řeči, zejména v nastavení zero-shot. Tradiční rámce pro syntézu řeči zaznamenaly významný pokrok v důsledku integrace dalších funkcí, jako jsou neurální zvukové kodeky pro diskrétní zvukové a řečové jednotky. Přestože tyto rámce pro syntézu řeči a zvuku poskytují uspokojivé výsledky, stále existuje prostor pro zlepšení, protože současné zvukové rámce založené na LLM mají následující tři hlavní omezení:
- Mají tendenci automaticky generovat zvukový výstup, který v konečném důsledku způsobuje nedostatečnou robustnost a pomalé rychlosti rušení a má za následek nesprávnou výslovnost, přeskakování nebo opakování.
- Mají tendenci se příliš spoléhat na diskrétní řečové jednotky nebo předem trénovaný neurální zvukový kodek.
- Často vyžadují velké množství tréninkových dat.
Aby se vyřešily výše uvedené problémy a zlepšily možnosti modelů zvuku a syntézy řeči založených na LLM, přišli vývojáři s HierSpeech++, robustním a účinným syntezátorem řeči s nulovým záběrem pro převod hlasu a textu na řeč nebo TTS. Rámec HierSpeech++ staví na poznatcích hierarchických rámců syntézy řeči, které nejen zvyšují robustnost, ale také zvyšují expresivitu výstupu syntetické řeči a zároveň zvyšují přirozenost a podobnost mluvčích uměle generované řeči i v nastavení nulového záběru.
V tomto článku budeme podrobně hovořit o rámci HierSpeech++ a podíváme se na architekturu, fungování a výsledky modelu ve srovnání s nejmodernějšími modely generování textu a zvuku. Pojďme tedy začít.
HierSpeech++: Hierarchická variační inference pro syntézu řeči s nulovým záběrem
HierSpeech++ je rychlý, robustní a účinný rámec pro syntézu řeči s nulovým záběrem, který využívá hierarchické potrubí syntézy řeči, a přijetím tohoto rámce pro syntézu řeči od začátku do konce je model HierSpeech++ schopen maximalizovat potenciál vysoce kvalitního generování tvaru vlny. hierarchicky překlenout propast mezi sémantickou a akustickou reprezentací tím, že převezme samokontrolovanou řečovou reprezentaci jako sémantickou řečovou reprezentaci, a pokusí se tak vyřešit současná omezení stylových úprav. Rámec end-to-end syntézy řeči byl poprvé představen modelem VITS a přijímá VAE nebo variační automatický kodér rozšířený o trénink protivníka a normalizační tok. Kromě toho rámce založené na VAE s end-to-end tréninkovým potrubím mají schopnost generovat vysoce kvalitní zvuk tvaru vlny s kvalitou percepční syntézy řeči, která je výrazně lepší než ty, které generují jiné rámce pro syntézu řeči.
Kvalitu zvukové rekonstrukce těchto rámců lze dále zlepšit použitím hierarchického podmíněného variačního automatického kodéru, jak se používá v rámci HierSpeech. Navzdory svému potenciálu mají modely založené na end-to-end tréninkovém kanálu určitá omezení, zejména v nastavení zero-shot, protože i když dokážou syntetizovat vzorky řeči s vysoce kvalitním zvukem, podobnost reproduktorů v úlohách klonování hlasu s zero-shot je stále plná vysokých výpočetní náročnost. Na druhou stranu, modely syntézy řeči založené na difúzi fungují dobře, pokud jde o adaptace reproduktorů, ale stále mají k dokonalosti daleko, protože využívají interaktivního generovacího procesu, který zpomaluje jeho rychlost vyvozování, jsou často zranitelné vůči hlučným datům a v důsledku nesouladu mezi školením a vyvozováním dvoufázový proces generování mezi Mel-spektrogramem a generovaným základním faktem kvalita zvuku neodpovídá značce.
K řešení problémů, kterým čelili jeho předchůdci, využívá model HierSpeech++ hierarchický syntetizér řeči, super-rozlišení řeči a komponentu text to vec a zavádí vylepšený hierarchický syntetizér řeči postavený na hierarchickém podmíněném VAE nebo variačním autokodéru. Ve snaze vylepšit kvalitu zvuku nad rámec percepční kvality využívá rámec HierSpeech++ duální zvuk pro posílení akustického pozadí a zlepšuje zobecnění mimo distribuci využitím hierarchického adaptivního generátoru vybaveného podmíněným i nepodmíněným generováním. Kromě toho, k rozuzlení komponent řeči a vylepšení sémantických informací souvisejících s mluvčím a agnostických informací o mluvčích, rámec HierSpeech++ také přijímá vícecestný sémantický kodér založený na teorii zdrojového filtru. V důsledku použití variačního automatického kodéru se model HierSpeech++ může hierarchicky propojovat a učit se reprezentace a postupně se přizpůsobovat cílovému stylu hlasu, aby odvodil zvuk tvaru vlny. Kromě toho rámec HierSpeech++ také nasazuje obousměrnou síť normalizačních tokových transformátorů ve snaze zlepšit adaptaci a také snížit nesoulad mezi školením a dedukcí.
Celkově vzato je model HierSpeech++ plně paralelní, nový a robustní rámec hierarchické syntézy řeči zaměřený na syntézu vzorků řeči v nastavení nulového záběru a pokouší se o následující příspěvky:
- Použití hierarchického rámce pro syntézu řeči k ovládání a přenosu hlasových stylů a prozódie.
- Umožněte škálovatelnost dat a syntézu řeči ve vysokém rozlišení převzorkováním zvuku křivky z 16 na 48 kHz.
- Dosáhněte schopností na lidské úrovni při převodu hlasu s nulovým snímkem a úlohách převodu textu na řeč.
HierSpeech++: Modelové komponenty a architektura
Jak již bylo zmíněno, HierSpeech++ je model syntézy řeči s nulovým výstřelem, který se pokouší dosáhnout přesnosti na lidské úrovni, pokud jde o podobnost hlasu a přirozenost řeči.
Model HierSpeech++ se skládá z různých komponent, včetně hierarchického syntezátoru řeči, super rozlišení řeči a převodu textu na vektor do TTV, které vzájemně spolupracují, aby usnadnily trénování každého modelu, který může efektivně využívat velké množství nízkých rozlišení řečových dat pro klonování hlasu. Rozeberme rámec a promluvme si o každé komponentě.
Projevy
Protože lidské frekvenční pásmo je pod 4 kHz, pro syntézu řeči rámec HierSpeech++ převzorkuje zvuk na 16 kHz. Dále pro rekonstrukci hlasového signálu je důležité použít alespoň dvojnásobek nejvyšší složky frekvence hlasu navíc k převzorkování zvukového vzorku. Pro dosažení lepší kvality vnímání využívá rámec HierSpeech++ super rozlišení řeči nebo komponent SpeechSR pro převzorkování zvukového vzorku z 16 na 48 kHz a využívá reprezentace s nízkým rozlišením pro sémantické a akustické reprezentace.
Pro akustické reprezentace používá tradiční rámec textu na řeč nebo TTS Mel-spektrogram jako svůj přechodný akustický znak, který je pak transformován z průběhu pomocí STFT nebo krátkodobé Fourierovy transformace. Je však třeba poznamenat, že vzhledem k tomu, že akustické prvky jsou bohaté reprezentace obsahující různé atributy včetně obsahu a výslovnosti, hlasových informací a dalších, je pro framework obtížné tyto reprezentace odvodit, což je situace, která často vede k chybné výslovnosti, nedostatku podobnosti, nebo přílišné vyhlazování řeči.
Abychom mohli extrahovat spojitou sémantickou reprezentaci z průběhu, rámec HierSpeech++ využívá rámec Wav2Vec na rozdíl od populárního přístupu reprezentace řeči s vlastním dohledem pro sémantické reprezentace. Ačkoli tento přístup představuje dobrou alternativu pro bohatý jednojazyčný model, ovlivňuje schopnosti modelu klonovat hlas s nulovým záběrem, pokud jde o robustnost i expresivitu, zejména u úloh vícejazyčné syntézy řeči.
Hierarchický syntezátor řeči
Komponenta Hierarchical Speech Synthesizer je základním kamenem pro rámec HierSpeech++, protože umožňuje trénovat modul bez použití jakýchkoli štítků, jako jsou textové přepisy nebo id mluvčího, a spoléhat se pouze na data řeči. Aby se zvýšila akustická kapacita, předchozí nejmodernější modely syntézy řeči nahradily Mel-spektrogram lineárním spektrogramem, avšak tento přístup minimalizuje skóre divergence KL z hlediska periodicity výšky tónu, PESQ, hlasového a nehlasového skóre a dokonce Mel- spektrogramová vzdálenost. Hierarchický syntetizér řeči využívá Dual-Audio Acoustic Encoder k vyřešení problémů, které představuje použití lineárního spektrogramu navrženého pro zachycení bohatších a komplexnějších akustických reprezentací. Rámec také využívá kodér tvaru vlny k destilaci informací z nezpracovaného zvuku tvaru vlny a zřetězí je s reprezentací lineárního spektrogramu a nakonec promítá akustickou reprezentaci jako zřetězenou reprezentaci.
Kromě toho, aby se vypořádal s agnostickými reprezentacemi mluvčího a sémantickými reprezentacemi souvisejícími s mluvčími, rámec HierSpeech++ využívá vícecestnou reprezentaci řeči s vlastním dohledem, kde se každá jednotlivá reprezentace používá pro přizpůsobení hierarchického stylu se sémantickými reprezentacemi extrahovanými pro získání jazykových informací z střední vrstva MMS. Rámec také využívá základní frekvenci ke zlepšení rozuzlení řeči, což umožňuje ruční ovládání obrysu výšky tónu. Rámec také používá lingvistickou reprezentaci jako podmíněnou informaci pro hierarchické generování zvukového tvaru vlny a používá vylepšenou lingvistickou reprezentaci reprezentace s vlastním dohledem. Za zmínku také stojí, že akustické reprezentace extrahované během tréninku pomocí tvaru vlny a lineárního spektrogramu se používají k rekonstrukci zvuku surového tvaru vlny a hierarchická variační inference se používá k propojení akustických reprezentací s vícecestnými lingvistickými reprezentacemi. Rámec také využívá a hierarchický adaptivní generátor(HAG) pro generování vzorků sémantického tvaru a tvaru vlny a generované reprezentace obsahující reprezentaci stylu a akustickou reprezentaci jsou přiváděny do generátoru zdroje a tvaru vlny.
Text Vec
Pro syntézu textu na řeč využívá rámec HierSpeech++ model text to vec nebo TTV, který generuje základní frekvenci a sémantickou reprezentaci z textové sekvence, a využívá monotónní vyhledávání zarovnání spojené s variačním autokodérem k internímu zarovnání řeči a textu. Rámec HierSpeech++ pak nahradí lineární spektrogram lineární reprezentací s vlastním dohledem a rekonstruuje stejnou reprezentaci, aby sloužila jako výstup pro TTV.
Kromě toho rámec HierSpeech++ předpovídá základní frekvenci se čtyřnásobně větším rozlišením ve srovnání s reprezentacemi řeči s vlastním dohledem a jako předběžnou informaci využívá podmíněnou textovou reprezentaci. V důsledku sémantických informací samořízených řečových reprezentací je framework schopen přenést prozodický styl v textu do vecového modelu a dodává latentní reprezentaci do kodéru fonémů, aby se zlepšily lingvistické schopnosti reprezentace.
SpeechSR nebo Speech Super Resolution
Rámec HierSpeech++ trénuje na datové sadě s relativně nízkým rozlišením, pokud jde o efektivitu a dostupnost dat, a převzorkuje křivku řeči s nízkým rozlišením na křivku řeči s vysokým rozlišením od 16 do 48 kHz. Rámec také nahrazuje transponovanou konvoluci nejbližším sousedním upsamplerem, o kterém bylo dříve známo, že zmírňuje artefakty v důsledku transponovaných konvolucí.
Architektura
Obsahový kodér modelu text to vec se skládá z 16 non-casual WaveNet vrstev s velikostí jádra 5 a skrytou velikostí 256, zatímco obsahový dekodér se skládá z 8 non-casual vrstev WaveNet s velikostí jádra 5, a skrytá velikost 512. Komponenta textového kodéru se skládá ze tří prozodicky podmíněných sítí Transformer a tří nepodmíněných sítí Transformer s velikostí jádra 9, velikostí filtru 1024 a skrytou velikostí 256 s kodérem textu s mírou výpadků 0.2. Pro zakódování sousedních informací a pro zlepšení přizpůsobení prozodického stylu rámec přijímá CNN s velikostí jádra 5 v blocích Transformer. SpeechSR na druhé straně obsahuje jeden blok AMP s 32 počátečními kanály bez přítomnosti vrstvy pro převzorkování. Rámec využívá upsampler nejbližšího souseda k převzorkování skrytých reprezentací a využívá MPD jako diskriminátor se šesti různými velikostmi oken a čtyřmi subpásmovými diskriminátory.
Výše uvedený obrázek ukazuje inferenční potrubí rámce HierSpeech++, které začíná extrahováním sémantických reprezentací ze zvuku na frekvenci 16 kHz a na základní frekvenci pomocí algoritmu YAPPT. Než může být základní frekvence přivedena do hierarchického syntetizéru, je normalizována pomocí standardní a střední odchylky zdrojového zvuku a normalizovaná základní frekvence je pak denormalizována pomocí standardní a střední odchylky cílového zvuku. Pro extrakce textu na řeč rámec HierSpeech++ extrahuje textové reprezentace místo reprezentací řeči a využívá model text to vec ke generování sémantické reprezentace z prozodické výzvy.
Experiment a výsledky
Rámec využívá veřejně dostupnou datovou sadu LibriTTS k trénování komponenty hierarchického syntetizéru, přičemž prvním krokem je trénování modelu s podmnožinami datové sady trainclean a využití zbývajících dat k umožnění vylepšeného přenosu hlasového stylu. Kromě toho, aby se zlepšila rozmanitost a robustnost, rámec převzorkuje datovou sadu na 1 kHz, jak ukazuje následující obrázek.
Rekonstrukce, úkoly resyntézy a konverze hlasu
Pro vyhodnocení výkonu rámce HierSpeech++ na rekonstrukčních a resyntetizačních úlohách vývojáři provedli sedm objektivních metrik a výsledky jsou demonstrovány na následujících obrázcích pro rekonstrukční a resyntetizační úlohy.
Pro úlohy převodu hlasu používá rámec k vyhodnocení dvě subjektivní metriky: podobnost hlasu MOS nebo sMOS a průměrné skóre mínění nMOS přirozenosti se třemi objektivními metrikami přirozenosti a dvěma objektivními metrikami podobnosti.
Primárním cílem rámce HierSpeech++ je umožnit syntézu řeči zero-shot a vyhodnotit její výkon v zero-shot, porovnává se s jinými základními modely, jako je AutoVC, VoiceMixer, Modely založené na difuzia mnohem více, přičemž výsledky jsou znázorněny na následujícím obrázku.
Následující obrázky ukazují nulový záběr textu na řeč výsledky s hlučnými výzvami, respektive velmi hlučnými výzvami.
Závěrečné myšlenky
V tomto článku jsme hovořili o modelu HierSpeech++, novém přístupu, který umožňuje robustní a efektivní syntézu řeči v nastavení nulového záběru a překonává omezení, kterým čelí současné rámce pro syntézu řeči, včetně jejich nadměrného spoléhání na velké množství školení. dat, spoléhání se na diskrétní řečové jednotky nebo předem trénovaný neurální zvukový kodek a jejich sklon k automatickému generování zvukového výstupu, který v konečném důsledku způsobuje nedostatečnou robustnost a pomalé rušení a má za následek nesprávnou výslovnost, přeskakování nebo opakování. Model HierSpeech++ je plně paralelní, nový a robustní hierarchický rámec pro syntézu řeči zaměřený na syntézu vzorků řeči v nastavení nulového záběru a pokouší se o následující příspěvky
- Použití hierarchického rámce pro syntézu řeči k ovládání a přenosu hlasových stylů a prozódie.
- Umožněte škálovatelnost dat a syntézu řeči ve vysokém rozlišení převzorkováním zvuku křivky z 16 na 48 kHz.
- Dosáhněte schopností na lidské úrovni při převodu hlasu s nulovým snímkem a úlohách převodu textu na řeč.