Artificial Intelligence

HierSpeech++: Hierarchiczne wnioskowanie wariacyjne dla syntezy mowy zerowej

Zaktualizowano on 19 grudnia 2023 r.

HierSpeech++: Hierarchiczne wnioskowanie wariacyjne dla syntezy mowy zerowej

Ostatnie zmiany i postęp w możliwościach dużych modeli językowych odegrały kluczową rolę w rozwoju struktur opartych na LLM do zadań generowania dźwięku i syntezy mowy, zwłaszcza w ustawieniu zerowym. W tradycyjnych platformach syntezy mowy nastąpił znaczny postęp w wyniku integracji dodatkowych funkcji, takich jak neuronowe kodeki audio dla dyskretnych jednostek audio i mowy. Mimo że te struktury syntezy mowy i dźwięku zapewniają zadowalające wyniki, nadal jest miejsce na ulepszenia, ponieważ obecne struktury audio oparte na LLM mają następujące trzy główne ograniczenia

Mają tendencję do automatycznego generowania sygnału wyjściowego audio, co ostatecznie powoduje brak solidności i niską prędkość zakłóceń, co skutkuje błędną wymową, pomijaniem lub powtarzaniem.
Zwykle nadmiernie polegają na dyskretnych jednostkach mowy lub wstępnie wytrenowanym neuronowym kodeku audio.
Często wymagają dużej ilości danych szkoleniowych.

Aby rozwiązać powyższe problemy i ulepszyć możliwości modeli syntezy dźwięku i mowy opartych na LLM, programiści opracowali HierSpeech++, solidny i wydajny syntezator mowy typu zero-shot do konwersji głosu i tekstu na mowę lub TTS. Struktura HierSpeech++ opiera się na wiedzy zdobytej w ramach hierarchicznych struktur syntezy mowy, co nie tylko zwiększa solidność, ale także zwiększa ekspresję syntetycznej mowy, jednocześnie zwiększając naturalność i podobieństwo mówców sztucznie generowanej mowy nawet w ustawieniu zerowym.

W tym artykule omówimy szczegółowo framework HierSpeech++ oraz przyjrzymy się architekturze modelu, jego działaniu i wynikom w porównaniu z najnowocześniejszymi modelami generowania tekstu i dźwięku. Więc zacznijmy.

HierSpeech++: Hierarchiczne wnioskowanie wariacyjne dla syntezy mowy zerowej

HierSpeech++ to szybka, solidna i wydajna platforma syntezy mowy typu zero-shot, która wykorzystuje hierarchiczny potok syntezy mowy, a dzięki przyjęciu tej kompleksowej struktury syntezy mowy model HierSpeech++ jest w stanie zmaksymalizować potencjał generowania wysokiej jakości przebiegów hierarchicznie wypełnić lukę między reprezentacjami semantycznymi i akustycznymi, przyjmując samonadzorowaną reprezentację mowy jako semantyczną reprezentację mowy, a tym samym próbując rozwiązać obecne ograniczenia adaptacji stylu. Kompleksowa struktura syntezy mowy została po raz pierwszy wprowadzona w modelu VITS i wykorzystuje VAE, czyli automatyczny koder wariacyjny, wzmocniony treningiem kontradyktoryjnym i normalizującym przepływ. Co więcej, platformy oparte na VAE z kompleksowym potokiem szkoleniowym mają możliwość generowania wysokiej jakości dźwięku w kształcie fali, przy czym jakość percepcyjnej syntezy mowy jest znacznie lepsza niż ta generowana przez inne struktury syntezy mowy.

Jakość rekonstrukcji dźwięku w tych strukturach można dodatkowo ulepszyć, stosując hierarchiczny warunkowy autoenkoder wariacyjny, taki jak używany w strukturze HierSpeech. Pomimo swojego potencjału, modele oparte na potoku szkolenia od końca do końca mają pewne ograniczenia, zwłaszcza w ustawieniu zerowym, ponieważ chociaż mogą syntetyzować próbki mowy z dźwiękiem wysokiej jakości, podobieństwo mówców w zadaniach klonowania głosu zerowego jest nadal obciążone wysokimi złożoność obliczeniowa. Z drugiej strony, modele syntezy mowy oparte na dyfuzji radzą sobie dobrze pod względem adaptacji głośników, ale nadal są dalekie od doskonałości, ponieważ wykorzystują interaktywny proces generowania, który spowalnia prędkość wnioskowania, często są podatne na zaszumione dane, a w wyniku niedopasowania między uczeniem a wnioskowaniem dwuetapowy proces generowania pomiędzy spektrogramem Mel a wygenerowaną prawdą podstawową, jakość dźwięku nie jest zadowalająca.

Aby stawić czoła problemom napotykanym przez swoich poprzedników, model HierSpeech++ wykorzystuje hierarchiczny syntezator mowy, superrozdzielczość mowy i komponent tekstu na vec, a także wprowadza ulepszony hierarchiczny syntezator mowy zbudowany na hierarchicznym warunkowym VAE lub wariacyjnym autokoderze. Próbując poprawić jakość dźwięku wykraczającą poza jakość percepcyjną, platforma HierSpeech++ przyjmuje podwójny dźwięk w celu wzmocnienia tylnej części akustycznej i poprawia uogólnianie poza dystrybucją poprzez zastosowanie hierarchicznego generatora adaptacyjnego wyposażonego w generację warunkową i bezwarunkową. Co więcej, aby rozwikłać komponenty mowy i ulepszyć informacje semantyczne związane z mówiącym i niezależnym od mówiącego, platforma HierSpeech++ przyjmuje również wielościeżkowy koder semantyczny oparty na teorii filtra źródła. Dzięki zastosowaniu wariacyjnego autoenkodera model HierSpeech++ może łączyć się i uczyć reprezentacji w sposób hierarchiczny, a także stopniowo dostosowywać się do docelowego stylu głosu, aby wywnioskować dźwięk w kształcie fali. Dodatkowo struktura HierSpeech++ wdraża również dwukierunkową sieć normalizujących transformatorów przepływu, próbując poprawić adaptację, a także zmniejszyć rozbieżność między szkoleniem a wnioskowaniem.

Ogólnie rzecz biorąc, model HierSpeech++ jest w pełni równoległym, nowatorskim i solidnym strukturą hierarchicznej syntezy mowy, której celem jest synteza próbek mowy w ustawieniu zerowym i ma na celu wniesienie następującego wkładu:

Używanie hierarchicznej struktury syntezy mowy do kontrolowania i przenoszenia stylów głosu i prozodii.
Włącz skalowalność danych i syntezę mowy w wysokiej rozdzielczości poprzez zwiększenie próbkowania sygnału audio z 16 do 48 kHz.
Osiągnij umiejętności na poziomie ludzkim w zakresie zero-shotowej konwersji głosu i zadań zamiany tekstu na mowę.

HierSpeech++: Komponenty modelu i architektura

Jak już wspomniano, HierSpeech++ to model syntezy mowy o zerowym zasięgu, który stara się osiągnąć dokładność na poziomie ludzkim pod względem podobieństwa głosu i naturalności mowy.

Model HierSpeech++ składa się z różnych komponentów, w tym hierarchicznego syntezatora mowy, super rozdzielczości mowy i funkcji zamiany tekstu na sygnał TTV, które synchronizują się ze sobą, ułatwiając uczenie każdego modelu, który może efektywnie wykorzystywać dużą ilość niskich częstotliwości. rozdzielczość danych mowy do klonowania głosu. Podzielmy strukturę i porozmawiajmy o każdym komponencie.

Reprezentacje mowy

Ponieważ ludzkie pasmo częstotliwości jest mniejsze niż 4 kHz, na potrzeby syntezy mowy platforma HierSpeech++ próbkuje dźwięk do częstotliwości 16 kHz. Ponadto do rekonstrukcji sygnału głosowego istotne jest użycie co najmniej dwukrotnie większej składowej częstotliwości głosu, a także zmniejszenie próbki audio. Aby osiągnąć lepszą jakość percepcyjną, platforma HierSpeech++ wykorzystuje superrozdzielczość mowy lub komponent SpeechSR do próbkowania próbki audio w górę z 16 do 48 kHz i wykorzystuje reprezentacje o niskiej rozdzielczości do reprezentacji semantycznych i akustycznych.

W przypadku reprezentacji akustycznych tradycyjna struktura tekstu na mowę lub TTS wykorzystuje spektrogram Mel jako pośrednią cechę akustyczną, która jest następnie przekształcana z kształtu fali za pomocą STFT lub krótkotrwałej transformaty Fouriera. Warto jednak zauważyć, że ponieważ cechy akustyczne są bogatymi reprezentacjami obejmującymi różne atrybuty, w tym treść i wymowę, informacje głosowe i inne, co utrudnia ramom wywnioskowanie tych reprezentacji, co często prowadzi do błędnej wymowy, braku podobieństwa, lub nadmierne wygładzenie mowy.

Idąc dalej, aby wyodrębnić ciągłą reprezentację semantyczną z kształtu fali, platforma HierSpeech++ wykorzystuje strukturę Wav2Vec w przeciwieństwie do popularnego podejścia do reprezentacji semantycznej polegającej na samonadzorowanej reprezentacji mowy. Chociaż podejście to stanowi dobrą alternatywę dla bogatego modelu jednojęzycznego, wpływa ono na zerowe możliwości klonowania głosu modelu pod względem zarówno solidności, jak i ekspresji, szczególnie w przypadku wielojęzycznych zadań syntezy mowy.

Hierarchiczny syntezator mowy

Komponent Hierarchical Speech Synthesizer jest kamieniem węgielnym platformy HierSpeech++, ponieważ umożliwia szkolenie modułu bez użycia jakichkolwiek etykiet, takich jak transkrypcje tekstowe lub identyfikator mówcy, i poleganie wyłącznie na danych mowy. Aby zwiększyć pojemność akustyczną, poprzednie, najnowocześniejsze modele syntezy mowy zastąpiły spektrogram Mel spektrogramem liniowym, jednak podejście to minimalizuje wynik rozbieżności KL pod względem okresowości wysokości tonu, PESQ, wyniku głosu i bezgłosu, a nawet Mel- odległość spektrogramu. Hierarchiczny syntezator mowy wykorzystuje koder akustyczny z podwójnym dźwiękiem, aby sprostać wyzwaniom związanym z wykorzystaniem spektrogramu liniowego zaprojektowanego w celu przechwytywania bogatszych i bardziej wszechstronnych reprezentacji akustycznych. Struktura wykorzystuje również koder kształtu fali do destylacji informacji z surowego sygnału audio i łączy je z reprezentacją spektrogramu liniowego, a na koniec wyświetla reprezentację akustyczną jako połączoną reprezentację.

Co więcej, aby poradzić sobie z reprezentacjami semantycznymi niezależnymi od mówcy i związanymi z mówcą, struktura HierSpeech++ wykorzystuje wielościeżkową, samonadzorowaną reprezentację mowy, w której każda indywidualna reprezentacja jest używana do hierarchicznej adaptacji stylu z reprezentacjami semantycznymi wyodrębnionymi w celu uzyskania informacji językowych z środkowa warstwa wiadomości MMS. Struktura wykorzystuje również częstotliwość podstawową w celu poprawy rozplątania mowy, co umożliwia ręczne kontrolowanie konturu wysokości dźwięku. Struktura wykorzystuje również reprezentację językową jako informację warunkową do hierarchicznego generowania kształtu fali audio i wykorzystuje ulepszoną reprezentację językową reprezentacji samonadzorowanej. Warto również zauważyć, że reprezentacje akustyczne wyodrębnione podczas szkolenia przy użyciu kształtu fali i spektrogramu liniowego są wykorzystywane do rekonstrukcji surowego kształtu fali audio, a hierarchiczne wnioskowanie wariacyjne służy do powiązania reprezentacji akustycznych z wielościeżkowymi reprezentacjami językowymi. W frameworku zastosowano również a hierarchiczny generator adaptacyjny(HAG) w celu wygenerowania próbek semantycznych w kształcie fali, a wygenerowane reprezentacje zawierające reprezentację stylu i reprezentację akustyczną są podawane do źródła i generatorów przebiegów.

Napisz do Veca

Do syntezy tekstu na mowę struktura HierSpeech++ wykorzystuje model tekstu na vec lub TTV, który generuje częstotliwość podstawową i reprezentację semantyczną z sekwencji tekstu, a także wykorzystuje monotoniczne wyszukiwanie dopasowania w połączeniu z wariacyjnym autokoderem w celu wewnętrznego wyrównania mowy i tekstu. Struktura HierSpeech++ zastępuje następnie spektrogram liniowy samonadzorowaną reprezentacją liniową i rekonstruuje tę samą reprezentację, aby służyć jako wynik dla TTV.

Dodatkowo struktura HierSpeech++ przewiduje częstotliwość podstawową z czterokrotnie większą rozdzielczością w porównaniu z samonadzorowanymi reprezentacjami mowy i wykorzystuje warunkową reprezentację tekstu jako informację wstępną. W wyniku informacji semantycznych z samonadzorowanych reprezentacji mowy struktura jest w stanie przenieść styl prozodii w tekście do modelu vec i przekazuje ukrytą reprezentację do kodera fonemów, aby zwiększyć możliwości językowe reprezentacji.

SpeechSR lub superrozdzielczość mowy

Struktura HierSpeech++ trenuje na zbiorze danych o stosunkowo niskiej rozdzielczości pod względem wydajności i dostępności danych, a następnie próbkuje przebieg mowy o niskiej rozdzielczości do kształtu fali mowy o wysokiej rozdzielczości z 16 do 48 kHz. Struktura zastępuje również transponowany splot najbliższym sąsiadem upsamplerem, o którym wcześniej wiadomo, że łagodzi artefakty w wyniku transponowanych splotów.

Architektura

Koder treści modelu tekstu na vec składa się z 16 nieprzypadkowych warstw WaveNet o rozmiarze jądra 5 i rozmiarze ukrytym 256, podczas gdy dekoder treści składa się z 8 nieprzypadkowych warstw WaveNet o rozmiarze jądra 5 i ukryty rozmiar 512. Komponent kodera tekstu składa się z trzech prozodycznych warunkowych sieci transformatorowych i trzech bezwarunkowych sieci transformatorowych o rozmiarze jądra 9, rozmiarze filtra 1024 i ukrytym rozmiarze 256, przy czym koder tekstu ma współczynnik porzucania 0.2. Aby zakodować sąsiadujące informacje i usprawnić adaptację stylu prozodycznego, framework przyjmuje CNN z rozmiarem jądra wynoszącym 5 w blokach transformatora. Z kolei SpeechSR składa się z pojedynczego bloku AMP z 32 kanałami początkowymi, bez obecności warstwy upsamplingu. Struktura wykorzystuje upsampler najbliższego sąsiada do upsamplingu ukrytych reprezentacji i wykorzystuje MPD jako dyskryminator z sześcioma różnymi rozmiarami okien i czterema dyskryminatorami podzakresów.

Powyższy rysunek przedstawia potok wnioskowania struktury HierSpeech++, który rozpoczyna się od wyodrębnienia reprezentacji semantycznych z dźwięku przy częstotliwości 16 kHz i częstotliwości podstawowej przy użyciu algorytmu YAPPT. Zanim częstotliwość podstawowa będzie mogła zostać doprowadzona do syntezatora hierarchicznego, jest ona normalizowana przy użyciu odchyleń standardowych i średnich źródła dźwięku, a następnie znormalizowana częstotliwość podstawowa jest denormalizowana przy użyciu odchylenia standardowego i średniego docelowego dźwięku. W przypadku ekstrakcji tekstu na mowę struktura HierSpeech++ wyodrębnia reprezentacje tekstowe zamiast reprezentacji mowy i wykorzystuje model tekstu na mowę w celu wygenerowania reprezentacji semantycznej z podpowiedzi prozodii.

Eksperyment i wyniki

Struktura wykorzystuje publicznie dostępny zbiór danych LibriTTS do uczenia hierarchicznego komponentu syntezatora. Pierwszym krokiem jest przeszkolenie modelu za pomocą podzbiorów zbioru danych typu trainclean i wykorzystanie pozostałych danych w celu umożliwienia lepszego transferu stylu głosu. Dodatkowo, aby poprawić różnorodność i solidność, platforma skaluje zbiór danych do 1 kHz, jak pokazano na poniższym rysunku.

Rekonstrukcja, zadania resyntezy i konwersja głosu

Aby ocenić wydajność platformy HierSpeech++ w zadaniach rekonstrukcji i ponownej syntezy, programiści przeprowadzili siedem obiektywnych wskaźników, a wyniki przedstawiono na poniższych rysunkach odpowiednio dla zadań rekonstrukcji i ponownej syntezy.

W przypadku zadań konwersji głosu platforma wykorzystuje do oceny dwie subiektywne metryki: podobieństwo głosu MOS lub sMOS i średnia ocena naturalności nMOS z trzema obiektywnymi metrykami naturalności i dwiema obiektywnymi metrykami podobieństwa.

Idąc dalej, głównym celem frameworka HierSpeech++ jest umożliwienie syntezy mowy typu zero-shot i ocena jego wydajności w trybie zero-shot, porównywanie go z innymi modelami bazowymi, takimi jak AutoVC, VoiceMixer, Modele oparte na dyfuzjii wiele więcej, a wyniki przedstawiono na poniższym rysunku.

Poniższe rysunki pokazują zero-shot tekstu na mowę wyniki odpowiednio z hałaśliwymi i bardzo hałaśliwymi monitami.

Final Thoughts

W tym artykule mówiliśmy o modelu HierSpeech++, nowatorskim podejściu umożliwiającym solidną i skuteczną syntezę mowy w trybie zero-shot oraz przezwyciężającym ograniczenia napotykane przez obecne ramy syntezy mowy, w tym nadmierne poleganie na dużej liczbie szkoleń danych, poleganie na odrębnych jednostkach mowy lub wstępnie wyszkolonym neuronowym kodeku audio oraz ich tendencja do automatycznego generowania sygnału audio, co ostatecznie powoduje brak solidności i małą prędkość zakłóceń, a w rezultacie błędną wymowę, pomijanie lub powtarzanie. Model HierSpeech++ to w pełni równoległy, nowatorski i solidny, hierarchiczny framework syntezy mowy, którego celem jest synteza próbek mowy w ustawieniu zerowym i próbuje wnieść następujący wkład

Używanie hierarchicznej struktury syntezy mowy do kontrolowania i przenoszenia stylów głosu i prozodii.
Włącz skalowalność danych i syntezę mowy w wysokiej rozdzielczości poprzez zwiększenie próbkowania sygnału audio z 16 do 48 kHz.
Osiągnij umiejętności na poziomie ludzkim w zakresie zero-shotowej konwersji głosu i zadań zamiany tekstu na mowę.

Powiązane tematy:HierMowa synteza mowy zerowy strzał

W przyszłym

Rewolucja w umiejętnościach fizycznych: robot AI przewyższa ludzkie możliwości w grze Labirynt Marble

Nie przegap

Mamba: Nowa definicja modelowania sekwencji i ulepszania architektury transformatorów

Kunal Kejriwal

„Inżynier z zawodu, pisarz z zamiłowania”. Kunal jest pisarzem technicznym, który głęboko kocha i rozumie sztuczną inteligencję i uczenie maszynowe, a którego celem jest upraszczanie złożonych koncepcji w tych dziedzinach poprzez swoją wciągającą i pouczającą dokumentację.

Zjednoczyć.AI

HierSpeech++: Hierarchiczne wnioskowanie wariacyjne dla syntezy mowy zerowej

Artificial Intelligence

HierSpeech++: Hierarchiczne wnioskowanie wariacyjne dla syntezy mowy zerowej

Spis treści

HierSpeech++: Hierarchiczne wnioskowanie wariacyjne dla syntezy mowy zerowej