Sztuczna inteligencja

OpenVoice: Uniwersalne Natychmiastowe Klonowanie Głosu

Published February 5, 2024

Updated April 4, 2026

Kunal Kejriwal

W syntezie mowy z tekstu (TTS), natychmiastowe klonowanie głosu (IVC) umożliwia modelowi TTS sklonowanie głosu dowolnego mówcy odniesienia przy użyciu krótkiego próbku audio, bez potrzeby dodatkowego szkolenia dla mówcy odniesienia. Ta technika jest również znana jako syntezа mowy z tekstu w ustawieniu zero-shot. Podejście natychmiastowego klonowania głosu pozwala na elastyczną personalizację wygenerowanego głosu i wykazuje znaczącą wartość w szerokim zakresie sytuacji rzeczywistych, w tym w przypadku spersonalizowanych czatbotów, tworzenia treści i interakcji między ludźmi a dużymi modelami językowymi (LLM).

Chociaż obecne ramy klonowania głosu wykonują swoją pracę dobrze, są one naznaczone kilkoma wyzwaniami w tej dziedzinie, w tym elastycznym kontrolowaniem stylu głosu, czyli modele nie posiadają możliwości elastycznego manipulowania stylami głosu po sklonowaniu głosu. Kolejnym dużym utrudnieniem spotykanym przez obecne ramy klonowania głosu jest klonowanie głosu w ustawieniu zero-shot dla języków krzyżowych, czyli do celów szkoleniowych, obecne modele wymagają dostępu do ogromnego zbioru danych mówców wielojęzycznych lub MSML, niezależnie od języka.

Aby rozwiązać te problemy i przyczynić się do udoskonalenia modeli natychmiastowego klonowania głosu, deweloperzy pracowali nad OpenVoice, uniwersalnym frameworkiem klonowania głosu, który replikuje głos dowolnego użytkownika i generuje mowę w wielu językach przy użyciu krótkiego klipu audio od mówcy odniesienia. OpenVoice demonstruje, że modele natychmiastowego klonowania głosu mogą replikować kolor tonu mówcy odniesienia i osiągać szczegółową kontrolę nad stylami głosu, w tym akcentem, rytmem, intonacją, pauzami i nawet emocjami. Co więcej, framework OpenVoice wykazuje zdumiewające możliwości w osiąganiu klonowania głosu w ustawieniu zero-shot dla języków zewnętrznych w stosunku do zbioru danych MSML, pozwalając OpenVoice na klonowanie głosów w nowe języki bez konieczności rozległego wstępnego szkolenia dla tego języka. OpenVoice jest w stanie dostarczyć lepsze wyniki natychmiastowego klonowania głosu, będąc jednocześnie kompatybilnym pod względem obliczeniowym, z kosztami operacyjnymi nawet o 10 razy mniejszymi niż w przypadku obecnie dostępnych API o gorszych wynikach.

W tym artykule będziemy rozmawiać o frameworku OpenVoice w głębi, i będziemy odkrywać jego architekturę, która pozwala mu dostarczyć lepsze wyniki w zadaniach natychmiastowego klonowania głosu. Zatem zacznijmy.

OpenVoice : Włączanie Uniwersalnego Natychmiastowego Klonowania Głosu

Jak wspomniano wcześniej, natychmiastowe klonowanie głosu, również określane jako syntezа mowy z tekstu w ustawieniu zero-shot, pozwala modelowi TTS sklonować głos dowolnego mówcy odniesienia przy użyciu krótkiego próbku audio, bez potrzeby dodatkowego szkolenia dla mówcy odniesienia. Technika ta zawsze była gorącym tematem badań z istniejącymi pracami, w tym frameworkami XTTS i VALLE, które wyodrębniają embedding mówcy i/lub tokeny akustyczne z audio odniesienia, które służą jako warunek dla modelu autoregresyjnego. Model autoregresyjny generuje następnie tokeny akustyczne sekwencyjnie, a następnie dekoduje te tokeny w surowy sygnał audio.

Chociaż autoregresyjne modele natychmiastowego klonowania głosu sklonowują kolor tonu w sposób godny uwagi, nie radzą sobie z manipulowaniem innymi parametrami stylu, w tym akcentem, emocjami, pauzami i rytmem. Ponadto, modele autoregresyjne doświadczają niskiej szybkości inferencji, a ich koszty operacyjne są dość wysokie. Istniejące podejścia, takie jak framework YourTTS, wykorzystują podejście nieautoregresyjne, które wykazuje znacznie szybszą inferencję mowy w porównaniu z frameworkami autoregresyjnymi, ale nadal nie są w stanie zapewnić użytkownikom elastycznej kontroli nad parametrami stylu. Co więcej, zarówno autoregresyjne, jak i nieautoregresyjne frameworki klonowania głosu wymagają dostępu do dużego zbioru danych mówców wielojęzycznych lub MSML do klonowania głosu w ustawieniu krzyżowym.

Aby rozwiązać wyzwania stojące przed obecnymi frameworkami klonowania głosu, deweloperzy pracowali nad OpenVoice, otwartym frameworkiem klonowania głosu, który ma na celu rozwiązanie następujących wyzwań stojących przed obecnie frameworkami IVC.

Pierwszym wyzwaniem jest umożliwienie frameworkom IVC elastycznej kontroli nad parametrami stylu, w tym akcentem, rytmem, intonacją i pauzami. Parametry stylu są niezbędne do generowania naturalnych rozmów i mowy, a nie monotonnego narracji tekstu wejściowego.
Drugim wyzwaniem jest umożliwienie frameworkom IVC klonowania głosu w ustawieniu zero-shot.
Ostatnim wyzwaniem jest osiągnięcie wysokich szybkości inferencji w czasie rzeczywistym bez pogorszenia jakości.

Aby rozwiązać pierwsze dwa wyzwania, architektura frameworku OpenVoice została zaprojektowana w taki sposób, aby oddzielić składniki głosu w najlepszy możliwy sposób. Ponadto, OpenVoice generuje kolor tonu, język i inne cechy głosu niezależnie, umożliwiając frameworkowi elastyczną manipulację poszczególnymi typami języka i stylami głosu. Framework OpenVoice rozwiązuje trzecie wyzwanie domyślnie, ponieważ oddzielna struktura redukuje złożoność obliczeniową i wymagania dotyczące rozmiaru modelu.

OpenVoice : Metodologia i Architektura

Techniczna struktura frameworku OpenVoice jest skuteczna i zaskakująco prosta w implementacji. Nie jest żadnym sekretem, że klonowanie koloru tonu dla dowolnego mówcy, dodawanie nowego języka i umożliwienie elastycznej kontroli nad parametrami głosu jednocześnie może być wyzwaniem. Jest to spowodowane tym, że wykonanie tych trzech zadań jednocześnie wymaga, aby kontrolowane parametry przecinały się przy użyciu dużej ilości kombinatorycznych zbiorów danych. Ponadto, w regularnej syntezie mowy z tekstu dla jednego mówcy, dla zadań, które nie wymagają klonowania głosu, jest łatwiej dodać kontrolę nad innymi parametrami stylu. W oparciu o to, framework OpenVoice ma na celu oddzielić zadania klonowania głosu na podzadania. Model proponuje wykorzystanie podstawowego modelu TTS mówcy do kontrolowania języka i parametrów stylu, oraz zastosowanie konwertera koloru tonu w celu uwzględnienia koloru tonu odniesienia w wygenerowanym głosie. Poniższy rysunek przedstawia architekturę frameworku.

W swojej istocie, framework OpenVoice wykorzystuje dwa składniki: konwerter koloru tonu i podstawowy model TTS mówcy. Podstawowy model TTS mówcy jest modelem jednego mówcy lub wielu mówców, który pozwala na precyzyjną kontrolę nad parametrami stylu, językiem i akcentem. Model generuje głos, który jest następnie przekazywany do konwertera koloru tonu, który zmienia kolor tonu mówcy podstawowego na kolor tonu mówcy odniesienia.

Framework OpenVoice oferuje wiele elastyczności, jeśli chodzi o podstawowy model TTS mówcy, ponieważ może on wykorzystywać model VITS z niewielkimi modyfikacjami, które pozwalają mu akceptować embedding języka i stylu w swoim predykatorze czasu trwania i kodzie tekstu. Framework może również wykorzystywać modele takie jak Microsoft TTS, które są tanie komercyjnie, lub może wdrożyć modele takie jak InstructTTS, które są w stanie akceptować prompty stylu. Na razie framework OpenVoice wykorzystuje model VITS, chociaż inne modele są również możliwe.

Przechodząc do drugiego składnika, konwerter koloru tonu jest składnikiem encoder-decoder z odwracalnym przepływem normalizującym w środku. Składnik encoder w konwerterze koloru tonu jest jednowymiarową siecią CNN, która akceptuje spektrum Fouriera krótkiego czasu podstawowego modelu TTS mówcy jako swoje wejście. Encoder generuje mapy cech jako wyjście. Ekstraktor koloru tonu jest prostą dwuwymiarową siecią CNN, która działa na mel-spektrogramie wejściowego głosu i generuje pojedynczy wektor cech jako wyjście, który koduje informacje o kolorze tonu. Warstwy przepływu normalizującego akceptują mapy cech wygenerowane przez encoder jako wejście i generują reprezentację cech, która zachowuje wszystkie właściwości stylu, ale eliminuje informacje o kolorze tonu. Framework OpenVoice stosuje warstwy przepływu normalizującego w odwrotnym kierunku i akceptuje reprezentacje cech jako wejście i generuje warstwy przepływu normalizującego jako wyjście. Następnie framework dekoduje warstwy przepływu normalizującego w surowe sygnały audio przy użyciu stosu odwróconych jednowymiarowych splotów.

Cała architektura frameworku OpenVoice jest feed forward bez użycia żadnych składników autoregresyjnych. Składnik konwertera koloru tonu jest podobny do konwersji głosu na poziomie konceptualnym, ale różni się pod względem funkcjonalności, celów szkoleniowych i indukcyjnego zaufania w strukturze modelu. Warstwy przepływu normalizującego mają taką samą strukturę, jak modele mowy oparte na przepływie, ale różnią się pod względem funkcjonalności i celów szkoleniowych.

Ponadto, istnieje inny sposób wyodrębniania reprezentacji cech, metoda wdrożona przez framework OpenVoice dostarcza lepszej jakości audio. Jest również warto zauważyć, że framework OpenVoice nie ma zamiaru wynajdowania składników w architekturze modelu, a raczej oba główne składniki, czyli konwerter koloru tonu i podstawowy model TTS mówcy, są pochodzenia istniejących prac. Głównym celem frameworku OpenVoice jest utworzenie oddzielnego frameworku, który oddziela kontrolę języka i stylu głosu od klonowania koloru tonu. Chociaż podejście jest dość proste, jest skuteczne, szczególnie w zadaniach kontroli stylu i akcentu lub ogólnych zadaniach językowych. Osiągnięcie takiej samej kontroli przy użyciu połączonego frameworku wymaga dużej ilości obliczeń i danych i nie generalizuje się dobrze do nowych języków.

W swojej istocie, główną filozofią frameworku OpenVoice jest oddzielenie generowania języka i stylów głosu od generowania koloru tonu. Jedną z głównych zalet frameworku OpenVoice jest to, że sklonowany głos jest płynny i wysokiej jakości, o ile podstawowy model TTS mówcy mówi płynnie.

OpenVoice : Eksperyment i Wyniki

Ocena zadań klonowania głosu jest trudnym celem z wielu powodów. Po pierwsze, istniejące prace często wykorzystują różne dane szkoleniowe i testowe, co sprawia, że porównywanie tych prac jest wewnętrznie niesprawiedliwe. Chociaż crowdsourcing może być wykorzystany do oceny metryk, takich jak średni wskaźnik opinii, trudność i różnorodność danych testowych będą miały znaczący wpływ na ogólny wynik. Po drugie, różne metody klonowania głosu mają różne dane szkoleniowe, a różnorodność i skala tych danych wpływają na wyniki w znaczący sposób. Wreszcie, główny cel istniejących prac często się różni, więc różnią się one pod względem funkcjonalności.

Ze względu na trzy powyższe powody, nie jest fair porównywać istniejące frameworki klonowania głosu w sposób numeryczny. Zamiast tego, ma więcej sensu porównywać te metody jakościowo.

Dokładne Klonowanie Koloru Tonu

Aby przeanalizować jego wyniki, deweloperzy budują zestaw testowy z anonimowymi osobami, postaciami z gier i celebrytami, tworząc bazę mówców odniesienia, i mają szerokie rozłożenie głosu, w tym zarówno neutralne próbki, jak i unikalne głosy wyraziste. Framework OpenVoice jest w stanie sklonować kolor tonu odniesienia i generować mowę w wielu językach i akcentach dla dowolnego z mówców odniesienia i 4 podstawowych mówców.

Elastyczna Kontrola nad Stylami Głosu

Jednym z celów frameworku OpenVoice jest kontrola stylów głosu w elastyczny sposób przy użyciu konwertera koloru tonu, który może modyfikować kolor tonu, zachowując wszystkie inne cechy i właściwości głosu.

Eksperymenty wskazują, że model zachowuje style głosu po przekonwertowaniu na kolor tonu odniesienia. W niektórych przypadkach jednak model nieznacznie neutralizuje emocje, problem, który można rozwiązać, przekazując mniej informacji do warstw przepływu, tak aby nie mogły one pozbyć się emocji. Framework OpenVoice jest w stanie zachować style z głosu podstawowego dzięki zastosowaniu konwertera koloru tonu. Pozwala to frameworkowi OpenVoice na łatwą manipulację modelem TTS mówcy podstawowej, aby kontrolować style głosu.

Klonowanie Głosu w Ustawieniu Krzyżowym

Framework OpenVoice nie zawiera żadnych danych mówców wielojęzycznych dla nieznanego języka, a jednak jest w stanie osiągnąć niemal klonowanie głosu w ustawieniu zero-shot. Możliwości klonowania głosu w ustawieniu krzyżowym frameworku OpenVoice są dwojakie:

Model jest w stanie sklonować kolor tonu mówcy odniesienia dokładnie, gdy język mówcy odniesienia nie jest widoczny w zbiorze danych MSML.
Ponadto, w przypadku, gdy język mówcy odniesienia nie jest widoczny, framework OpenVoice jest w stanie sklonować głos mówcy odniesienia i mówić w języku, o ile podstawowy model TTS mówcy obsługuje ten język.

Końcowe Myśli

W tym artykule rozmawialiśmy o OpenVoice, uniwersalnym frameworku klonowania głosu, który replikuje głos dowolnego użytkownika i generuje mowę w wielu językach przy użyciu krótkiego klipu audio od mówcy odniesienia. Główną intuicją za OpenVoice jest to, że o ile model nie musi wykonywać klonowania koloru tonu mówcy odniesienia, framework może wykorzystywać podstawowy model TTS mówcy do kontrolowania języka i stylów głosu.

OpenVoice demonstruje, że modele natychmiastowego klonowania głosu mogą replikować kolor tonu mówcy odniesienia i osiągać szczegółową kontrolę nad stylami głosu, w tym akcentem, rytmem, intonacją, pauzami i nawet emocjami. OpenVoice jest w stanie dostarczyć lepsze wyniki natychmiastowego klonowania głosu, będąc jednocześnie kompatybilnym pod względem obliczeniowym, z kosztami operacyjnymi nawet o 10 razy mniejszymi niż w przypadku obecnie dostępnych API o gorszych wynikach.

Unite.AI