Umělá inteligence

OpenVoice: Univerzální Instantní Klonování Hlasu

Published February 5, 2024

Updated April 4, 2026

Kunal Kejriwal

V syntéze Text-to-Speech (TTS), Instantní Klonování Hlasu (IVC) umožňuje modelu TTS klonovat hlas libovolného referenčního mluvčího pomocí krátkého audio vzorku, bez nutnosti dalšího trénování pro referenčního mluvčího. Tato technika je také známá jako Zero-Shot Text-to-Speech Synthesis. Přístup Instantního Klonování Hlasu umožňuje flexibilní přizpůsobení generovaného hlasu a prokazuje významnou hodnotu v širokém rozsahu skutečných situací, včetně přizpůsobených chatbotů, vytváření obsahu a interakcí mezi lidmi a Large Language Modely (LLM).

Ačkoli současné rámce pro klonování hlasu dělají svou práci dobře, jsou zatíženy několika výzvami v oblasti, včetně Flexibilní Kontrola Stylu Hlasu, tj. modely postrádají schopnost flexibilně manipulovat styly hlasu po klonování hlasu. Další významnou překážkou, se kterou se setkávají současné rámce pro instantní klonování, je Zero-Shot Cross-Lingual Voice Cloning , tj. pro účely trénování vyžadují současné modely přístup k rozsáhlé datové sadě massive-speaker multi-lingual nebo MSML, bez ohledu na jazyk.

Abysme tyto problémy vyřešili a přispěli ke zlepšení modelů instantního klonování hlasu, vývojáři pracovali na OpenVoice, univerzálním rámci pro instantní klonování hlasu, který replikuje hlas libovolného uživatele a generuje řeč v několika jazycích pomocí krátkého audio klipu od referenčního mluvčího. OpenVoice prokazuje, že modely Instantního Klonování Hlasu mohou replikovat tónovou barvu referenčního mluvčího a dosáhnout jemné kontroly nad styly hlasu, včetně akcentu, rytmu, intonace, pauz a dokonce i emocí. Co je ještě působivější, je to, že rámec OpenVoice také prokazuje pozoruhodné schopnosti při dosahování zero-shot cross-lingual voice clonování pro jazyky vně datové sady MSML, což umožňuje OpenVoice klonovat hlasy do nových jazyků bez rozsáhlého předtrénování pro ten jazyk. OpenVoice dokáže dodat lepší výsledky instantního klonování hlasu, zatímco je výpočetně životaschopný s provozními náklady až 10krát nižšími než současné dostupné API s horšími výkony.

V tomto článku budeme hovořit o rámci OpenVoice v hloubce a prozkoumáme jeho architekturu, která mu umožňuje dodat lepší výkon při instantním klonování hlasu. Takže pojďme začít.

OpenVoice : Povolující Univerzální Instantní Klonování Hlasu

Jak bylo zmíněno dříve, Instantní Klonování Hlasu, také označované jako Zero-Shot Text to Speech Synthesis, umožňuje modelu TTS klonovat hlas libovolného referenčního mluvčího pomocí krátkého audio vzorku bez nutnosti dalšího trénování pro referenčního mluvčího. Instantní Klonování Hlasu vždy bylo horkým výzkumným tématem s existujícími pracemi, včetně XTTS a VALLE rámců, které extrahují mluvčího embedding a/nebo akustické tokeny z referenčního audio, které slouží jako podmínka pro auto-regresivní model. Auto-regresivní model pak generuje akustické tokeny sekvenčně a poté dekóduje tyto tokeny do surového audio signálu.

Ačkoli auto-regresivní modely instantního klonování hlasu klonují tónovou barvu pozoruhodně, selhávají při manipulaci s ostatními parametry stylu, včetně akcentu, emocí, pauz a rytmu. Kromě toho auto-regresivní modely také zažívají nízkou inferenční rychlost a jejich provozní náklady jsou quite vysoké. Existující přístupy, jako je rámec YourTTS, využívají ne-auto-regresivní přístup, který prokazuje významně rychlejší inferenční řeč než auto-regresivní rámce, ale jsou stále neschopné poskytnout uživatelům flexibilní kontrolu nad parametry stylu. Kromě toho, både auto-regresivní a ne-auto-regresivní rámce pro instantní klonování hlasu vyžadují přístup k rozsáhlé datové sadě massive-speaker multi-lingual nebo MSML pro cross-lingual voice clonování.

Abysme tyto problémy vyřešili, vývojáři pracovali na OpenVoice, otevřeném rámci pro instantní klonování hlasu, který má za cíl vyřešit následující problémy, se kterými se setkávají současné IVC rámce.

První výzvou je umožnit IVC rámcům mít flexibilní kontrolu nad parametry stylu, kromě tónové barvy, včetně akcentu, rytmu, intonace a pauz. Parametry stylu jsou zásadní pro generování v kontextu přirozených konverzací a řeči, spíše než monotónního čtení vstupního textu.
Druhá výzvou je umožnit IVC rámcům klonovat cross-lingual hlasy v zero-shot nastavení.
Třetí výzvou je dosáhnout vysokých reálných inferenčních rychlostí bez zhoršení kvality.

Abysme tyto dvě první překážky vyřešili, architektura rámce OpenVoice je navržena tak, aby rozdělila komponenty v hlasu na maximum. Kromě toho OpenVoice generuje tónovou barvu, jazyk a ostatní hlasové funkce nezávisle, ermögňující rámcům flexibilně manipulovat jednotlivými jazykovými typy a styly hlasu. Rámec OpenVoice vyřeší třetí výzvu implicitně, protože rozdělená struktura snižuje výpočetní složitost a požadavky na velikost modelu.

OpenVoice : Metodologie a Architektura

Technický rámec rámce OpenVoice je efektivní a překvapivě jednoduchý na implementaci. Není žádným tajemstvím, že klonování tónové barvy pro libovolného mluvčího, přidání nového jazyka a umožnění flexibilní kontroly nad parametry hlasu současně může být výzvou. Je to proto, že provedení těchto tří úkolů současně vyžaduje, aby řízené parametry protínaly velkou část kombinatorických dat. Kromě toho, v běžné jednoduché text-to-speech syntéze, pro úkoly, které nevyžadují klonování hlasu, je snazší přidat kontrolu nad ostatními parametry stylu. Na základě toho, rámec OpenVoice má za cíl rozdělit úkoly Instantního Klonování Hlasu na podúkoly. Model navrhuje použít základní mluvčího model Text-to-Speech pro kontrolu jazyka a stylů a využívá tónovou barvu konvertoru pro zařazení referenční tónové barvy do vygenerovaného hlasu. Následující obrázek demonstruje architekturu rámce.

V jádru, rámec OpenVoice využívá dvě komponenty: tónovou barvu konvertoru a základní mluvčího model Text-to-Speech nebo TTS model. Základní mluvčího model Text-to-Speech je buď jednoduchý mluvčí nebo multi-mluvčí model, který umožňuje přesnou kontrolu nad parametry stylu, jazyka a akcentu. Model generuje hlas, který je poté předán tónové barvě konvertoru, který mění základní mluvčího tónovou barvu na tónovou barvu referenčního mluvčího.

Rámec OpenVoice nabízí mnoho flexibility, pokud jde o základní mluvčího model Text-to-Speech, protože může využít model VITS s malými úpravami, které umožňují přijímat jazykové a stylové embeddingy v jeho duration predictor a text encoder. Rámec může také využít modely, jako je Microsoft TTS, které jsou komerčně dostupné, nebo může nasadit modely, jako je InstructTTS, které jsou schopné přijímat stylové prompty. Prozatím, rámec OpenVoice využívá model VITS, ačkoli ostatní modely jsou také životaschopnou možností.

Přichází na druhou komponentu, tónová barva konvertoru je encoder-decoder komponenta, která obsahuje invertibilní normalizující tok v centru. Encoder komponenta v tónové barvě konvertoru je jeden-rozměrný CNN, který přijímá krátký čas Fourier transformovaný spektrum základního mluvčího modelu Text-to-Speech jako vstup. Encoder poté generuje feature mapy jako výstup. Tónová barva extraktoru je jednoduchý dvou-rozměrný CNN, který operuje na mel-spectrogramu vstupního hlasu a generuje jeden feature vektor jako výstup, který kóduje informace o tónové barvě. Normalizující tok vrstvy přijímají feature mapy generované encoderm jako vstup a generují feature reprezentaci, která zachovává všechny stylové vlastnosti, ale eliminuje tónovou barvu informace. Rámec OpenVoice poté aplikuje normalizující tok vrstvy v opačném směru a bere feature reprezentace jako vstup a výstup normalizující tok vrstvy. Rámec poté dekóduje normalizující tok vrstvy do surových vlnových tvarů pomocí stacku transponovaných jeden-rozměrných konvolucí.

Celá architektura rámce OpenVoice je feed forward bez použití auto-regresivní komponenty. Tónová barva konvertoru komponenta je podobná hlasové konverzi na konceptuální úrovni, ale se liší ve funkčnosti, trénovacích objektech a induktivním bias v modelové struktuře. Normalizující tok vrstvy sdílejí stejnou strukturu jako flow-based text-to-speech modely, ale se liší ve funkčnosti a trénovacích objektech.

Kromě toho existuje jiný přístup k extrakci feature reprezentací, metoda implementovaná rámcem OpenVoice dodává lepší audio kvalitu. Je také worth noting, že rámec OpenVoice nemá v úmyslu vynalézat komponenty v modelové architektuře, ale obě hlavní komponenty, tj. tónová barva konvertoru a základní mluvčího model Text-to-Speech, jsou obě zdrojové z existujících prací. Hlavním cílem rámce OpenVoice je vytvořit rozdělený rámec, který odděluje jazykovou kontrolu a styl hlasu od tónové barvy klonování. Ačkoli přístup je poměrně jednoduchý, je velmi efektivní, zejména na úkolech, které kontrolují styly a akcenty, nebo nové jazykové generalizační úkoly. Dosáhnutí stejné kontroly, když se využívá spojený rámec, vyžaduje大量 výpočetních a dat, a negeneralizuje se dobře na nové jazyky.

V jádru, hlavní filozofie rámce OpenVoice je rozdělit generování jazyka a stylů hlasu od generování tónové barvy. Jednou z hlavních silných stránek rámce OpenVoice je, že klonovaný hlas je plynulý a vysoké kvality, pokud základní mluvčího model Text-to-Speech mluví plynule.

OpenVoice : Experiment a Výsledky

Hodnocení úkolů klonování hlasu je obtížné kvůli mnoha důvodům. Za prvé, existující práce často využívají různé trénovací a testovací data, což činí srovnání těchto prací intrinsicky nespravedlivým. Ačkoli lze využít crowd-sourcing k hodnocení metrik, jako je Mean Opinion Score, obtížnost a rozmanitost testovacích dat budou mít významný vliv na celkový výsledek. Za druhé, různé metody klonování hlasu mají různé trénovací data, a rozmanitost a rozsah těchto dat mají významný vliv na výsledky. Konečně, hlavní cíl existujících prací se liší od sebe, a proto se liší ve funkčnosti.

Due to the three reasons mentioned above, it is unfair to compare existing voice cloning frameworks numerically. Instead, it makes much more sense to compare these methods qualitatively.

Přesné Klonování Tónové Barvy

To analyze its performance, developers build a test set with anonymous individuals, game characters and celebrities form the reference speaker base, and has a wide voice distribution including both neutral samples and unique expressive voices. The OpenVoice framework is able to clone the reference tone color and generate speech in multiple languages and accents for any of the reference speakers and the 4 base speakers.

Flexibilní Kontrola nad Styly Hlasu

One of the objectives of the OpenVoice framework is to control the speech styles flexibly using the tone color converter that can modify the color tone while preserving all other voice features and properties.

Experiments indicate that the model preserves the voice styles after converting to the reference tone color. In some cases however, the model neutralizes the emotions slightly, a problem that can be resolved by passing less information to the flow layers so that they are unable to get rid of the emotion. The OpenVoice framework is able to preserve the styles from the base voice thanks to its use of a tone color converter. It allows the OpenVoice framework to manipulate the base speaker text to speech model to easily control the voice styles.

Cross-Lingual Voice Clone

The OpenVoice framework does not include any massive-speaker data for an unseen language, yet it is able to achieve near cross-lingual voice cloning in a zero-shot setting. The cross-lingual voice cloning capabilities of the OpenVoice framework are two folds:

The model is able to clone the tone color of the reference speaker accurately when the language of the reference speaker goes unseen in the multi-speaker multi language or MSML dataset.
Furthermore, in the same event of the language of the reference speaker goes unseen, the OpenVoice framework is capable of cloning the voice of the reference speaker, and speak in the language one the condition that the base speaker text to speech model supports the language.

Závěrečné Myšlenky

V tomto článku jsme hovořili o OpenVoice, univerzálním rámci pro instantní klonování hlasu, který replikuje hlas libovolného uživatele a generuje řeč v několika jazycích pomocí krátkého audio klipu od referenčního mluvčího. Hlavní intuice za OpenVoice je, že pokud model nemusí provádět tónovou barvu klonování referenčního mluvčího, rámec může využít základní mluvčího model Text-to-Speech pro kontrolu jazyka a stylů hlasu.

OpenVoice prokazuje, že modely Instantního Klonování Hlasu mohou replikovat tónovou barvu referenčního mluvčího a dosáhnout jemné kontroly nad styly hlasu, včetně akcentu, rytmu, intonace, pauz a dokonce i emocí. OpenVoice dokáže dodat lepší výsledky instantního klonování hlasu, zatímco je výpočetně životaschopný s provozními náklady až 10krát nižšími než současné dostupné API s horšími výkony.

Unite.AI