Inteligență artificială

OpenVoice: Clonare Vocală Instantanee Versatilă

Published February 5, 2024

Updated April 4, 2026

Kunal Kejriwal

În sinteza Text-to-Speech (TTS), Clonarea Vocii Instantanee (IVC) permite modelului TTS să cloneze vocea oricărui vorbitor de referință folosind un exemplar audio scurt, fără a necesita antrenament suplimentar pentru vorbitorul de referință. Această tehnică este cunoscută și sub numele de Sinteză Text-to-Speech Zero-Shot. Abordarea Clonării Vocii Instantanee permite personalizarea flexibilă a vocii generate și demonstrează o valoare semnificativă într-o gamă largă de situații din lumea reală, inclusiv chatbot-uri personalizate, crearea de conținut și interacțiunile dintre oameni și Modelele Lingvistice Mari (LLM).

Deși cadrele actuale de clonare a vocii își fac treaba bine, ele sunt afectate de câteva provocări în domeniu, inclusiv Controlul Flexibil al Stilului Vocii, adică modelele lipsesc capacitatea de a manipula stilurile vocii în mod flexibil după clonarea vocii. O altă piedică majoră întâlnită de cadrele actuale de clonare instantanee este Clonarea Vocii Cross-Linguală Zero-Shot, adică pentru antrenament, modelele actuale necesită acces la un set de date masiv de vorbitori multi-lingvi sau MSML, indiferent de limbă.

Pentru a aborda aceste provocări și a contribui la îmbunătățirea modelelor de clonare a vocii instantanee, dezvoltatorii au lucrat la OpenVoice, un cadru de clonare a vocii instantanee versatil care replică vocea oricărui utilizator și generează vorbire în multiple limbi folosind un clip audio scurt de la vorbitorul de referință. OpenVoice demonstrează că modelele de Clonare a Vocii Instantanee pot replica culoarea tonală a vorbitorului de referință și pot obține un control granular asupra stilurilor vocii, inclusiv accent, ritm, intonație, pauze și chiar emoții. Ce este și mai impresionant este că cadru OpenVoice demonstrează, de asemenea, capacități remarcabile în obținerea clonării vocii cross-linguale zero-shot pentru limbi externe setului de date MSML, permițând OpenVoice să cloneze voci în limbi noi fără antrenament prealabil extins pentru acea limbă. OpenVoice reușește să ofere rezultate superioare de clonare a vocii instantanee, fiind în același timp viabil din punct de vedere computațional, cu costuri de operare de până la 10 ori mai mici decât API-urile actuale disponibile cu performanțe inferioare.

În acest articol, vom discuta despre cadru OpenVoice în profunzime și vom descoperi arhitectura sa care îi permite să ofere performanțe superioare în sarcinile de clonare a vocii instantanee. Așadar, să începem.

OpenVoice: Permițând Clonarea Vocii Instantanee Versatilă

Așa cum am menționat anterior, Clonarea Vocii Instantanee, cunoscută și sub numele de Sinteză Text-to-Speech Zero-Shot, permite modelului TTS să cloneze vocea oricărui vorbitor de referință folosind un exemplar audio scurt, fără a necesita antrenament suplimentar pentru vorbitorul de referință. Clonarea Vocii Instantanee a fost întotdeauna un subiect de cercetare fierbinte, cu lucrări existente care includ cadrele XTTS și VALLE, care extrag încorporarea vorbitorului și/sau tokenurile acustice din exemplarul audio de referință, care servește ca o condiție pentru modelul auto-regresiv. Modelul auto-regresiv generează apoi tokenuri acustice în mod secvențial și decodifică aceste tokenuri într-un val audio brut.

Deși modelele de clonare a vocii instantanee auto-regresive clonează culoarea tonală în mod remarcabil, ele lipsesc în manipularea altor parametri de stil, inclusiv accent, emoție, pauze și ritm. Mai mult, modelele auto-regresive experimentează, de asemenea, o viteză de inferență scăzută, iar costurile lor de operare sunt destul de ridicate. Abordări existente, cum ar fi cadru YourTTS, utilizează o abordare non-auto-regresivă care demonstrează o inferență a vorbirii semnificativ mai rapidă decât cadrele bazate pe auto-regresie, dar nu sunt încă în măsură să ofere utilizatorilor lor un control flexibil asupra parametrilor de stil. Mai mult, atât cadrele de clonare a vocii instantanee bazate pe auto-regresie, cât și cele non-auto-regresive necesită acces la un set de date masiv de vorbitori multi-lingvi sau MSML pentru clonarea vocii cross-linguale.

Pentru a aborda provocările cu care se confruntă cadrele actuale de clonare a vocii instantanee, dezvoltatorii au lucrat la OpenVoice, o bibliotecă de clonare a vocii instantanee deschisă care își propune să rezolve următoarele provocări cu care se confruntă cadrele actuale IVC.

Prima provocare este să permită cadrelor IVC să aibă un control flexibil asupra parametrilor de stil, în plus față de culoarea tonală, inclusiv accent, ritm, intonație și pauze. Parametrii de stil sunt cruciali pentru a genera conversații naturale și vorbire în context, mai degrabă decât a narata textul de intrare în mod monoton.
A doua provocare este să permită cadrelor IVC să cloneze voci cross-linguale într-un mediu zero-shot.
Ultima provocare este să obțină viteze de inferență în timp real fără a deteriora calitatea.

Pentru a aborda primele două obstacole, arhitectura cadru OpenVoice este proiectată pentru a decupa componentele din voce în cel mai bun mod posibil. Mai mult, OpenVoice generează culoarea tonală, limba și alte caracteristici ale vocii în mod independent, permițând cadru să manipuleze în mod flexibil tipurile individuale de limbă și stiluri de voce. Cadru OpenVoice abordează a treia provocare prin faptul că structura decupată reduce complexitatea computațională și cerințele de dimensiune a modelului.

OpenVoice: Metodologie și Arhitectură

Cadru tehnic al OpenVoice este eficient și surprinzător de simplu de implementat. Nu este un secret că clonarea culorii tonale pentru orice vorbitor, adăugarea unei noi limbi și permisiunea controlului flexibil asupra parametrilor vocii simultan poate fi o provocare. Acest lucru se datorează faptului că executarea acestor trei sarcini simultan necesită parametrii controlați să se intersecteze folosind o cantitate mare de seturi de date combinatoriale. Mai mult, în sinteza text-to-speech obișnuită pentru un singur vorbitor, pentru sarcinile care nu necesită clonarea vocii, este mai ușor să se adauge controlul asupra altor parametri de stil. Pe baza acestor informații, cadru OpenVoice își propune să decupeze sarcinile de Clonare a Vocii Instantanee în sub-sarcini. Modelul propune să utilizeze un model de sinteză text-to-speech pentru vorbitorul de bază pentru a controla limba și parametrii de stil și să folosească un convertor de culoare tonală pentru a include culoarea tonală de referință în vocea generată.

La nivelul său fundamental, cadru OpenVoice utilizează două componente: un convertor de culoare tonală și un model de sinteză text-to-speech pentru vorbitorul de bază. Modelul de sinteză text-to-speech pentru vorbitorul de bază este fie un model pentru un singur vorbitor, fie un model pentru mai mulți vorbitori, care permite un control precis asupra parametrilor de stil, limbă și accent. Modelul generează o voce care este apoi transmisă convertorului de culoare tonală, care schimbă culoarea tonală a vorbitorului de bază în culoarea tonală a vorbitorului de referință.

Cadru OpenVoice oferă o mare flexibilitate atunci când vine vorba de modelul de sinteză text-to-speech pentru vorbitorul de bază, deoarece poate utiliza modelul VITS cu modificări minore care îi permit să accepte încorporări de limbă și stil în predictorul de durată și codificatorul de text. Cadru poate, de asemenea, să utilizeze modele cum ar fi Microsoft TTS, care sunt comercial ieftine, sau poate să implementeze modele cum ar fi InstructTTS, care sunt capabile să accepte prompturi de stil. Pentru moment, cadru OpenVoice utilizează modelul VITS, deși și alte modele sunt o opțiune fezabilă.

Referitor la a doua componentă, convertorul de culoare tonală este o componentă encoder-decoder care conține un flux normalizator inversabil în centru. Componenta encoder din convertorul de culoare tonală este o rețea neurală convoluvională unidimensională care acceptă spectrul Fourier transformat în timp scurt al modelului de sinteză text-to-speech pentru vorbitorul de bază ca intrare. Encoderul generează apoi hărți de caracteristici ca ieșire. Extractorul de culoare tonală este o rețea neurală convoluvională bidimensională simplă care operează asupra mel-spectrogramului vocii de intrare și generează un singur vector de caracteristici ca ieșire, care codifică informația culorii tonale. Straturile de flux normalizator acceptă hărțile de caracteristici generate de encoder ca intrare și generează o reprezentare a caracteristicilor care păstrează toate proprietățile de stil, dar elimină informația culorii tonale. Cadru OpenVoice aplică apoi straturile de flux normalizator în direcția inversă și ia reprezentările caracteristicilor ca intrare și produce straturile de flux normalizator. Cadru decodifică apoi straturile de flux normalizator în valuri brute folosind un stivă de convoluții unidimensionale transpuse.

Arhitectura întreagă a cadru OpenVoice este feed-forward, fără utilizarea niciunui component auto-regresiv. Componenta convertor de culoare tonală este similară cu conversia vocii la nivel conceptual, dar se diferențiază în ceea ce privește funcționalitatea, obiectivele de antrenament și o predispoziție inductivă în structura modelului.

Mai mult, există o abordare diferită pentru a extrage reprezentări de caracteristici, metoda implementată de cadru OpenVoice oferă o calitate a audio superioară. Este, de asemenea, important de remarcat că cadru OpenVoice nu are intenția de a inventa componente în arhitectura modelului, ci mai degrabă ambele componente principale, și anume convertorul de culoare tonală și modelul de sinteză text-to-speech pentru vorbitorul de bază, sunt ambele surse din lucrări existente. Obiectivul principal al cadru OpenVoice este să formeze un cadru decupat care separă controlul limbii și al stilului vocii de clonarea culorii tonale. Deși abordarea este destul de simplă, ea este foarte eficientă, în special în sarcinile care controlează stilurile și accentele, sau în sarcinile de generalizare a limbilor noi. Obținerea aceluiași control atunci când se utilizează un cadru cuplat necesită o cantitate mare de calcul și date și nu se generalizează bine la limbi noi.

La nivelul său fundamental, filozofia principală a cadru OpenVoice este să decupeze generarea limbii și a stilurilor vocii de la generarea culorii tonale. Una dintre principalele puteri ale cadru OpenVoice este că vocea clonată este fluentă și de înaltă calitate, atâta timp cât vorbitorul de bază TTS vorbește fluent.

OpenVoice: Experiment și Rezultate

Evaluarea sarcinilor de clonare a vocii este o sarcină obiectivă dificilă din mai multe motive. În primul rând, lucrările existente utilizează adesea date de antrenament și testare diferite, ceea ce face ca compararea acestor lucrări să fie în mod inerent injustă. Deși crowd-sourcing poate fi utilizat pentru a evalua metrice cum ar fi Scorul de Opinie Medie, dificultatea și diversitatea datelor de test vor influența rezultatul final în mod semnificativ. În al doilea rând, diferitele metode de clonare a vocii au date de antrenament diferite, iar diversitatea și scala acestor date influențează rezultatele în mod semnificativ. În cele din urmă, obiectivul principal al lucrărilor existente diferă unele de altele, astfel încât ele diferă în funcționalitate.

Din cauza acestor trei motive, este injust să se compare numeric cadrele existente de clonare a vocii. În schimb, are mai mult sens să se compare aceste metode calitativ.

Clonarea Culorii Tonală Accurate

Pentru a analiza performanța sa, dezvoltatorii au construit un set de test cu indivizi anonimi, personaje de joc și celebrități care formează baza de vorbitori de referință și are o distribuție largă de voci, incluzând atât mostre neutre, cât și voci expresive unice. Cadru OpenVoice este capabil să cloneze culoarea tonală de referință și să genereze vorbire în multiple limbi și accente pentru orice dintre vorbitorii de referință și cei 4 vorbitori de bază.

Control Flexibil asupra Stilurilor Vocii

Unul dintre obiectivele cadru OpenVoice este să controleze stilurile de vorbire în mod flexibil utilizând convertorul de culoare tonală, care poate modifica culoarea tonală în timp ce păstrează toate celelalte caracteristici și proprietăți ale vocii.

Experimentele indică faptul că modelul păstrează stilurile vocii după conversia la culoarea tonală de referință. În unele cazuri, modelul neutralizează ușor emoțiile, o problemă care poate fi rezolvată prin transmiterea unei cantități mai mici de informații către straturile de flux, astfel încât acestea să nu poată elimina emoția. Cadru OpenVoice este capabil să păstreze stilurile de la vocea de bază datorită utilizării unui convertor de culoare tonală. Acest lucru permite cadru OpenVoice să manipuleze modelul de sinteză text-to-speech pentru vorbitorul de bază pentru a controla în mod facil stilurile vocii.

Clonarea Vocii Cross-Linguale

Cadru OpenVoice nu include niciun set de date masiv de vorbitori pentru o limbă nevăzută, și totuși este capabil să obțină o clonare a vocii cross-linguale aproape de zero-shot. Capabilitățile de clonare a vocii cross-linguale ale cadru OpenVoice sunt duble:

Modelul este capabil să cloneze culoarea tonală a vorbitorului de referință cu acuratețe atunci când limba vorbitorului de referință nu este văzută în setul de date multi-vorbitori multi-lingvi sau MSML.
Mai mult, în același eveniment în care limba vorbitorului de referință nu este văzută, cadru OpenVoice este capabil să cloneze vocea vorbitorului de referință și să vorbească în limba respectivă, cu condiția ca modelul de sinteză text-to-speech pentru vorbitorul de bază să susțină limba respectivă.

Gânduri Finale

În acest articol, am discutat despre OpenVoice, un cadru de clonare a vocii instantanee versatil care replică vocea oricărui utilizator și generează vorbire în multiple limbi utilizând un clip audio scurt de la vorbitorul de referință. Intuiția principală din spatele OpenVoice este că, atâta timp cât un model nu trebuie să efectueze clonarea culorii tonale a vorbitorului de referință, un cadru poate utiliza un model de sinteză text-to-speech pentru vorbitorul de bază pentru a controla limba și stilurile vocii.

OpenVoice demonstrează că modelele de Clonare a Vocii Instantanee pot replica culoarea tonală a vorbitorului de referință și pot obține un control granular asupra stilurilor vocii, inclusiv accent, ritm, intonație, pauze și chiar emoții. OpenVoice reușește să ofere rezultate superioare de clonare a vocii instantanee, fiind în același timp viabil din punct de vedere computațional, cu costuri de operare de până la 10 ori mai mici decât API-urile actuale disponibile cu performanțe inferioare.

Unite.AI