Tekoäly

OpenVoice: Monipuolinen Äänen Kloonaus Hetkessä

Published February 5, 2024

Updated April 4, 2026

Kunal Kejriwal

Tekstistä puheen synteesissä (TTS) äänen kloonauksella voidaan kloonata minkä tahansa viitepuhujan ääni lyhyestä ääninäytteestä ilman, että viitepuhujaan tarvitaan lisäkoulutusta. Tämä tekniikka tunnetaan myös nimellä Zero-Shot Text-to-Speech Synthesis. Äänen kloonauksen lähestymistapa mahdollistaa joustavan mukauttamisen tuotetun äänen ja osoittaa merkittävää arvoa laajalla valikoimalla todellisia tilanteita, mukaan lukien mukautettavat chatbotit, sisällön luominen ja vuorovaikutus ihmisien ja suurten kielimallien (LLM) välillä.

Vaikka nykyiset äänen kloonauksen kehykset tekevät työnsä hyvin, niissä on joitakin haasteita alalla, mukaan lukien Joustava Äänen Tyylin Hallinta eli mallit eivät pysty manipuloimaan äänen tyylejä joustavasti äänen kloonauksen jälkeen. Toinen merkittävä este, jota nykyiset instant-kloonauksen kehykset kohtaavat, on Nollaus Cross-Lingual Äänen Kloonaus eli koulutuksen tarpeisiin nykyiset mallit vaativat pääsyn laajaan massive-speaker monikieliseen tai MSML-aineistoon riippumatta kielestä.

Ratkaistaakseen nämä ongelmat ja osallistuakseen äänen kloonauksen mallien parantamiseen, kehittäjät ovat työskennelleet OpenVoice-nimisen monipuolisen instant-äänen kloonauksen kehyksen parissa, joka replikoi minkä tahansa käyttäjän äänen ja tuottaa puhetta useilla kielillä lyhyestä ääninäytteestä viitepuhujalta. OpenVoice osoittaa, että instant-äänen kloonauksen mallit voivat replikoida viitepuhujan sävyn värin ja saavuttaa hienorakeisen hallinnan äänen tyyleistä, mukaan lukien aksentti, rytmi, intonaatio, tauot ja jopa emotionaalinen sävy. Mitä hämmästyttävämpää on, että OpenVoice-kehys osoittaa myös merkittäviä kykyjä saavuttamaan nollaus cross-lingual äänen kloonauksessa kielille, jotka eivät kuulu MSML-aineistoon, mikä mahdollistaa OpenVoicelle kloonata ääniä uusille kielille ilman laajaa esikoulutusta kyseiselle kielelle. OpenVoice tarjoaa erinomaisia instant-äänen kloonauksen tuloksia ollessaan laskennallisesti toteutettavissa ja sen toimintakustannukset ovat jopa 10 kertaa alempia kuin nykyisillä saatavilla olevilla API:illa, joilla on heikompi suorituskyky.

Tässä artikkelissa perehdytään OpenVoice-kehyskehykseen syvemmällä ja paljastetaan sen arkkitehtuuri, joka mahdollistaa sen toimittaa erinomaisia tuloksia instant-äänen kloonauksen tehtävissä. Niin kuin aloimme.

OpenVoice: Mahdollistaen Monipuolisen Instant Äänen Kloonauksen

Kuten mainittiin aiemmin, Instant Äänen Kloonauksessa, jota kutsutaan myös Zero-Shot Text-to-Speech Synthesiksi, TTS-malli pystyy kloonamaan minkä tahansa viitepuhujan äänen lyhyestä ääninäytteestä ilman, että viitepuhujaan tarvitaan lisäkoulutusta. Instant Äänen Kloonauksella on aina ollut kuumaa tutkimusaihetta, ja olemassa oleviin töihin kuuluvat XTTS- ja VALLE-kehykset, jotka poistavat puhujan upotukset ja/tai akustiset tokenit viiteäänestä, jotka toimivat ehdolla auto-regressiiviselle mallille. Auto-regressiivinen malli tuottaa sitten akustisia tokenien järjestyksessä ja dekoodaa nämä tokenit raakaa ääniaaltoa.

Vaikka auto-regressiiviset instant-äänen kloonauksen mallit kloonavat sävyn värin erinomaisesti, ne jäävät lyhyiksi manipuloidessaan muita tyyliparametreja, kuten aksenttia, emotionaalista sävyä, taukoja ja rytmiä. Lisäksi auto-regressiiviset mallit kokemuksensa mukaan myös kohtaavat matalan inference-nopeuden, ja niiden toimintakustannukset ovat varsin korkeat. Olemassa olevat lähestymistavat, kuten YourTTS-kehys, käyttävät non-autoregressiivista lähestymistapaa, joka osoittaa merkittävästi nopeamman inference-puhetta verrattuna auto-regressiivisiin kehyksiin, mutta eivät pysty tarjoamaan käyttäjilleen joustavaa hallintaa tyyliparametreista. Lisäksi sekä auto-regressiiviset että non-autoregressiiviset instant-äänen kloonauksen kehykset tarvitsevat pääsyn laajaan MSML- tai massive-speaker monikieliseen aineistoon cross-lingual äänen kloonaukseen.

Ratkaistaakseen haasteita, joita nykyiset instant-äänen kloonauksen kehykset kohtaavat, kehittäjät ovat työskennelleet OpenVoice-nimisen avoimen instant-äänen kloonauksen kirjaston parissa, jonka tavoitteena on ratkaista seuraavat haasteet, joita nykyiset IVC-kehykset kohtaavat.

Ensimmäinen haaste on mahdollistaa IVC-kehyksille joustava hallinta tyyliparametreista sävyn värin lisäksi, mukaan lukien aksentti, rytmi, intonaatio ja tauot. Tyyliparametrit ovat tärkeitä luodakseen luonnollisia keskusteluja ja puhetta eikä pelkästään kertoakseen syötetekstiä monotonisesti.
Toinen haaste on mahdollistaa IVC-kehyksille kloonata cross-lingual ääniä nollaus-asettelussa.
Viimeinen haaste on saavuttaa korkeat reaaliaikaiset inference-nopeudet heikentämättä laatuja.

Ratkaistaakseen kaksi ensimmäistä esteitä, OpenVoice-kehys on suunniteltu erottamaan äänen komponentit parhaansa mukaan. Lisäksi OpenVoice tuottaa sävyn värin, kielen ja muut äänen ominaisuudet itsenäisesti, mikä mahdollistaa kehykselle joustavan manipuloinnin yksittäisiä kielityyppejä ja äänen tyylejä. OpenVoice-kehys ratkaisee kolmannen haasteen oletusarvoisesti, koska eriytetty rakenne vähentää laskennallista monimutkaisuutta ja mallin kokoa.

OpenVoice: Menetelmä ja Arkkitehtuuri

OpenVoice-kehyskehyksen tekninen rakenne on tehokas ja yllättävän helppo toteuttaa. On selvää, että kloonata sävyn väri minkä tahansa puhujan ääneen, lisätä uusi kieli ja mahdollistaa joustava hallinta äänen parametreista samanaikaisesti voi olla haasteellista. Tämä johtuu siitä, että suorittaa nämä kolme tehtävää samanaikaisesti vaatii hallitut parametrit leikkaamaan suuren osan yhdistelmäaineistoa. Lisäksi säännöllisessä yksittäisen puhujan tekstistä puhetta synteesissä, tehtävissä, jotka eivät vaadi äänen kloonauksen, on helpompaa lisätä hallintaa muihin tyyliparametreihin. OpenVoice-kehys perustuu tähän ja pyrkii erottamaan Instant Äänen Kloonauksen tehtävät alitehtäviin. Malli ehdottaa käyttämään peruspuhujan tekstistä puhetta mallia hallita kieltä ja tyyliparametreja ja käyttää sävyn väri -muunninta sisällyttämään viitepuhujan sävyn väri tuotettuun ääneen. Seuraava kuva osoittaa kehyksen arkkitehtuurin.

OpenVoice-kehys käyttää kahden komponentin: sävyn väri -muunnin ja peruspuhujan tekstistä puhetta mallin. Peruspuhujan tekstistä puhetta malli on joko yksittäisen puhujan tai monen puhujan malli, joka mahdollistaa tarkan hallinnan tyyliparametreista, kielestä ja aksentista. Malli tuottaa äänen, joka välitetään sävyn väri -muunnille, joka muuttaa peruspuhujan sävyn värin viitepuhujan sävyn värin.

OpenVoice-kehys tarjoaa paljon joustavuutta peruspuhujan tekstistä puhetta mallissa, koska se voi käyttää VITS-mallia, joka voidaan muuttaa hyväksymään kielen ja tyyli- upotuksia sen kestoa ennustajassa ja teksti- kooderissa. Kehys voidaan myös käyttää malleja, kuten Microsoft TTS, jotka ovat kaupallisesti edullisia, tai se voidaan käyttää malleja, kuten InstructTTS, jotka pystyvät hyväksymään tyyli-ohjeita. Toistaiseksi OpenVoice-kehys käyttää VITS-mallia, vaikka muut mallit ovat myös toteuttamiskelpoisia.

Tulevaan toiseen komponenttiin, sävyn väri -muunnin on encoder-decoder komponentti, joka sisältää invertoituvan normalisointivirran keskellä. Encoder-komponentti sävyn väri -muunnissa on yksiulotteinen CNN, joka hyväksyy peruspuhujan tekstistä puhetta mallin lyhytaikaisen Fourier- muunnoksen spektrin sisään. Encoder tuottaa piirroskartat tuloksena. Sävyn väri -poistaja on yksinkertainen kaksiulotteinen CNN, joka toimii syötteen äänen mel- spektrogrammilla ja tuottaa yksittäisen piirrosvektorin tuloksena, joka koodaa sävyn värin tiedon. Normalisointivirta- kerrokset hyväksyvät encoderin tuottamat piirroskartat sisään ja tuottavat piirros-esityksen, joka säilyttää kaikki tyyli-ominaisuudet, mutta poistaa sävyn värin tiedon. OpenVoice-kehys soveltaa normalisointivirta- kerroksia vastakkaisessa suunnassa ja ottaa piirros-esitykset sisään ja tuottaa normalisointivirta- kerroksia. Kehys dekoodaa sitten normalisointivirta- kerroksia raakaa ääniaaltoa käyttäen pinon yksiulotteisia transpoosittuja konvoluutioita.

Koko OpenVoice-kehyskehyksen arkkitehtuuri on eteenpäin suuntautunut ilman auto-regressiivisen komponentin käyttöä. Sävyn väri -muunnin komponentti on käsitteellisesti samanlainen kuin äänen muunnos, mutta eroaa toiminnallisesti, koulutusohjelmista ja induktiivisesta vinoumasta mallirakenteessa. Normalisointivirta- kerrokset jakavat saman rakenteen kuin flow-pohjaiset tekstistä puhetta mallit, mutta eroavat toiminnallisesti ja koulutusohjelmista.

Lisäksi on olemassa toinen lähestymistapa piirros-esitysten poistamiseen, menetelmä, jota OpenVoice-kehys toteuttaa, tarjoaa paremman äänen laadun. On myös huomionarvoista, että OpenVoice-kehys ei pyri keksimään komponentteja mallin rakenteessa, vaan molemmat pääkomponentit, sävyn väri -muunnin ja peruspuhujan tekstistä puhetta malli, ovat peräisin olemassa olevista töistä. OpenVoice-kehyskehyksen pääasiallinen tavoite on muodostaa eriytetty kehys, joka erottaa kielen hallinnan ja äänen tyylin sävyn värin kloonauksesta. Vaikka lähestymistapa on yksinkertainen, se on erittäin tehokas, erityisesti tehtävissä, jotka vaativat tyylin ja aksentin hallintaa tai uuden kielen yleistämistä. Saavuttaakseen saman hallinnan käyttäen kytkettyä kehystä vaaditaan suuri määrä laskentaa ja dataa, eikä se yleistä uusille kielille.

OpenVoice-kehyskehyksen ydinfilosofia on erottaa kielen ja äänen tyylien tuottaminen sävyn värin tuottamisesta. Yksi OpenVoice-kehyskehyksen suurimmista vahvuuksista on, että kloonattu ääni on sulava ja laadukas, kunhan yksittäisen puhujan TTS puhuu sulavasti.

OpenVoice: Koe ja Tulokset

Äänen kloonauksen arviointi on vaikeaa objektiivisista syistä. Ensinnäkin, olemassa olevat työt usein käyttävät eri koulutus- ja testidatia, mikä tekee näiden töiden vertailun sisäisesti epäoikeudenmukaiseksi. Vaikka crowd-sourcing voidaan käyttää arvioimaan metriikkoja, kuten Mean Opinion Score, testidatan vaikeus ja monimuotoisuus vaikuttavat lopputulokseen merkittävästi. Toiseksi, eri äänen kloonauksen menetelmillä on eri koulutusdataa, ja tämän datan monimuotoisuus ja asteikko vaikuttavat tuloksiin merkittävästi. Lopuksi, olemassa olevien töiden pääasiallinen tavoite eroaa toisistaan, joten ne eroavat toiminnallisesti.

Näiden kolmen syyn vuoksi on epäoikeudenmukaisuutta verrata olemassa olevia äänen kloonauksen kehyksiä numeerisesti. Sen sijaan on järkevämpää verrata näitä menetelmiä laadullisesti.

Tarkan Sävyn Värin Kloonauksen

Analyysi sen suorituskyvystä varten, kehittäjät rakentavat testijoukon, jossa on anonyymejä yksilöitä, pelihahmoja ja julkkiksia viitepuhujan perustana, ja siinä on laaja äänen jakautuminen, mukaan lukien sekä neutraaleja näytteitä että ainutlaatuisia ilmaisuvoimaisia ääniä. OpenVoice-kehys pystyy kloonamaan viitepuhujan sävyn värin ja tuottamaan puhetta useilla kielillä ja aksenteilla minkä tahansa viitepuhujan ja 4 peruspuhujan ääneen.

Joustava Hallinta Äänen Tyyleistä

Yksi OpenVoice-kehyskehyksen tavoitteista on hallita puhetyylejä joustavasti käyttäen sävyn väri -muunninta, joka voi muuttaa sävyn värin säilyttäen kaikki muut äänen ominaisuudet ja ominaisuudet.

Kokeet osoittavat, että malli säilyttää äänen tyylit sävyn värin muunnoksen jälkeen. Jossain tapauksissa kuitenkin malli neutraloi emotionaalisen sävyn hieman, ongelma, joka voidaan ratkaista antamalla vähemmän tietoa virta- kerroksille, jotta ne eivät pysty poistamaan emotionaalista sävyä. OpenVoice-kehys pystyy säilyttämään tyylit perusäänestä kiitos sen käytölle sävyn väri -muunninta. Se mahdollistaa OpenVoice-kehyskehykselle manipuloida peruspuhujan tekstistä puhetta mallia helposti hallita äänen tyylejä.

Cross-Lingual Äänen Kloonauksen

OpenVoice-kehys ei sisällä mitään massive-speaker dataa näkemättömälle kielelle, mutta se pystyy saavuttamaan lähes cross-lingual äänen kloonauksen nollaus-asettelussa. OpenVoice-kehyskehyksen cross-lingual äänen kloonauksen kyky on kaksinkertainen:

Malli pystyy kloonamaan viitepuhujan sävyn värin tarkasti, kun viitepuhujan kieli on näkemätön multi-speaker monikielisessä tai MSML-aineistossa.
Lisäksi, kun viitepuhujan kieli on näkemätön, OpenVoice-kehys pystyy kloonamaan viitepuhujan äänen ja puhumaan kielellä, edellyttäen, että peruspuhujan tekstistä puhetta malli tukee kieltä.

Loppukommentit

Tässä artikkelissa on keskusteltu OpenVoice-kehyskehyksestä, joka on monipuolinen instant-äänen kloonauksen kehys, joka replikoi minkä tahansa käyttäjän äänen ja tuottaa puhetta useilla kielillä lyhyestä ääninäytteestä viitepuhujalta. OpenVoice-kehys osoittaa, että instant-äänen kloonauksen mallit voivat replikoida viitepuhujan sävyn värin ja saavuttaa hienorakeisen hallinnan äänen tyyleistä, mukaan lukien aksentti, rytmi, intonaatio, tauot ja jopa emotionaalinen sävy. OpenVoice-kehys pystyy toimittamaan erinomaisia instant-äänen kloonauksen tuloksia ollessaan laskennallisesti toteutettavissa ja sen toimintakustannukset ovat jopa 10 kertaa alempia kuin nykyisillä saatavilla olevilla API:illa, joilla on heikompi suorituskyky.

Unite.AI