Kunstig intelligens

OpenVoice: Mangfoldig Instant Voice Cloning

Published February 5, 2024

Updated April 4, 2026

Kunal Kejriwal

I Text-to-Speech syntese (TTS), gjør Instant Voice Cloning (IVC) det mulig for TTS-modellen å klone stemmen til en hvilken som helst referanse-taler ved hjelp av et kort lydklipp, uten å kreve ytterligere trening for referanse-taleren. Denne teknikken er også kjent som Zero-Shot Text-to-Speech Synthesis. Instant Voice Cloning-tilnærmingen tillater fleksibel tilpasning av den genererte stemmen og demonstrerer betydelig verdi over en bred rekke av sanntids-situasjoner, inkludert tilpassede chatbots, innholdsskapelse og interaksjoner mellom mennesker og store språkmodeller (LLM).

Selv om de nåværende stemme-kloning-rammeverkene gjør jobben sin godt, er de plaget av noen utfordringer i feltet, inkludert Flexibel Stemme Stil Kontroll, dvs. modellene mangler evnen til å manipulere stemme-stiler fleksibelt etter å ha klonet stemmen. En annen stor hindring som møtes av nåværende instant-kloning-rammeverk er Zero-Shot Cross-Lingual Voice Cloning, dvs. for trening-formål, krever nåværende modeller tilgang til en omfattende massive-speaker multi-lingual eller MSML-dataset, uavhengig av språket.

For å takle disse problemene og bidra til forbedringen av instant-stemme-kloning-modeller, har utviklere arbeidet med OpenVoice, et mangfoldig instant-stemme-kloning-rammeverk som replikerer stemmen til en hvilken som helst bruker og genererer tale i flere språk ved hjelp av et kort lydklipp fra referanse-taleren. OpenVoice demonstrerer at Instant Voice Cloning-modeller kan replikere tone-fargen til referanse-taleren og oppnå granulær kontroll over stemme-stiler, inkludert aksent, rytme, intonasjon, pauser og selv emosjoner. Det som er enda mer imponerende er at OpenVoice-rammeverket også demonstrerer bemerkelsesverdige evner i å oppnå zero-shot cross-lingual stemme-kloning for språk utenfor MSML-datasettet, og lar OpenVoice klone stemmer til nye språk uten omfattende forhåndstrening for det språket. OpenVoice leverer overlegen instant-stemme-kloning-resultater samtidig som det er komputasjonelt levedyktig med driftskostnader opptil 10 ganger mindre enn nåværende tilgjengelige API-er med dårligere ytelse.

I denne artikkelen vil vi snakke om OpenVoice-rammeverket i dybden, og vi vil avdekke dens arkitektur som lar det levere overlegen ytelse over instant-stemme-kloning-oppdrag. Så la oss starte.

OpenVoice: Enabling Versatile Instant Voice Cloning

Som nevnt tidligere, Instant Voice Cloning, også kjent som Zero-Shot Text to Speech Synthesis, lar TTS-modellen klone stemmen til en hvilken som helst referanse-taler ved hjelp av et kort lydklipp uten å kreve ytterligere trening for referanse-taleren. Instant Voice Cloning har alltid vært et varmt forskningsemne med eksisterende arbeider som inkluderer XTTS og VALLE-rammeverk som trekker ut taler-embedding og/eller akustiske token fra referanse-lyden som tjener som en betingelse for den auto-regressive modellen. Den auto-regressive modellen genererer deretter akustiske token sekvensielt, og dekoder disse tokenene til en rå lydbølge.

Selv om auto-regressive instant-stemme-kloning-modeller kloner tone-fargen merkelig, mangler de evnen til å manipulere andre stil-parametere, inkludert aksent, emosjon, pauser og rytme. Videre erfaringer auto-regressive modeller også lav inferens-hastighet, og deres driftskostnader er ganske høye. Eksisterende tilnærminger som YourTTS-rammeverket anvender en ikke-auto-regressiv tilnærming som demonstrerer betydelig raskere inferens-tale enn auto-regressive-rammeverk, men er fortsatt ikke i stand til å gi brukerne fleksibel kontroll over stil-parametere. Dessuten trenger både auto-regressive-baserte og ikke-auto-regressive-baserte instant-stemme-kloning-rammeverk tilgang til en stor MSML eller massive-speaker multi-lingual dataset for cross-lingual stemme-kloning.

For å takle utfordringene som møtes av nåværende instant-stemme-kloning-rammeverk, har utviklere arbeidet med OpenVoice, et åpent kilde-instant-stemme-kloning-bibliotek som har som mål å løse følgende utfordringer som møtes av nåværende IVC-rammeverk.

Den første utfordringen er å aktivere IVC-rammeverk til å ha fleksibel kontroll over stil-parametere i tillegg til tone-farge, inkludert aksent, rytme, intonasjon og pauser. Stil-parametere er avgjørende for å generere naturlige samtaler og tale i stedet for å fortelle innputt-teksten monotont.
Den andre utfordringen er å aktivere IVC-rammeverk til å klone cross-lingual stemmer i en zero-shot-innstillning.
Den siste utfordringen er å oppnå høy sanntids-inferens-hastighet uten å forringe kvaliteten.

For å takle de to første hindringene, er arkitekturen til OpenVoice-rammeverket designet for å frigjøre komponenter i stemmen så mye som mulig. Videre genererer OpenVoice tone-farge, språk og andre stemme-egenskaper uavhengig, og lar rammeverket fleksibelt manipulere individuelle språk-typer og stemme-stiler. OpenVoice-rammeverket takler den tredje utfordringen som standard, da den frigjorte strukturen reduserer kompleksiteten og modell-størrelses-kravene.

OpenVoice: Metodologi og Arkitektur

Den tekniske rammeverket til OpenVoice-rammeverket er effektivt og overraskende enkelt å implementere. Det er ingen hemmelighet at å klone tone-fargen for en hvilken som helst taler, legge til et nytt språk og aktivere fleksibel kontroll over stemme-parametere samtidig kan være utfordrende. Det er så fordi å utføre disse tre oppgavene samtidig krever at de kontrollerte parameterne krysser hverandre ved hjelp av en stor del av kombinatoriske datasett. Videre, i vanlige enkelt-taler text-to-speech syntese, for oppgaver som ikke krever stemme-kloning, er det enklere å legge til kontroll over andre stil-parametere. Bygget på dette, har OpenVoice-rammeverket som mål å frigjøre Instant Voice Cloning-oppdragene til under-oppdrag.

Modellen foreslår å bruke en base-taler Text-to-Speech-modell til å kontrollere språket og stil-parametrene, og anvender en tone-farge-omvandler til å inkludere referanse-tone-fargen i den genererte stemmen. Følgende figur demonstrerer arkitekturen til rammeverket.

I kjernen anvender OpenVoice-rammeverket to komponenter: en tone-farge-omvandler og en base-taler Text-to-Speech eller TTS-modell. Base-taler Text-to-Speech-modellen er enten en enkelt-taler eller en multi-taler-modell som tillater nøyaktig kontroll over stil-parametere, språk og aksent. Modellen genererer en stemme som deretter sendes til tone-farge-omvandleren, som endrer base-talerens tone-farge til tone-fargen til referanse-taleren.

OpenVoice-rammeverket tilbyr mye fleksibilitet når det gjelder base-taler Text-to-Speech-modellen, da den kan anvende VITS-modellen med små modifikasjoner som lar den akseptere språk- og stil-embedding i sin varighet-prediktor og tekst-encoder. Rammeverket kan også anvende modeller som Microsoft TTS som er kommersielt billig eller det kan deployere modeller som InstructTTS som er i stand til å akseptere stil-prompter. For tiden anvender OpenVoice-rammeverket VITS-modellen, selv om de andre modellene også er en mulig valg.

Komment til den andre komponenten, er Tone-farge-omvandleren en encoder-decoder-komponent som huset en inverserbar normaliserings-strøm i midten. Encoder-komponenten i tone-farge-omvandleren er en en-dimensjonal CNN som aksepterer den kort-tids Fourier-transformerte spektrumet til base-taler Text-to-Speech-modellen som inndata. Encoderen genererer deretter funksjons-kart som utdata. Tone-farge-ekstraktoren er en enkel to-dimensjonal CNN som opererer på mel-spektrogrammet til inndata-stemmen og genererer en enkelt funksjons-vektor som utdata som koder informasjonen om tone-fargen. Normaliserings-strøm-lagene aksepterer funksjons-kartene generert av encoderen som inndata og genererer en funksjons-representasjon som bevarer alle stil-egenskaper, men eliminerer tone-farge-informasjonen. OpenVoice-rammeverket anvender deretter normaliserings-strøm-lagene i den inverse retningen og tar funksjons-representasjonene som inndata og utdata til normaliserings-strøm-lagene. Rammeverket dekoder deretter normaliserings-strøm-lagene til rå lydbølger ved hjelp av en stabel av transponerte en-dimensjonale konvolusjoner.

Hele arkitekturen til OpenVoice-rammeverket er feed-forward uten å bruke noen auto-regressive komponent. Tone-farge-omvandler-komponenten er lignende til stemme-omvandling på et konseptuelt nivå, men forskjeller i funksjonalitet, trening-objektiver og en induktiv forutinntakelse i modell-strukturen. Normaliserings-strøm-lagene deler samme struktur som flow-basert tekst-til-tale-modeller, men forskjeller i funksjonalitet og trening-objektiver.

Videre eksisterer det en annen tilnærming til å trekke ut funksjons-representasjoner, metoden implementert av OpenVoice-rammeverket leverer bedre lydkvalitet. Det er også verdt å merke seg at OpenVoice-rammeverket ikke har til hensikt å oppfinne komponenter i modell-arkitekturen, men både hoved-komponentene, dvs. tone-farge-omvandleren og base-taler TTS-modellen, er begge hentet fra eksisterende arbeider. Det primære målet til OpenVoice-rammeverket er å danne et frigjort rammeverk som skiller språk-kontroll og stemme-stil fra tone-farge-kloning. Selv om tilnærmingen er ganske enkel, er den ganske effektiv, spesielt på oppgaver som kontrollerer stiler og aksenter eller nye språk-generering-oppdrag. Å oppnå samme kontroll ved å anvende et koblet rammeverk krever en stor mengde beregning og data, og det generaliserer ikke godt til nye språk.

I kjernen er det primære filosofien til OpenVoice-rammeverket å frigjøre genereringen av språk og stemme-stiler fra genereringen av tone-farge. En av de største styrkene til OpenVoice-rammeverket er at klon-stemmen er flytende og av høy kvalitet så lenge enkelt-taler TTS snakker flytende.

OpenVoice: Eksperiment og Resultater

Å evaluere stemme-kloning-oppdrag er et hardt objekt på grunn av mange årsaker. For det første anvender eksisterende arbeider ofte forskjellige trening- og test-data som gjør det intrinsisk urimelig å sammenligne disse arbeidene. Selv om crowd-sourcing kan brukes til å evaluere metrikker som Mean Opinion Score, vil vanskeligheten og mangfoldet av test-dataene påvirke resultatet betydelig. For det andre har forskjellige stemme-kloning-metoder forskjellige trening-data, og mangfoldet og skalaen av disse dataene påvirker resultatet betydelig. Til slutt forskjeller de primære objektiver til eksisterende arbeider fra hverandre, og de forskjeller i funksjonalitet.

På grunn av de tre årsakene nevnt ovenfor, er det urimelig å sammenligne eksisterende stemme-kloning-rammeverk numerisk. I stedet er det mer fornuftig å sammenligne disse metodene kvalitativt.

Nøyaktig Tone-farge Kloning

For å analysere dens ytelse, bygger utviklerne en test-sett med anonyme personer, spill-karakterer og kjendiser som danner referanse-taler-basen, og har en bred stemme-distribusjon som inkluderer både nøytrale eksempler og unike uttrykksfulle stemmer. OpenVoice-rammeverket er i stand til å klone referanse-tone-fargen og generere tale i flere språk og aksenter for en hvilken som helst referanse-talere og de 4 base-talerne.

Fleksibel Kontroll over Stemme-stiler

En av de objektiver til OpenVoice-rammeverket er å kontrollere tale-stilene fleksibelt ved hjelp av tone-farge-omvandleren som kan modifisere tone-fargen samtidig som den bevarer alle andre stemme-egenskaper og -parametere.

Eksperimenter indikerer at modellen bevarer stemme-stilene etter å ha konvertert til referanse-tone-fargen. I noen tilfeller kan modellen likevel nøytralisere emosjonene noe, et problem som kan løses ved å sende mindre informasjon til flow-lagene så de ikke kan fjerne emosjonen. OpenVoice-rammeverket er i stand til å bevare stilene fra base-stemmen takket være sin bruk av tone-farge-omvandler. Det lar OpenVoice-rammeverket manipulere base-taler Text-to-Speech-modellen for å lett kontrollere stemme-stilene.

Cross-Lingual Stemme Klone

OpenVoice-rammeverket inkluderer ikke noen massive-speaker-data for et usett språk, og det er likevel i stand til å oppnå nær cross-lingual stemme-kloning i en zero-shot-innstillning. Cross-lingual stemme-kloning-egenskapene til OpenVoice-rammeverket er to-delt:

Modellen er i stand til å klone tone-fargen til referanse-taleren nøyaktig når språket til referanse-taleren ikke er sett i multi-speaker multi-lingual eller MSML-datasettet.
Videre er OpenVoice-rammeverket i stand til å klone stemmen til referanse-taleren og snakke på språket på betingelse av at base-taler Text-to-Speech-modellen støtter språket.

Slutt tanker

I denne artikkelen har vi snakket om OpenVoice, et mangfoldig instant-stemme-kloning-rammeverk som replikerer stemmen til en hvilken som helst bruker og genererer tale i flere språk ved hjelp av et kort lydklipp fra referanse-taleren. Det primære intuit til OpenVoice er at så lenge en modell ikke må utføre tone-farge-kloning av referanse-taleren, kan et rammeverk anvende en base-taler TTS-modell til å kontrollere språket og stemme-stilene.

OpenVoice demonstrerer at Instant Voice Cloning-modeller kan replikere tone-fargen til referanse-taleren og oppnå granulær kontroll over stemme-stiler, inkludert aksent, rytme, intonasjon, pauser og selv emosjoner. OpenVoice leverer overlegen instant-stemme-kloning-resultater samtidig som det er komputasjonelt levedyktig med driftskostnader opptil 10 ganger mindre enn nåværende tilgjengelige API-er med dårligere ytelse.

Unite.AI