Kunstig intelligens

OpenVoice: Fleksibelt Instant Voice Cloning

Published February 5, 2024

Updated April 4, 2026

Kunal Kejriwal

I Text-to-Speech syntese (TTS), ermöglicher Instant Voice Cloning (IVC) TTS-modellen at klone stemmen af en hvilken som helst reference-taler ved hjælp af et kort lydklippet uden at kræve yderligere træning for reference-taleren. Denne teknik kaldes også Zero-Shot Text-to-Speech Synthese. Instant Voice Cloning-tilgangen giver mulighed for fleksibel tilpasning af den genererede stemme og demonstrerer betydelig værdi på tværs af en bred vifte af reelle situationer, herunder tilpassede chatbots, indholdsskabelse og interaktioner mellem mennesker og Large Language Models (LLMs).

Selvom de nuværende stemme-kloning-rammer gør deres arbejde godt, er de fyldt med nogle udfordringer på området, herunder Fleksibelt Stemme-Stil-Kontrol, dvs. modeller mangler evnen til at manipulere stemme-stilarter fleksibelt efter at have klonet stemmen. En anden større forhindring, som de nuværende instant-kloning-rammer står over for, er Zero-Shot Cross-Lingual Voice Cloning, dvs. til træningsformål kræver nuværende modeller adgang til en omfattende massive-taler multi-lingual eller MSML-datasæt, uanset sprog.

For at tackle disse udfordringer og bidrage til forbedringen af instant stemme-kloning-modeller, har udviklere arbejdet på OpenVoice, en fleksibel instant stemme-kloning-ramme, der replikerer stemmen af en hvilken som helst bruger og genererer tale i multiple sprog ved hjælp af et kort lydklippet fra reference-taleren. OpenVoice demonstrerer, at Instant Voice Cloning-modeller kan replikere tonefarven af reference-taleren og opnå granuleret kontrol over stemme-stilarter, herunder accent, rytme, intonation, pauser og selv følelser. Det er endnu mere imponerende, at OpenVoice-rammen også demonstrerer bemærkelsesværdige evner i at opnå zero-shot cross-lingual stemme-kloning for sprog uden for MSML-datasættet, hvilket giver OpenVoice mulighed for at klone stemmer til nye sprog uden omfattende fortræning for det pågældende sprog. OpenVoice leverer overlegne instant stemme-kloning-resultater, samtidig med at den er komputationelt viable med driftsomkostninger op til 10 gange mindre end nuværende tilgængelige API’er med ringere ydelse.

I denne artikel vil vi tale om OpenVoice-rammen i dybden og afsløre dens arkitektur, der giver mulighed for at levere overlegen ydelse på tværs af instant stemme-kloning-opgaver. Så lad os komme i gang.

OpenVoice: Enabling Fleksibelt Instant Voice Cloning

Som nævnt tidligere giver Instant Voice Cloning, også kendt som Zero-Shot Text to Speech Synthesis, TTS-modellen mulighed for at klone stemmen af en hvilken som helst reference-taler ved hjælp af et kort lydklippet uden behov for yderligere træning for reference-taleren. Instant Voice Cloning har altid været et varmt forskningsemne med eksisterende arbejder, herunder XTTS og VALLE-rammer, der udtrækker tale-embedding og/eller akustiske tokens fra reference-lyden, der fungerer som en betingelse for den auto-regressive model. Den auto-regressive model genererer herefter akustiske tokens sekventielt og dekoder disse tokens til en rå lydbølge.

Selvom auto-regressive instant stemme-kloning-modeller kloner tonefarven bemærkelsesværdigt, mangler de evnen til at manipulere andre stilparametre, herunder accent, følelse, pauser og rytme. Desuden oplever auto-regressive modeller også lav inferenshastighed, og deres driftsomkostninger er ret høje. Eksisterende tilgange som YourTTS-rammen anvender en ikke-auto-regressiv tilgang, der demonstrerer signifikant hurtigere inferens-tale end auto-regressive ramme-tilgange, men er stadig ikke i stand til at give brugerne fleksibel kontrol over stilparametre. Desuden har både auto-regressive-baserede og ikke-auto-regressive-baserede instant stemme-kloning-rammer brug for adgang til en stor MSML eller massive-taler multi-lingual datasæt til cross-lingual stemme-kloning.

For at tackle udfordringerne, som de nuværende instant stemme-kloning-rammer står over for, har udviklere arbejdet på OpenVoice, en open source instant stemme-kloning-bibliotek, der sigter mod at løse følgende udfordringer, som nuværende IVC-rammer står over for.

Den første udfordring er at give IVC-rammer mulighed for at have fleksibel kontrol over stilparametre ud over tonefarve, herunder accent, rytme, intonation og pauser. Stilparametre er afgørende for at generere naturlige samtaler og tale i stedet for at fortælle input-teksten monoton.
Den anden udfordring er at give IVC-rammer mulighed for at klone cross-lingual stemmer i en zero-shot-indstilling.
Den sidste udfordring er at opnå høj real-tid inferenshastighed uden at forringe kvaliteten.

For at tackle de to første hindringer er OpenVoice-rammens arkitektur designet til at afkoble komponenter i stemmen så meget som muligt. Desuden genererer OpenVoice tonefarve, sprog og andre stemme-funktioner uafhængigt, hvilket giver rammen mulighed for at manipulere enkelt sprogtyper og stemme-stilarter fleksibelt. OpenVoice-rammen tackler den tredje udfordring som standard, da den afkoblede struktur reducerer den komputationelle kompleksitet og model-størrelseskrav.

OpenVoice: Metodik og Arkitektur

Den tekniske ramme for OpenVoice-rammen er effektiv og overraskende simpel at implementere. Det er ingen hemmelighed, at kloning af tonefarve for en hvilken som helst taler, tilføje nyt sprog og give fleksibel kontrol over stemme-parametre samtidigt kan være udfordrende. Det er sådan, fordi udførelse af disse tre opgaver samtidigt kræver, at de kontrollerede parametre intersectionerer ved hjælp af en stor mængde kombinatoriske datasæt. Desuden er det i almindelige enkelt-taler text til tale syntese, for opgaver, der ikke kræver stemme-kloning, lettere at tilføje kontrol over andre stilparametre. Bygning på disse, sigter OpenVoice-rammen mod at afkoble Instant Voice Cloning-opgaverne i underopgaver. Modellen foreslår at anvende en basis-taler Text-to-Speech-model til at kontrollere sproget og stilparametrene og anvender en tonefarve-omvandler til at inkludere reference-tonefarven i den genererede stemme.

I sin kerne anvender OpenVoice-rammen to komponenter: en tonefarve-omvandler og en basis-taler tekst-til-tale eller TTS-model. Den basis-taler tekst-til-tale-model er enten en enkelt-taler eller en multi-taler-model, der giver præcis kontrol over stilparametre, sprog og accent. Modellen genererer en stemme, der herefter overføres til tonefarve-omvandleren, der ændrer basis-talerens tonefarve til tonefarven af reference-taleren.

OpenVoice-rammen tilbyder en stor fleksibilitet, når det kommer til den basis-taler tekst-til-tale-model, da den kan anvende VITS-modellen med små ændringer, der giver mulighed for at acceptere sprog- og stil-embedding i dens varigheds-prædiktor og tekst-encoder. Rammen kan også anvende modeller som Microsoft TTS, der er kommercielt billige, eller den kan anvende modeller som InstructTTS, der er i stand til at acceptere stil-prompter. For tiden anvender OpenVoice-rammen VITS-modellen, selvom de andre modeller også er en mulig mulighed.

Komment til den anden komponent, tonefarve-omvandleren er en encoder-decoder-komponent, der huser en invertibel normaliserende flow i midten. Encoder-komponenten i tonefarve-omvandleren er en en-dimensionel CNN, der accepterer den kort-tids fourier-transformation-spectrums af basis-talerens tekst-til-tale-model som input. Encoderen genererer herefter feature-kort som output. Tonefarve-udtrækkeren er en simpel to-dimensionel CNN, der opererer på mel-spectrogrammet af input-stemmen og genererer en enkelt feature-vektor som output, der indeholder information om tonefarven. Normaliserende flow-lag accepterer feature-kortene, der er genereret af encoderen, som input og genererer en feature-repræsentation, der bevare alle stil-egenskaber, men eliminerer tonefarve-informationen. OpenVoice-rammen anvender herefter normaliserende flow-lag i den inverse retning og tager feature-repræsentationerne som input og output normaliserende flow-lag. Rammen dekoder herefter normaliserende flow-lag til rå lydbølger ved hjælp af en stak af transponerede en-dimensionale konvolutioner.

Den samlede arkitektur for OpenVoice-rammen er feed-forward uden brug af nogen auto-regressive komponent. Tonefarve-omvandler-komponenten ligner stemme-omvandling på et konceptuelt niveau, men adskiller sig i funktion, træningsmål og induktiv bias i modelstrukturen. Normaliserende flow-lag deler samme struktur som flow-baserede tekst-til-tale-modeller, men adskiller sig i funktion og træningsmål.

Desuden findes der en anden tilgang til at udtrække feature-repræsentationer, metoden, der er implementeret af OpenVoice-rammen, leverer bedre lydkvalitet. Det er også værd at bemærke, at OpenVoice-rammen ikke har til hensigt at opfinde komponenter i model-arkitekturen, men begge hovedkomponenterne, dvs. tonefarve-omvandleren og basis-taler TTS-modellen, stammer fra eksisterende arbejder. Den primære mål for OpenVoice-rammen er at danne en afkoblet ramme, der adskiller sprog-kontrol og stemme-stil fra tonefarve-kloning. Selvom tilgangen er ret simpel, er den ret effektiv, især på opgaver, der kontrollerer stilarter og accenter eller nye sprog-generering-opgaver. At opnå samme kontrol, når man anvender en koblet ramme, kræver en stor mængde beregning og data, og den generaliserer ikke godt til nye sprog.

I sin kerne er den primære filosofi for OpenVoice-rammen at afkoble generationen af sprog og stemme-stilarter fra generationen af tonefarve. En af de største styrker for OpenVoice-rammen er, at klon-stemmen er flydende og af høj kvalitet, så længe den enkelt-taler TTS taler flydende.

OpenVoice: Eksperiment og Resultater

At evaluere stemme-kloning-opgaver er en svær opgave på grund af mange årsager. For det første anvender eksisterende arbejder ofte forskellige trænings- og testdata, hvilket gør det intrinsisk urimeligt at sammenligne disse arbejder. Selvom crowdsourcing kan anvendes til at evaluere mål som Mean Opinion Score, vil sværheden og diversiteten af testdataene påvirke det samlede resultat betydeligt. For det andet har forskellige stemme-kloning-metoder forskellige træningsdata, og diversiteten og skalaen af disse data påvirker resultaterne betydeligt. Endelig adskiller sig de primære mål for eksisterende arbejder ofte fra hinanden, hvilket gør, at de adskiller sig i funktion.

På grund af de tre nævnte årsager er det urimeligt at sammenligne eksisterende stemme-kloning-rammer numerisk. I stedet giver det mere mening at sammenligne disse metoder kvalitativt.

Nøjagtig Tonefarve-Kloning

For at analysere dens ydelse opbygger udviklerne en test-sæt med anonyme personer, spil-karakterer og berømtheder, der danner reference-taler-basen, og har en bred stemme-fordeling, herunder både neutrale eksempler og unikke udtryksfulde stemmer. OpenVoice-rammen er i stand til at klone reference-tonefarven og generere tale i multiple sprog og accenter for en hvilken som helst reference-taler og de 4 basis-talere.

Fleksibel Kontrol over Stemme-Stilarter

En af de mål for OpenVoice-rammen er at kontrollere tale-stilarter fleksibelt ved hjælp af tonefarve-omvandleren, der kan ændre tonefarven, mens den bevare alle andre stemme-egenskaber og -parametre.

Eksperimenter viser, at modellen bevare stemme-stilarter efter at have konverteret til reference-tonefarven. I nogle tilfælde dog neutraliserer modellen følelserne lidt, et problem, der kan løses ved at give mindre information til flow-lagene, så de ikke kan eliminere følelsen. OpenVoice-rammen er i stand til at bevare stilarterne fra basis-stemmen takket være dens brug af en tonefarve-omvandler. Det giver OpenVoice-rammen mulighed for at manipulere basis-taler TTS-modellen for at kontrollere stemme-stilarter let.

Cross-Lingual Stemme-Kloning

OpenVoice-rammen inkluderer ikke nogen massive-taler-data for et uset sprog, men den er alligevel i stand til at opnå næsten cross-lingual stemme-kloning i en zero-shot-indstilling. Cross-lingual stemme-kloning-kapaciteterne for OpenVoice-rammen er to-fold:

Modellen er i stand til at klone tonefarven af reference-taleren nøjagtigt, når sproget for reference-taleren er uset i multi-taler multi-lingual eller MSML-datasættet.
Desuden, i samme tilfælde, hvor sproget for reference-taleren er uset, er OpenVoice-rammen i stand til at klone stemmen af reference-taleren og tale på sproget, under forudsætning af, at basis-taler TTS-modellen understøtter sproget.

Endelige Tanker

I denne artikel har vi talt om OpenVoice, en fleksibel instant stemme-kloning-ramme, der replikerer stemmen af en hvilken som helst bruger og genererer tale i multiple sprog ved hjælp af et kort lydklippet fra reference-taleren. Den primære intuition bag OpenVoice er, at så længe en model ikke behøver at udføre tonefarve-kloning af reference-taleren, kan en ramme anvende en basis-taler TTS-model til at kontrollere sproget og stemme-stilarterne.

OpenVoice demonstrerer, at Instant Voice Cloning-modeller kan replikere tonefarven af reference-taleren og opnå granuleret kontrol over stemme-stilarter, herunder accent, rytme, intonation, pauser og selv følelser. OpenVoice leverer overlegne instant stemme-kloning-resultater, samtidig med at den er komputationelt viable med driftsomkostninger op til 10 gange mindre end nuværende tilgængelige API’er med ringere ydelse.

Unite.AI