Künstliche Intelligenz

OpenVoice: Vielseitige Instant Voice Cloning

Published February 5, 2024

Updated April 4, 2026

Kunal Kejriwal

In der Text-to-Speech-Synthese (TTS) ermöglicht die Instant Voice Cloning (IVC) dem TTS-Modell, die Stimme eines beliebigen Referenzsprechers mithilfe eines kurzen Audio-Samples zu klonen, ohne dass zusätzliche Schulungen für den Referenzsprecher erforderlich sind. Diese Technik ist auch als Zero-Shot-Text-to-Speech-Synthese bekannt. Der Instant-Voice-Cloning-Ansatz ermöglicht eine flexible Anpassung der generierten Stimme und zeigt einen erheblichen Wert in einer Vielzahl von realen Situationen, einschließlich personalisierter Chatbots, Content-Erstellung und Interaktionen zwischen Menschen und Large Language Models (LLMs).

Obwohl die aktuellen Voice-Cloning-Frameworks ihre Arbeit gut machen, sind sie von einigen Herausforderungen im Feld geplagt, einschließlich Flexibler Voice-Style-Kontrolle, d. h. Modelle fehlen die Fähigkeit, Voice-Styles flexibel nach dem Klonen der Stimme zu manipulieren. Ein weiteres großes Hindernis, das von aktuellen Instant-Cloning-Frameworks遇遇 wird, ist Zero-Shot-Cross-Lingual-Voice-Cloning, d. h. für Schulungszwecke benötigen aktuelle Modelle Zugang zu einem umfangreichen massive-Speaker-Multi-Lingual- oder MSML-Datensatz, unabhängig von der Sprache.

Um diese Probleme zu lösen und zur Verbesserung von Instant-Voice-Cloning-Modellen beizutragen, haben Entwickler an OpenVoice gearbeitet, einem vielseitigen Instant-Voice-Cloning-Framework, das die Stimme eines beliebigen Benutzers repliziert und Sprache in mehreren Sprachen mithilfe eines kurzen Audio-Clips vom Referenzsprecher generiert. OpenVoice zeigt, dass Instant-Voice-Cloning-Modelle die Tonfarbe des Referenzsprechers replizieren und eine granulare Kontrolle über Voice-Styles einschließlich Akzent, Rhythmus, Intonation, Pausen und sogar Emotionen erreichen können. Was noch beeindruckender ist, ist, dass das OpenVoice-Framework auch bemerkenswerte Fähigkeiten bei der Erreichung von Zero-Shot-Cross-Lingual-Voice-Cloning für Sprachen außerhalb des MSML-Datensatzes zeigt, was es OpenVoice ermöglicht, Stimmen in neue Sprachen zu klonen, ohne umfangreiche Vor-Schulung für diese Sprache. OpenVoice liefert überlegene Instant-Voice-Cloning-Ergebnisse, während es rechnerisch tragbar ist, mit Betriebskosten, die bis zu 10 Mal geringer sind als die aktuellen verfügbaren APIs mit schlechterer Leistung.

In diesem Artikel werden wir das OpenVoice-Framework im Detail besprechen und seine Architektur aufdecken, die es ermöglicht, eine überlegene Leistung bei Instant-Voice-Cloning-Aufgaben zu erzielen. Also los geht’s.

OpenVoice: Ermöglichung von vielseitigem Instant-Voice-Cloning

Wie bereits erwähnt, ermöglicht Instant-Voice-Cloning, auch als Zero-Shot-Text-to-Speech-Synthese bekannt, dem TTS-Modell, die Stimme eines beliebigen Referenzsprechers mithilfe eines kurzen Audio-Samples zu klonen, ohne dass zusätzliche Schulungen für den Referenzsprecher erforderlich sind. Instant-Voice-Cloning war immer ein heißes Forschungsthema mit bestehenden Arbeiten, einschließlich XTTS- und VALLE-Frameworks, die Sprecher-Embeddings und/oder akustische Token aus dem Referenz-Audio extrahieren, das als Bedingung für das auto-regressive Modell dient. Das auto-regressive Modell generiert dann akustische Token sequenziell und decodiert diese Token in ein rohes Audio-Signal.

Obwohl auto-regressive Instant-Voice-Cloning-Modelle die Tonfarbe bemerkenswert replizieren, fehlen sie in der Manipulation anderer Style-Parameter, einschließlich Akzent, Emotion, Pausen und Rhythmus. Darüber hinaus erfahren auto-regressive Modelle eine niedrige Inferenzgeschwindigkeit und ihre Betriebskosten sind ziemlich hoch. Bestehende Ansätze wie das YourTTS-Framework verwenden einen nicht-auto-regressiven Ansatz, der eine wesentlich schnellere Inferenzsprache über auto-regressive Ansätze zeigt, aber dennoch nicht in der Lage sind, ihren Benutzern eine flexible Kontrolle über Style-Parameter zu bieten. Darüber hinaus benötigen sowohl auto-regressive als auch nicht-auto-regressive Instant-Voice-Cloning-Frameworks Zugang zu einem großen MSML- oder massive-Speaker-Multi-Lingual-Datensatz für Cross-Lingual-Voice-Cloning.

Um die Herausforderungen, die aktuellen Instant-Voice-Cloning-Frameworks gegenüberstehen, zu lösen, haben Entwickler an OpenVoice gearbeitet, einer Open-Source-Instant-Voice-Cloning-Bibliothek, die darauf abzielt, die folgenden Herausforderungen zu lösen, die aktuellen IVC-Frameworks gegenüberstehen.

Die erste Herausforderung besteht darin, IVC-Frameworks zu ermöglichen, eine flexible Kontrolle über Style-Parameter zu haben, einschließlich Akzent, Rhythmus, Intonation und Pausen. Style-Parameter sind entscheidend, um in Kontext natürliche Konversationen und Sprache zu generieren, anstatt den Eingabetext monoton zu erzählen.
Die zweite Herausforderung besteht darin, IVC-Frameworks zu ermöglichen, Cross-Lingual-Stimmen in einer Zero-Shot-Einstellung zu klonen.
Die letzte Herausforderung besteht darin, eine hohe Echtzeit-Inferenzgeschwindigkeit zu erreichen, ohne die Qualität zu beeinträchtigen.

Um die ersten beiden Hürden zu überwinden, ist die Architektur des OpenVoice-Frameworks so konzipiert, dass es die Komponenten in der Stimme bestmöglich entkoppelt. Darüber hinaus generiert OpenVoice die Tonfarbe, Sprache und andere Voice-Features unabhängig, was es dem Framework ermöglicht, individuelle Sprachtypen und Voice-Styles flexibel zu manipulieren. Das OpenVoice-Framework überwindet die dritte Herausforderung standardmäßig, da die entkoppelte Struktur die rechnerische Komplexität und die Modellgröße reduziert.

OpenVoice: Methodik und Architektur

Die technische Grundlage des OpenVoice-Frameworks ist effektiv und überraschend einfach zu implementieren. Es ist kein Geheimnis, dass das Klonen der Tonfarbe für jeden Sprecher, das Hinzufügen einer neuen Sprache und die Ermöglichung einer flexiblen Kontrolle über Voice-Parameter gleichzeitig herausfordernd sein kann. Es ist so, weil die Ausführung dieser drei Aufgaben gleichzeitig die kontrollierten Parameter erfordert, die mithilfe eines großen Teils von kombinatorischen Datensätzen überschneiden. Darüber hinaus ist es in regulären Single-Speaker-Text-to-Speech-Synthese-Aufgaben, die keine Voice-Cloning erfordern, einfacher, eine Kontrolle über andere Style-Parameter hinzuzufügen. Aufbauend auf diesen Erkenntnissen zielt das OpenVoice-Framework darauf ab, die Instant-Voice-Cloning-Aufgaben in Subaufgaben zu unterteilen. Das Modell schlägt vor, ein Basis-Speaker-Text-to-Speech-Modell zu verwenden, um die Sprache und die Style-Parameter zu kontrollieren, und ein Tonfarben-Konverter, um die Referenz-Tonfarbe in die generierte Stimme einzubinden.

Im Kern verwendet das OpenVoice-Framework zwei Komponenten: einen Tonfarben-Konverter und ein Basis-Speaker-Text-to-Speech- oder TTS-Modell. Das Basis-Speaker-Text-to-Speech-Modell ist entweder ein Single-Speaker- oder ein Multi-Speaker-Modell, das eine präzise Kontrolle über Style-Parameter, Sprache und Akzent ermöglicht. Das Modell generiert eine Stimme, die dann an den Tonfarben-Konverter weitergeleitet wird, der die Basis-Speaker-Tonfarbe in die Tonfarbe des Referenzsprechers ändert.

Das OpenVoice-Framework bietet eine Vielzahl von Flexibilität, wenn es um das Basis-Speaker-Text-to-Speech-Modell geht, da es das VITS-Modell mit leichten Modifikationen verwenden kann, um Sprache- und Style-Embeddings in seinem Duration-Predictor und Text-Encoder zu akzeptieren. Das Framework kann auch Modelle wie Microsoft TTS verwenden, die kommerziell günstig sind, oder es kann Modelle wie InstructTTS verwenden, die in der Lage sind, Style-Prompts zu akzeptieren. Derzeit verwendet das OpenVoice-Framework das VITS-Modell, obwohl die anderen Modelle auch eine gangbare Option sind.

Kommen wir zur zweiten Komponente, dem Tonfarben-Konverter, der eine Encoder-Decoder-Komponente mit einem invertierbaren Normalisierungsfluss in der Mitte ist. Die Encoder-Komponente im Tonfarben-Konverter ist eine eindimensionale CNN, die das kurze Fourier-Transformations-Spektrum des Basis-Speaker-Text-to-Speech-Modells als Eingabe akzeptiert. Die Encoder generieren dann Feature-Maps als Ausgabe. Der Tonfarben-Extractor ist eine einfache zweidimensionale CNN, die auf dem Mel-Spektrum der Eingabestimme operiert und einen einzelnen Feature-Vektor als Ausgabe generiert, der die Information der Tonfarbe codiert. Die Normalisierungsfluss-Schichten akzeptieren die Feature-Maps, die von der Encoder generiert werden, als Eingabe und generieren eine Feature-Darstellung, die alle Style-Eigenschaften bewahrt, aber die Tonfarbe-Information eliminiert. Das OpenVoice-Framework wendet dann die Normalisierungsfluss-Schichten in umgekehrter Richtung an und nimmt die Feature-Darstellungen als Eingabe und gibt die Normalisierungsfluss-Schichten als Ausgabe aus. Das Framework decodiert dann die Normalisierungsfluss-Schichten in rohe Wellenformen mithilfe eines Stapels von transponierten eindimensionalen Konvolutionen.

Die gesamte Architektur des OpenVoice-Frameworks ist feed-forward, ohne die Verwendung von auto-regressiven Komponenten. Die Tonfarben-Konverter-Komponente ist konzeptionell ähnlich wie die Stimmenkonvertierung, aber unterscheidet sich in Bezug auf Funktionalität, Trainingsziele und induktive Verzerrung in der Modellstruktur. Die Normalisierungsfluss-Schichten teilen die gleiche Struktur wie flussbasierte Text-to-Speech-Modelle, aber unterscheiden sich in Bezug auf Funktionalität und Trainingsziele.

Darüber hinaus gibt es einen anderen Ansatz, um Feature-Darstellungen zu extrahieren, die Methode, die vom OpenVoice-Framework implementiert wird, liefert eine bessere Audio-Qualität. Es ist auch erwähnenswert, dass das OpenVoice-Framework keine Absicht hat, Komponenten in der Modellarchitektur zu erfinden, sondern dass beide Hauptkomponenten, nämlich der Tonfarben-Konverter und das Basis-Speaker-TTS-Modell, aus bestehenden Arbeiten stammen. Das primäre Ziel des OpenVoice-Frameworks ist es, ein entkoppeltes Framework zu bilden, das die Sprachsteuerung und die Voice-Style von der Tonfarben-Kloning trennt. Obwohl der Ansatz ziemlich einfach ist, ist er besonders effektiv, insbesondere bei Aufgaben, die Style- und Akzentkontrolle oder neue Sprachgeneralisierungsaufgaben erfordern. Die Erreichung der gleichen Kontrolle bei der Verwendung eines gekoppelten Frameworks erfordert eine große Menge an Rechenleistung und Daten und generalisiert nicht gut auf neue Sprachen.

Im Kern ist die Hauptphilosophie des OpenVoice-Frameworks, die Generierung von Sprache und Voice-Styles von der Generierung der Tonfarbe zu trennen. Eine der Hauptstärken des OpenVoice-Frameworks ist, dass die geklonte Stimme flüssig und von hoher Qualität ist, solange das Single-Speaker-TTS flüssig spricht.

OpenVoice: Experiment und Ergebnisse

Die Bewertung von Voice-Cloning-Aufgaben ist eine schwierige Aufgabe aufgrund mehrerer Gründe. Zunächst verwenden bestehende Arbeiten oft unterschiedliche Trainings- und Testdaten, was es unfair macht, diese Arbeiten intrinsisch zu vergleichen. Obwohl Crowdsourcing verwendet werden kann, um Metriken wie den Mean Opinion Score zu bewerten, wird das Ergebnis erheblich von der Schwierigkeit und Vielfalt der Testdaten beeinflusst. Zweitens haben unterschiedliche Voice-Cloning-Methoden unterschiedliche Trainingsdaten, und die Vielfalt und der Umfang dieser Daten beeinflussen das Ergebnis erheblich. Schließlich unterscheiden sich die primären Ziele bestehender Arbeiten voneinander, daher unterscheiden sie sich in ihrer Funktionalität.

Aufgrund der drei oben genannten Gründe ist es unfair, bestehende Voice-Cloning-Frameworks numerisch zu vergleichen. Stattdessen macht es mehr Sinn, diese Methoden qualitativ zu vergleichen.

Genaue Tonfarben-Kloning

Um seine Leistung zu analysieren, bauen Entwickler einen Testdatensatz mit anonymen Personen, Spielcharakteren und Berühmtheiten, die die Referenzsprecherbasis bilden, und haben eine breite Stimmenverteilung, einschließlich neutraler Proben und einzigartiger ausdrucksstarker Stimmen. Das OpenVoice-Framework kann die Referenz-Tonfarbe klonen und Sprache in mehreren Sprachen und Akzenten für jeden der Referenzsprecher und die 4 Basis-Sprecher generieren.

Flexible Kontrolle über Voice-Styles

Eines der Ziele des OpenVoice-Frameworks ist es, die Sprechstile flexibel mithilfe des Tonfarben-Konverters zu kontrollieren, der die Tonfarbe ändern kann, während er alle anderen Voice-Features und -Eigenschaften bewahrt.

Experimente zeigen, dass das Modell die Voice-Styles nach der Umwandlung in die Referenz-Tonfarbe bewahrt. In einigen Fällen jedoch neutralisiert das Modell die Emotionen leicht, ein Problem, das durch das Weiterleiten weniger Informationen an die Fluss-Schichten gelöst werden kann, so dass sie nicht in der Lage sind, die Emotion zu eliminieren. Das OpenVoice-Framework kann die Style-Parameter dank seiner Verwendung eines Tonfarben-Konverters bewahren. Es ermöglicht dem OpenVoice-Framework, das Basis-Speaker-Text-to-Speech-Modell leicht zu manipulieren, um die Voice-Styles zu kontrollieren.

Cross-Lingual-Voice-Kloning

Das OpenVoice-Framework enthält keine massive-Speaker-Daten für eine unbekannte Sprache, kann jedoch nahezu Cross-Lingual-Voice-Kloning in einer Zero-Shot-Einstellung erreichen. Die Cross-Lingual-Voice-Kloning-Fähigkeiten des OpenVoice-Frameworks sind zweifach:

Das Modell kann die Tonfarbe des Referenzsprechers genau klonen, wenn die Sprache des Referenzsprechers im Multi-Speaker-Multi-Lingual- oder MSML-Datensatz unbekannt ist.
Darüber hinaus kann das OpenVoice-Framework, wenn die Sprache des Referenzsprechers im MSML-Datensatz unbekannt ist, die Stimme des Referenzsprechers klonen und in der Sprache sprechen, vorausgesetzt, dass das Basis-Speaker-Text-to-Speech-Modell die Sprache unterstützt.

Final Thoughts

In diesem Artikel haben wir über OpenVoice gesprochen, einem vielseitigen Instant-Voice-Cloning-Framework, das die Stimme eines beliebigen Benutzers repliziert und Sprache in mehreren Sprachen mithilfe eines kurzen Audio-Clips vom Referenzsprecher generiert. Die primäre Intuition hinter OpenVoice ist, dass solange ein Modell nicht die Tonfarbe des Referenzsprechers klonen muss, ein Framework ein Basis-Speaker-TTS-Modell verwenden kann, um die Sprache und die Voice-Styles zu kontrollieren.

OpenVoice zeigt, dass Instant-Voice-Cloning-Modelle die Tonfarbe des Referenzsprechers replizieren und eine granulare Kontrolle über Voice-Styles einschließlich Akzent, Rhythmus, Intonation, Pausen und sogar Emotionen erreichen können. OpenVoice liefert überlegene Instant-Voice-Cloning-Ergebnisse, während es rechnerisch tragbar ist, mit Betriebskosten, die bis zu 10 Mal geringer sind als die aktuellen verfügbaren APIs mit schlechterer Leistung.

Unite.AI