Künstliche Intelligenz
HierSpeech++ : Hierarchische Variational Inferenz für Zero-Shot-Sprachsynthese
Die jüngsten Entwicklungen und Fortschritte in den Fähigkeiten großer Sprachmodelle haben eine entscheidende Rolle bei der Weiterentwicklung von LLM-basierten Frameworks für Audio-Generierung und Sprachsynthese-Aufgaben gespielt, insbesondere im Zero-Shot-Szenario. Traditionelle Sprachsynthese-Frameworks haben aufgrund der Integration zusätzlicher Funktionen wie neuronaler Audio-Codecs für diskrete Audio- und SprachEinheiten erhebliche Fortschritte gemacht. Obwohl diese Sprach- und Audio-Synthese-Frameworks zufriedenstellende Ergebnisse liefern, gibt es noch Raum für Verbesserungen, da die aktuellen LLM-basierten Audio-Frameworks die folgenden drei wesentlichen Einschränkungen aufweisen
- Sie neigen dazu, Audio-Ausgaben selbst zu generieren, was letztendlich zu einem Mangel an Robustheit und langsamen Interferenzgeschwindigkeiten führt und zu Fehlern wie falscher Aussprache, Auslassungen oder Wiederholungen führt.
- Sie neigen dazu, sich zu sehr auf diskrete SprachEinheiten oder vorgefertigte neuronale Audio-Codecs zu verlassen.
- Sie erfordern oft eine große Menge an Trainingsdaten.
Um die oben genannten Probleme zu lösen und die Fähigkeiten von LLM-basierten Audio- und Sprachsynthese-Modellen zu verbessern, haben Entwickler HierSpeech++ entwickelt, einen robusten und effizienten Zero-Shot-Sprachsynthesizer für Voice- und Text-to-Speech- oder TTS-Konversionen. Das HierSpeech++-Framework basiert auf den Erkenntnissen aus hierarchischen Sprachsynthese-Frameworks, die nicht nur die Robustheit verbessern, sondern auch die Ausdrucksfähigkeit der synthetischen Sprachausgabe erhöhen und die Natürlichkeit und Sprecherähnlichkeit der künstlich generierten Sprache sogar in einem Zero-Shot-Szenario steigern.
In diesem Artikel werden wir uns mit dem HierSpeech++-Framework im Detail befassen und uns seine Architektur, Funktionsweise und Ergebnisse im Vergleich zu aktuellen Text- und Audio-Generierungsmodellen ansehen. Also los geht’s.
HierSpeech++ : Hierarchische Variational Inferenz für Zero-Shot-Sprachsynthese
HierSpeech++ ist ein schneller, robuster und effizienter Zero-Shot-Sprachsynthese-Framework, der eine hierarchische Sprachsynthese-Pipeline verwendet und durch die Verwendung dieses End-to-End-Sprachsynthese-Frameworks in der Lage ist, das Potenzial der hochwertigen Wellenform-Generierung zu nutzen, um hierarchisch die Lücke zwischen semantischen und akustischen Repräsentationen zu überbrücken, indem es eine selbstüberwachte Sprachrepräsentation als semantische Sprachrepräsentation verwendet und damit versucht, die aktuellen Einschränkungen der Stil-Anpassungen zu lösen. Das End-to-End-Sprachsynthese-Framework wurde erstmals vom VITS-Modell vorgestellt und verwendet ein VAE oder Variational Auto-Encoder mit adversarialer Ausbildung und Normalisierungsfluss. Darüber hinaus haben VAE-basierte Frameworks mit einem End-to-End-Trainings-Pipeline die Fähigkeit, hochwertige Wellenform-Audio mit einer wahrnehmbaren Sprachsynthese-Qualität zu generieren, die erheblich besser ist als die von anderen Sprachsynthese-Frameworks generierten.
Die Audio-Rekonstruktions-Qualität dieser Frameworks kann durch die Verwendung eines hierarchischen bedingten Variational Auto-Encoders, wie er im HierSpeech-Framework verwendet wird, weiter verbessert werden. Trotz ihrer Potenziale haben Modelle mit einer End-to-End-Trainings-Pipeline bestimmte Einschränkungen, insbesondere in einem Zero-Shot-Szenario, da sie zwar Sprachproben mit hochwertigem Audio synthesieren können, die Sprecherähnlichkeit bei Zero-Shot-Stimmen-Kloning-Aufgaben jedoch immer noch mit hoher Rechenkomplexität behaftet ist. Andererseits verhalten sich diffusionsbasierte Sprachsynthese-Modelle gut in Bezug auf Sprecher-Anpassungen, aber sie sind noch weit von perfekt entfernt, da sie einen interaktiven Generierungsprozess verwenden, der die Inferenz-Geschwindigkeit verlangsamt, sie oft anfällig für verrauschtes Daten sind und aufgrund der Diskrepanz zwischen Training und Inferenz des zweistufigen Generierungsprozesses zwischen dem Mel-Spektrogramm und dem generierten Ground-Truth die Audio-Qualität nicht den Erwartungen entspricht.
Um die Probleme seiner Vorgänger zu lösen, verwendet das HierSpeech++-Modell einen hierarchischen Sprachsynthesizer, eine Sprach-Super-Auflösung und eine Text-zu-Vec-Komponente und führt einen verbesserten hierarchischen Sprachsynthesizer ein, der auf dem hierarchischen bedingten VAE oder Variational Auto-Encoder basiert. Um die Audio-Qualität über die wahrnehmbare Qualität hinaus zu verbessern, verwendet das HierSpeech++-Framework ein Dual-Audio, um den akustischen Posterior zu verbessern, und verbessert die Verallgemeinerung außerhalb der Verteilung, indem es einen hierarchischen adaptiven Generator mit bedingter und unbedingter Generierung verwendet. Darüber hinaus verwendet das HierSpeech++-Framework, um Sprachkomponenten zu entflechten und sprecherbezogene und sprecherunabhängige semantische Informationen zu verbessern, einen Quell-Filter-Theorie-basierten Multi-Path-Semantik-Encoder. Als Ergebnis der Verwendung eines Variational Auto-Encoders kann das HierSpeech++-Modell Repräsentationen hierarchisch verbinden und lernen und sich schrittweise an den Ziel-Stimmen-Stil anpassen, um die Wellenform-Audio zu inferieren. Darüber hinaus setzt das HierSpeech++-Framework eine bidirektionale Netzwerk von Normalisierungsfluss-Transformern ein, um die Anpassung zu verbessern und die Diskrepanz zwischen Training und Inferenz zu reduzieren.
Insgesamt ist das HierSpeech++-Modell ein vollständig paralleles, neuartiges und robustes hierarchisches Sprachsynthese-Framework, das darauf abzielt, Sprachproben in einem Zero-Shot-Szenario zu synthesieren, und versucht, die folgenden Beiträge zu leisten
- Verwendung eines hierarchischen Sprachsynthese-Frameworks, um Stimmen-Stile und Prosodie zu kontrollieren und zu übertragen.
- Ermöglichung von Daten-Skalierbarkeit und hochauflösender Sprachsynthese, indem die Wellenform-Audio von 16 auf 48 kHz aufgesampelt wird.
- Erreichung von menschlicher Fähigkeit bei Zero-Shot-Stimmen-Konversion und Text-zu-Sprache-Aufgaben.
HierSpeech++ : Modellkomponenten und Architektur
Wie bereits diskutiert, ist HierSpeech++ ein Zero-Shot-Sprachsynthese-Modell, das darauf abzielt, menschliche Genauigkeit in Bezug auf Stimmenähnlichkeit und Sprachnatürlichkeit zu erreichen.

Das HierSpeech++-Modell besteht aus verschiedenen Komponenten, einschließlich eines hierarchischen Sprachsynthesizers, einer Sprach-Super-Auflösung und einer Text-zu-Vec-Komponente, die zusammenarbeiten, um die Ausbildung jedes Modells zu ermöglichen, das effektiv eine große Menge an niedrigauflösenden Sprachdaten für Stimmen-Kloning nutzen kann. Lassen Sie uns das Framework aufschlüsseln und über jede Komponente sprechen.
Sprachrepräsentationen
Da der menschliche Frequenzbereich unter 4 kHz liegt, wird für die Sprachsynthese das HierSpeech++-Framework das Audio bei 16 kHz heruntersampelt. Darüber hinaus ist es für die Rekonstruktion des Sprachsignals wichtig, mindestens das Doppelte der höchsten Komponente der Sprachfrequenz zu verwenden, zusätzlich zu der Heruntersamplung des Audio-Signals. Um eine verbesserte wahrnehmbare Qualität zu erreichen, verwendet das HierSpeech++-Framework eine Sprach-Super-Auflösung oder SpeechSR-Komponente, um das Audio-Signal von 16 auf 48 kHz aufzusampeln, und verwendet niedrigauflösende Repräsentationen für semantische und akustische Repräsentationen.

Für akustische Repräsentationen verwendet ein traditionelles Text-zu-Sprache- oder TTS-Framework ein Mel-Spektrogramm als Zwischenakustik-Feature, das dann mit Hilfe eines STFT oder Short-Time Fourier Transform aus der Wellenform transformiert wird. Es ist jedoch zu beachten, dass akustische Features reiche Repräsentationen sind, die verschiedene Attribute wie Inhalt und Aussprache, Stimmeninformationen und mehr umfassen, was es dem Framework schwer macht, diese Repräsentationen zu inferieren, was oft zu Fehlern wie falscher Aussprache, Auslassungen oder Überglättung der Sprache führt.
Weiterhin verwendet das HierSpeech++-Framework, um eine kontinuierliche semantische Repräsentation aus einer Wellenform zu extrahieren, ein Wav2Vec-Framework im Gegensatz zum populären selbstüberwachten Sprachrepräsentationsansatz für semantische Repräsentationen. Obwohl dieser Ansatz eine gute Alternative für ein reiches monolinguales Modell darstellt, beeinträchtigt er die Zero-Shot-Stimmen-Kloning-Fähigkeiten des Modells in Bezug auf Robustheit und Ausdrucksfähigkeit, insbesondere bei multilingualer Sprachsynthese-Aufgaben.
Hierarchischer Sprachsynthesizer
Die Komponente des hierarchischen Sprachsynthesizers ist der Grundstein für das HierSpeech++-Framework, da sie die Ausbildung des Moduls ohne die Verwendung von Labels wie Texttranskripten oder Sprecher-IDs ermöglicht und sich ausschließlich auf Sprachdaten verlässt. Um die akustische Kapazität zu erhöhen, haben vorherige State-of-the-Art-Sprachsynthese-Modelle das Mel-Spektrogramm durch ein lineares Spektrogramm ersetzt, jedoch minimiert dieser Ansatz die KL-Divergenz-Bewertung in Bezug auf Pitch-Periodizität, PESQ, Stimme und unstimmierte Bewertung und sogar Mel-Spektrogramm-Distanz. Der hierarchische Sprachsynthesizer verwendet einen Dual-Audio-Akustik-Encoder, um die Herausforderungen zu lösen, die durch die Verwendung eines linearen Spektrogramms entstehen, das darauf ausgelegt ist, umfassendere akustische Repräsentationen zu erfassen. Das Framework verwendet auch einen Wellenform-Encoder, um Informationen aus einer rohen Wellenform-Audio zu destillieren, und verbindet sie mit der linearen Spektrogramm-Repräsentation und projiziert schließlich die akustische Repräsentation als verknüpfte Repräsentation.

Darüber hinaus verwendet das HierSpeech++-Framework, um sprecherunabhängige und sprecherbezogene semantische Repräsentationen zu behandeln, eine Multi-Path-Selbstüberwachte-Sprachrepräsentation, bei der jede einzelne Repräsentation für hierarchische Stil-Anpassungen verwendet wird, wobei die semantischen Repräsentationen extrahiert werden, um linguistische Informationen aus der mittleren Schicht des MMS zu erhalten. Das Framework verwendet auch eine Grundfrequenz, um die Sprach-Entflechtung zu verbessern, was es ermöglicht, den Pitch-Verlauf manuell zu steuern. Das Framework verwendet auch eine linguistische Repräsentation als bedingte Information, um Wellenform-Audio hierarchisch zu generieren, und verwendet eine verbesserte linguistische Repräsentation der selbstüberwachten Repräsentation. Es ist auch zu beachten, dass die während des Trainings extrahierten akustischen Repräsentationen unter Verwendung einer Wellenform und eines linearen Spektrogramms verwendet werden, um die rohe Wellenform-Audio zu rekonstruieren, und eine hierarchische Variational-Inferenz wird verwendet, um die akustischen Repräsentationen mit den Multi-Path-linguistischen Repräsentationen zu verknüpfen. Das Framework verwendet auch einen hierarchischen adaptiven Generator (HAG), um semantische-zu-Wellenform-Proben zu generieren, und die generierten Repräsentationen, die eine Stil-Repräsentation und eine akustische Repräsentation umfassen, werden den Quell- und Wellenform-Generatoren zugeführt.
Text-zu-Vec
Für Text-zu-Sprache-Synthese verwendet das HierSpeech++-Framework ein Text-zu-Vec- oder TTV-Modell, das eine Grundfrequenz und eine semantische Repräsentation aus einer Textsequenz generiert und ein monotonisches Align-Verfahren mit einem Variational-Auto-Encoder verwendet, um die Sprache und den Text intern zu alignen. Das HierSpeech++-Framework ersetzt dann das lineare Spektrogramm durch eine selbstüberwachte lineare Repräsentation und rekonstruiert dieselbe Repräsentation, um als Ausgabe für das TTV zu dienen.

Darüber hinaus sagt das HierSpeech++-Framework die Grundfrequenz mit viermal höherer Auflösung als die selbstüberwachten Sprachrepräsentationen voraus und verwendet eine bedingte Text-Repräsentation als a priori-Information. Als Ergebnis der semantischen Informationen der selbstüberwachten Sprachrepräsentationen ist das Framework in der Lage, den Prosodie-Stil im Text-zu-Vec-Modell zu übertragen und füttert eine latente Repräsentation in den Phonem-Encoder, um die linguistischen Fähigkeiten der Repräsentation zu verbessern.
Sprach-SR oder Sprach-Super-Auflösung
Das HierSpeech++-Framework wird auf einem relativ niedrigauflösenden Datensatz in Bezug auf Daten-Effizienz und Verfügbarkeit trainiert und sampelt eine niedrigauflösende Sprach-Wellenform auf eine hochauflösende Sprach-Wellenform von 16 auf 48 kHz auf. Das Framework ersetzt auch eine transponierte Konvolution durch den nächsten Nachbarn-Aufampler, der zuvor bekannt war, Artefakte aufgrund von transponierten Konvolutionen zu lindern.

Architektur
Der Content-Encoder des Text-zu-Vec-Modells besteht aus 16 nicht-kasualen WaveNet-Schichten mit einer Kernel-Größe von 5 und einer versteckten Größe von 256, während der Content-Decoder aus 8 nicht-kasualen WaveNet-Schichten mit einer Kernel-Größe von 5 und einer versteckten Größe von 512 besteht. Die Text-Encoder-Komponente besteht aus drei Prosodie-konditionalen Transformer-Netzwerken und drei unbedingten Transformer-Netzwerken mit einer Kernel-Größe von 9, Filter-Größe von 1024 und einer versteckten Größe von 256, wobei der Text-Encoder eine Dropout-Rate von 0,2 hat. Um benachbarte Informationen zu kodieren und die Prosodie-Stil-Anpassung zu verbessern, verwendet das Framework eine CNN mit einer Kernel-Größe von 5 in Transformer-Blöcken. Die Sprach-SR besteht aus einem einzelnen AMP-Block mit 32 initialen Kanälen ohne die Anwesenheit eines Aufsamplungs-Layers. Das Framework verwendet einen nächsten Nachbarn-Aufampler, um die versteckten Repräsentationen aufzusampeln und verwendet ein MPD als Diskriminator mit sechs verschiedenen Fenstergrößen und vier Sub-Band-Diskriminatoren.

Die obige Abbildung zeigt die Inferenz-Pipeline des HierSpeech++-Frameworks, die mit der Extraktion der semantischen Repräsentationen aus dem Audio bei einer Frequenz von 16 kHz und bei der Grundfrequenz unter Verwendung des YAPPT-Algorithmus beginnt. Bevor die Grundfrequenz an den hierarchischen Synthesizer gesendet werden kann, wird sie mithilfe der Standard- und Mittel-Abweichungen des Quell-Audios normalisiert, und die normalisierte Grundfrequenz wird dann durch die Verwendung der Standard- und Mittel-Abweichungen des Ziel-Audios denormalisiert. Für Text-zu-Sprache-Extraktionen extrahiert das HierSpeech++-Framework textuelle Repräsentationen anstelle von Sprachrepräsentationen und verwendet das Text-zu-Vec-Modell, um eine semantische Repräsentation aus dem Prosodie-Prompt zu generieren.
Experiment und Ergebnisse
Das Framework verwendet das öffentlich verfügbare LibriTTS-Datensatz, um die hierarchische Synthesizer-Komponente zu trainieren, wobei der erste Schritt darin besteht, das Modell mit den Trainings-Datensätzen des Datensatzes zu trainieren und die verbleibenden Daten zu verwenden, um die Übertragung des Stimmen-Stils zu ermöglichen. Darüber hinaus wird der Datensatz auf 1 kHz aufgesampelt, um die Vielfalt und Robustheit zu verbessern, wie in der folgenden Abbildung gezeigt.

Rekonstruktion, Resynthese-Aufgaben und Stimmen-Konversion
Um die Leistung des HierSpeech++-Frameworks bei Rekonstruktions- und Resynthese-Aufgaben zu bewerten, führten die Entwickler sieben objektive Metriken durch, und die Ergebnisse sind in den folgenden Abbildungen für Rekonstruktions- und Resynthese-Aufgaben dargestellt.


Für Stimmen-Konversions-Aufgaben verwendet das Framework zwei subjektive Metriken für die Bewertung: Stimmen-Ähnlichkeit MOS oder sMOS und Natürlichkeit-Mittel-Meinungs-Score von nMOS mit drei Natürlichkeits-Objektiv-Metriken und zwei Ähnlichkeits-Objektiv-Metriken.

Weiterhin ist das primäre Ziel des HierSpeech++-Frameworks, Zero-Shot-Sprachsynthese zu ermöglichen, und um seine Leistung in Zero-Shot zu bewerten, wird es mit anderen Basismodellen wie AutoVC, VoiceMixer, Diffusions-basierten Modellen und vielen mehr verglichen, wobei die Ergebnisse in der folgenden Abbildung dargestellt sind.

Die folgenden Abbildungen zeigen die Zero-Shot-Text-zu-Sprache-Ergebnisse mit verrauschten Prompts und sehr verrauschten Prompts.


Final Thoughts
In diesem Artikel haben wir über das HierSpeech++-Modell gesprochen, einen neuartigen Ansatz, um robuste und effektive Sprachsynthese in einem Zero-Shot-Szenario zu ermöglichen und die Einschränkungen zu überwinden, die currente Sprachsynthese-Frameworks aufweisen, einschließlich ihrer Abhängigkeit von großen Mengen an Trainingsdaten, ihrer Abhängigkeit von diskreten Sprach-Einheiten oder vorgefertigten neuronalen Audio-Codecs und ihrer Neigung, Audio-Ausgaben selbst zu generieren, was letztendlich zu einem Mangel an Robustheit und langsamen Interferenz-Geschwindigkeiten führt und zu Fehlern wie falscher Aussprache, Auslassungen oder Wiederholungen führt. Das HierSpeech++-Modell ist ein vollständig paralleles, neuartiges und robustes hierarchisches Sprachsynthese-Framework, das darauf abzielt, Sprachproben in einem Zero-Shot-Szenario zu synthesieren, und versucht, die folgenden Beiträge zu leisten
- Verwendung eines hierarchischen Sprachsynthese-Frameworks, um Stimmen-Stile und Prosodie zu kontrollieren und zu übertragen.
- Ermöglichung von Daten-Skalierbarkeit und hochauflösender Sprachsynthese, indem die Wellenform-Audio von 16 auf 48 kHz aufgesampelt wird.
- Erreichung von menschlicher Fähigkeit bei Zero-Shot-Stimmen-Konversion und Text-zu-Sprache-Aufgaben.












