Refresh

This website www.unite.ai/de/hierspeech-hierarchical-variational-inference-for-zero-shot-speech-synthesis/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

Stummel HierSpeech++: Hierarchische Variationsinferenz für Zero-Shot-Sprachsynthese – Unite.AI
Vernetzen Sie sich mit uns

Artificial Intelligence

HierSpeech++: Hierarchische Variationsinferenz für die Zero-Shot-Sprachsynthese

mm
Aktualisiert on
HierSpeech++: Hierarchische Variationsinferenz für die Zero-Shot-Sprachsynthese

Die jüngsten Entwicklungen und die Fortschritte bei den Fähigkeiten großer Sprachmodelle haben eine entscheidende Rolle bei der Weiterentwicklung von LLM-basierten Frameworks für Audioerzeugungs- und Sprachsyntheseaufgaben gespielt, insbesondere im Zero-Shot-Umfeld. Herkömmliche Sprachsynthese-Frameworks haben durch die Integration zusätzlicher Funktionen wie neuronaler Audio-Codecs für diskrete Audio- und Spracheinheiten erhebliche Fortschritte gemacht. Auch wenn diese Sprach- und Audiosynthese-Frameworks zufriedenstellende Ergebnisse liefern, gibt es immer noch Raum für Verbesserungen, da die aktuellen LLM-basierten Audio-Frameworks die folgenden drei wesentlichen Einschränkungen aufweisen

  1. Sie neigen dazu, die Audioausgabe automatisch zu generieren, was letztendlich zu mangelnder Robustheit und langsamen Interferenzgeschwindigkeiten führt und zu falscher Aussprache, Überspringen oder Wiederholungen führt. 
  2. Sie neigen dazu, sich zu sehr auf diskrete Spracheinheiten oder vorab trainierte neuronale Audio-Codecs zu verlassen. 
  3. Sie erfordern oft eine große Menge an Trainingsdaten. 

Um die oben genannten Probleme anzugehen und die Fähigkeiten von LLM-basierten Audio- und Sprachsynthesemodellen zu verbessern, haben Entwickler HierSpeech++ entwickelt, einen robusten und effizienten Zero-Shot-Sprachsynthesizer für Sprach- und Text-zu-Sprache- oder TTS-Konvertierungen. Das HierSpeech++-Framework baut auf den Erkenntnissen hierarchischer Sprachsynthese-Frameworks auf, die nicht nur die Robustheit steigern, sondern auch die Ausdruckskraft der synthetischen Sprachausgabe erhöhen und gleichzeitig die Natürlichkeit und Sprecherähnlichkeit künstlich erzeugter Sprache selbst in einer Zero-Shot-Umgebung verbessern. 

In diesem Artikel werden wir ausführlich über das HierSpeech++-Framework sprechen und einen Blick auf die Architektur, Funktionsweise und Ergebnisse des Modells im Vergleich zu modernsten Text- und Audiogenerierungsmodellen werfen. Also lasst uns anfangen. 

HierSpeech++: Hierarchische Variationsinferenz für die Zero-Shot-Sprachsynthese

HierSpeech++ ist ein schnelles, robustes und effizientes Zero-Shot-Sprachsynthese-Framework, das eine hierarchische Sprachsynthese-Pipeline verwendet. Durch die Übernahme dieses End-to-End-Sprachsynthese-Frameworks ist das HierSpeech++-Modell in der Lage, das Potenzial der Erzeugung hochwertiger Wellenformen zu maximieren die Lücke zwischen semantischen und akustischen Darstellungen hierarchisch zu überbrücken, indem eine selbstüberwachte Sprachdarstellung als semantische Sprachdarstellung übernommen wird, und versucht so, die aktuellen Einschränkungen von Stilanpassungen zu lösen. Das End-to-End-Sprachsynthese-Framework wurde erstmals durch das VITS-Modell eingeführt und verwendet einen VAE oder Variational Auto-Encoder, der durch gegnerisches Training und Normalisierungsfluss erweitert wird. Darüber hinaus sind VAE-basierte Frameworks mit einer End-to-End-Trainingspipeline in der Lage, qualitativ hochwertiges Wellenform-Audio zu erzeugen, wobei die wahrnehmungsbezogene Sprachsynthesequalität deutlich besser ist als die von anderen Sprachsynthese-Frameworks generierten. 

Die Qualität der Audiorekonstruktion dieser Frameworks kann durch die Verwendung eines hierarchischen bedingten Variational AutoEncoders, wie er im HierSpeech-Framework verwendet wird, weiter verbessert werden. Trotz ihres Potenzials haben Modelle, die auf einer End-to-End-Trainingspipeline basieren, bestimmte Einschränkungen, insbesondere in einer Zero-Shot-Umgebung, denn obwohl sie Sprachproben mit qualitativ hochwertigem Audio synthetisieren können, ist die Sprecherähnlichkeit bei Zero-Shot-Sprachklonierungsaufgaben immer noch sehr hoch Rechenkomplexität. Andererseits, diffusionsbasierte Sprachsynthesemodelle Im Hinblick auf Sprecheranpassungen sind sie zwar gut, aber sie sind noch lange nicht perfekt, da sie einen interaktiven Generierungsprozess nutzen, der die Inferenzgeschwindigkeit verlangsamt, sie sind oft anfällig für verrauschte Daten und aufgrund der Diskrepanz zwischen Training und Inferenz von Aufgrund des zweistufigen Generierungsprozesses zwischen Mel-Spektrogramm und generierter Grundwahrheit ist die Audioqualität nicht auf dem neuesten Stand. 

Um die Probleme seiner Vorgänger zu lösen, verwendet das HierSpeech++-Modell einen hierarchischen Sprachsynthesizer, eine Sprach-Superauflösung und eine Text-zu-VEC-Komponente und führt einen verbesserten hierarchischen Sprachsynthesizer ein, der auf dem hierarchischen bedingten VAE oder Variational AutoEncoder basiert. Um die Audioqualität über die Wahrnehmungsqualität hinaus zu verbessern, verwendet das HierSpeech++-Framework ein Dual-Audio zur Verstärkung des akustischen Posteriors und verbessert die Out-of-Distribution-Generalisierung durch den Einsatz eines hierarchischen adaptiven Generators, der sowohl mit bedingter als auch mit bedingungsloser Generierung ausgestattet ist. Um Sprachkomponenten zu entwirren und sprecherbezogene und sprecherunabhängige semantische Informationen zu verbessern, verwendet das HierSpeech++-Framework außerdem einen auf der Quellenfiltertheorie basierenden semantischen Mehrpfad-Encoder. Durch den Einsatz eines Variational AutoEncoder kann das HierSpeech++-Modell Darstellungen hierarchisch verbinden und lernen und sich schrittweise an den Zielstimmstil anpassen, um auf das Wellenform-Audio zu schließen. Darüber hinaus stellt das HierSpeech++-Framework auch ein bidirektionales Netzwerk normalisierender Flusstransformatoren bereit, um die Anpassung zu verbessern und auch die Diskrepanz zwischen Training und Inferenz zu verringern. 

Insgesamt ist das HierSpeech++-Modell ein vollständig paralleles, neuartiges und robustes hierarchisches Sprachsynthese-Framework, das auf die Synthese von Sprachproben in einer Zero-Shot-Umgebung abzielt und versucht, die folgenden Beiträge zu leisten

  • Verwendung eines hierarchischen Sprachsynthese-Frameworks zur Steuerung und Übertragung von Stimmstilen und Prosodie. 
  • Ermöglichen Sie Datenskalierbarkeit und hochauflösende Sprachsynthese durch Upsampling des Wellenform-Audios von 16 auf 48 kHz. 
  • Erzielen Sie Fähigkeiten auf menschlichem Niveau bei Zero-Shot-Sprachkonvertierung und Text-in-Sprache-Aufgaben. 

HierSpeech++: Modellkomponenten und Architektur

Wie bereits erwähnt, handelt es sich bei HierSpeech++ um ein Zero-Shot-Sprachsynthesemodell, das versucht, hinsichtlich Stimmähnlichkeit und Sprachnatürlichkeit eine Genauigkeit auf menschlicher Ebene zu erreichen. 

Das HierSpeech++-Modell besteht aus verschiedenen Komponenten, darunter einem hierarchischen Sprachsynthesizer, einer Sprach-Superauflösung und Text-to-Vec zu TTV, die synchron miteinander arbeiten, um das Training jedes Modells zu erleichtern, das eine große Menge an Low-Resolution effektiv nutzen kann. Auflösung von Sprachdaten für das Klonen von Stimmen. Lassen Sie uns das Framework aufschlüsseln und über jede Komponente sprechen. 

Sprachdarstellungen

Da das menschliche Frequenzband unter 4 kHz liegt, führt das HierSpeech++-Framework für die Sprachsynthese ein Downsampling des Audiosignals auf 16 kHz durch. Darüber hinaus ist es für die Rekonstruktion des Sprachsignals wichtig, zusätzlich zum Downsampling des Audio-Samples mindestens das Doppelte der höchsten Komponente der Sprachfrequenz zu verwenden. Um eine verbesserte Wahrnehmungsqualität zu erreichen, nutzt das HierSpeech++-Framework eine Sprach-Superauflösungs- oder SpeechSR-Komponente, um das Audio-Sample von 16 auf 48 kHz hochzuskalieren, und nutzt Darstellungen mit niedriger Auflösung für semantische und akustische Darstellungen. 

Für akustische Darstellungen verwendet ein traditionelles Text-to-Speech- oder TTS-Framework ein Mel-Spektrogramm als akustisches Zwischenmerkmal, das dann mithilfe einer STFT oder Kurzzeit-Fourier-Transformation aus der Wellenform transformiert wird. Es ist jedoch anzumerken, dass es sich bei akustischen Merkmalen um reichhaltige Darstellungen handelt, die verschiedene Attribute wie Inhalt und Aussprache, Sprachinformationen usw. umfassen, was es für das Framework schwierig macht, auf diese Darstellungen zu schließen. Eine Situation, die häufig zu falschen Aussprachen, mangelnder Ähnlichkeit usw. führt. oder eine übermäßige Glättung der Rede. 

Um eine kontinuierliche semantische Darstellung aus einer Wellenform zu extrahieren, verwendet das HierSpeech++-Framework im Gegensatz zum beliebten Ansatz der selbstüberwachten Sprachdarstellung für semantische Darstellungen ein Wav2Vec-Framework. Obwohl der Ansatz eine gute Alternative für ein umfangreiches einsprachiges Modell darstellt, beeinträchtigt er die Zero-Shot-Sprachklonungsfunktionen eines Modells sowohl in Bezug auf Robustheit als auch Ausdruckskraft, insbesondere bei mehrsprachigen Sprachsyntheseaufgaben. 

Hierarchischer Sprachsynthesizer

Die Hierarchical Speech Synthesizer-Komponente ist der Grundstein für das HierSpeech++-Framework, da sie das Training des Moduls ermöglicht, ohne Etiketten wie Texttranskripte oder Sprecher-ID zu verwenden und sich ausschließlich auf Sprachdaten zu verlassen. Um die akustische Kapazität zu erhöhen, ersetzten frühere hochmoderne Sprachsynthesemodelle das Mel-Spektrogramm durch ein lineares Spektrogramm. Der Ansatz minimiert jedoch den KL-Divergenz-Score in Bezug auf Tonhöhenperiodizität, PESQ, Stimm- und Stimm-Score und sogar Mel-Spektrogramm. Spektrogrammabstand. Der Hierarchical Speech Synthesizer verwendet einen Dual-Audio-Akustik-Encoder, um die Herausforderungen zu lösen, die durch die Verwendung eines linearen Spektrogramms entstehen, das für die Erfassung reichhaltigerer und umfassenderer akustischer Darstellungen konzipiert ist. Das Framework verwendet außerdem einen Wellenform-Encoder, um Informationen aus einem rohen Wellenform-Audio zu destillieren, diese mit der linearen Spektrogrammdarstellung zu verketten und schließlich die akustische Darstellung als verkettete Darstellung zu projizieren. 

Darüber hinaus nutzt das HierSpeech++-Framework für den Umgang mit sprecherunabhängigen und sprecherbezogenen semantischen Darstellungen eine selbstüberwachte Sprachdarstellung mit mehreren Pfaden, bei der jede einzelne Darstellung zur hierarchischen Stilanpassung verwendet wird und die semantischen Darstellungen extrahiert werden, um linguistische Informationen daraus zu erhalten mittlere Schicht des MMS. Das Framework nutzt außerdem eine Grundfrequenz zur Verbesserung der Sprachentwirrung, die eine manuelle Steuerung der Tonhöhenkontur ermöglicht. Das Framework verwendet außerdem eine linguistische Darstellung als bedingte Information, um Wellenform-Audio hierarchisch zu generieren, und verwendet eine erweiterte linguistische Darstellung der selbstüberwachten Darstellung. Es ist auch erwähnenswert, dass die während des Trainings mithilfe einer Wellenform und eines linearen Spektrogramms extrahierten akustischen Darstellungen zur Rekonstruktion des rohen Wellenform-Audios verwendet werden und eine hierarchische Variationsinferenz verwendet wird, um die akustischen Darstellungen mit den sprachlichen Mehrpfaddarstellungen zu verknüpfen. Das Framework verwendet auch a hierarchischer adaptiver Generator(HAG), um Semantik-zu-Wellenform-Samples zu erzeugen, und die erzeugten Darstellungen, bestehend aus einer Stildarstellung und einer akustischen Darstellung, werden den Quell- und Wellenformgeneratoren zugeführt. 

Text an Vec

Für die Text-zu-Sprache-Synthese verwendet das HierSpeech++-Framework ein Text-to-Vec- oder TTV-Modell, das eine Grundfrequenz und eine semantische Darstellung aus einer Textsequenz generiert und eine monotone Ausrichtungssuche in Verbindung mit einem Variations-Autoencoder verwendet, um Sprache und Text intern auszurichten. Das HierSpeech++-Framework ersetzt dann das lineare Spektrogramm durch eine selbstüberwachte lineare Darstellung und rekonstruiert dieselbe Darstellung, um als Ausgabe für das TTV zu dienen. 

Darüber hinaus sagt das HierSpeech++-Framework die Grundfrequenz mit viermal größeren Auflösungen im Vergleich zu den selbstüberwachten Sprachdarstellungen voraus und nutzt eine bedingte Textdarstellung als vorherige Information. Aufgrund der semantischen Informationen selbstüberwachter Sprachdarstellungen ist das Framework in der Lage, den Prosodiestil im Text auf das Vec-Modell zu übertragen und dem Phonem-Encoder eine latente Darstellung zuzuführen, um die sprachlichen Fähigkeiten der Darstellung zu verbessern. 

SpeechSR oder Speech Super Resolution

Das HierSpeech++-Framework trainiert anhand eines Datensatzes mit relativ niedriger Auflösung im Hinblick auf Dateneffizienz und -verfügbarkeit und führt ein Upsampling einer Sprachwellenform mit niedriger Auflösung auf eine Sprachwellenform mit hoher Auflösung von 16 bis 48 kHz durch. Das Framework ersetzt auch eine transponierte Faltung durch den Next-Neighbor-Upsampler, von dem zuvor bekannt war, dass er Artefakte infolge transponierter Faltungen lindert. 

Architektur

Der Inhaltsencoder des Text-zu-VEC-Modells besteht aus 16 nicht-zufälligen WaveNet-Schichten mit einer Kernelgröße von 5 und einer versteckten Größe von 256, während der Inhaltsdecoder aus 8 nicht-zufälligen WaveNet-Schichten mit einer Kernelgröße von 5 und einem besteht versteckte Größe von 512. Die Text-Encoder-Komponente besteht aus drei Prosodie-bedingten Transformer-Netzwerken und drei unbedingten Transformer-Netzwerken mit einer Kernelgröße von 9, einer Filtergröße von 1024 und einer versteckten Größe von 256, wobei der Text-Encoder eine Dropout-Rate von 0.2 hat. Um angrenzende Informationen zu kodieren und die Anpassung des Prosodie-Stils zu verbessern, verwendet das Framework ein CNN mit einer Kernelgröße von 5 in Transformer-Blöcken. Der SpeechSR hingegen besteht aus einem einzelnen AMP-Block mit 32 Anfangskanälen ohne das Vorhandensein einer Upsampling-Schicht. Das Framework verwendet einen Upsampler für den nächsten Nachbarn, um die verborgenen Darstellungen hochzusampeln, und verwendet einen MPD als Diskriminator mit sechs verschiedenen Fenstergrößen und vier Subband-Diskriminatoren. 

Die obige Abbildung zeigt die Inferenzpipeline des HierSpeech++-Frameworks, die mit dem Extrahieren der semantischen Darstellungen aus dem Audio bei einer Frequenz von 16 kHz und bei der Grundfrequenz unter Verwendung des YAPPT-Algorithmus beginnt. Bevor die Grundfrequenz dem hierarchischen Synthesizer zugeführt werden kann, wird sie unter Verwendung der Standard- und Mittelabweichungen des Quellaudios normalisiert, und die normalisierte Grundfrequenz wird dann unter Verwendung der Standard- und Mittelabweichungen des Zielaudios denormalisiert. Für Text-zu-Sprache-Extraktionen extrahiert das HierSpeech++-Framework Textdarstellungen anstelle von Sprachdarstellungen und verwendet das Text-zu-Vec-Modell, um eine semantische Darstellung aus der Prosodie-Eingabeaufforderung zu generieren. 

Experiment und Ergebnisse

Das Framework nutzt den öffentlich verfügbaren LibriTTS-Datensatz, um die hierarchische Synthesizer-Komponente zu trainieren. Der erste Schritt besteht darin, das Modell mit traincleanen Teilmengen des Datensatzes zu trainieren und die verbleibenden Daten zu nutzen, um eine verbesserte Übertragung des Sprachstils zu ermöglichen. Um die Diversität und Robustheit zu verbessern, skaliert das Framework den Datensatz außerdem auf 1 kHz hoch, wie in der folgenden Abbildung dargestellt. 

Rekonstruktion, Resyntheseaufgaben und Stimmkonvertierung

Um die Leistung des HierSpeech++-Frameworks bei Rekonstruktions- und Neusyntheseaufgaben zu bewerten, führten die Entwickler sieben objektive Metriken durch. Die Ergebnisse werden in den folgenden Abbildungen für Rekonstruktions- bzw. Neusyntheseaufgaben dargestellt. 

Für Sprachkonvertierungsaufgaben verwendet das Framework zwei subjektive Metriken zur Bewertung: Stimmähnlichkeit MOS oder sMOS und Natürlichkeit, mittlere Meinungsbewertung von nMOS mit drei objektiven Natürlichkeitsmetriken und zwei objektiven Ähnlichkeitsmetriken. 

Im weiteren Verlauf besteht das Hauptziel des HierSpeech++-Frameworks darin, die Zero-Shot-Sprachsynthese zu ermöglichen. Um seine Leistung im Zero-Shot zu bewerten, wird es mit anderen Basismodellen wie AutoVC, VoiceMixer usw. verglichen. Diffusionsbasierte Modelleund vieles mehr. Die Ergebnisse sind in der folgenden Abbildung dargestellt. 

Die folgenden Abbildungen veranschaulichen dies Zero-Shot-Text-to-Speech Ergebnisse mit lauten Eingabeaufforderungen bzw. sehr lauten Eingabeaufforderungen. 

Abschließende Überlegungen

In diesem Artikel haben wir über das HierSpeech++-Modell gesprochen, einen neuartigen Ansatz, der eine robuste und effektive Sprachsynthese in einer Zero-Shot-Umgebung ermöglicht und die Einschränkungen aktueller Sprachsynthese-Frameworks, einschließlich ihrer übermäßigen Abhängigkeit von großen Trainingsmengen, überwindet Daten, die Abhängigkeit von diskreten Spracheinheiten oder vorab trainierten neuronalen Audio-Codecs und ihre Tendenz zur automatischen Generierung von Audioausgaben, was letztendlich zu einem Mangel an Robustheit und langsamen Interferenzgeschwindigkeiten führt und zu falscher Aussprache, Überspringen oder Wiederholungen führt. Das HierSpeech++-Modell ist ein vollständig paralleles, neuartiges und robustes hierarchisches Sprachsynthese-Framework, das auf die Synthese von Sprachproben in einer Zero-Shot-Umgebung abzielt und versucht, die folgenden Beiträge zu leisten

  • Verwendung eines hierarchischen Sprachsynthese-Frameworks zur Steuerung und Übertragung von Stimmstilen und Prosodie. 
  • Ermöglichen Sie Datenskalierbarkeit und hochauflösende Sprachsynthese durch Upsampling des Wellenform-Audios von 16 auf 48 kHz. 
  • Erzielen Sie Fähigkeiten auf menschlichem Niveau bei Zero-Shot-Sprachkonvertierung und Text-in-Sprache-Aufgaben. 

„Von Beruf Ingenieur, von Herzen Schriftsteller“. Kunal ist ein technischer Autor mit einer tiefen Liebe und einem tiefen Verständnis für KI und ML, der sich der Vereinfachung komplexer Konzepte in diesen Bereichen durch seine ansprechende und informative Dokumentation widmet.