Intelligenza artificiale
HierSpeech++ : Inferenza Variazionale Gerarchica per Sintesi di Voce Zero-Shot
Gli sviluppi recenti e i progressi nelle capacità dei grandi modelli linguistici hanno svolto un ruolo cruciale nei progressi dei framework basati su LLM per la generazione di audio e la sintesi vocale, in particolare nell’impostazione zero-shot. I framework di sintesi vocale tradizionali hanno assistito a notevoli progressi a seguito dell’integrazione di funzionalità aggiuntive come i codec audio neurali per unità di voce e audio discrete. Sebbene questi framework di sintesi vocale e audio forniscono risultati soddisfacenti, c’è ancora spazio per il miglioramento, poiché gli attuali framework audio basati su LLM hanno le seguenti tre limitazioni principali
- Tendono a generare automaticamente l’output audio che alla fine provoca una mancanza di robustezza e velocità di interferenza lenta e si traduce in errori di pronuncia, salti o ripetizioni.
- Tendono a fare affidamento eccessivo su unità di voce discrete o codec audio neurali pre-addestrati.
- Spesso richiedono una grande quantità di dati di addestramento.
Per affrontare i problemi sopra menzionati e migliorare le capacità dei modelli di sintesi vocale e audio basati su LLM, gli sviluppatori hanno creato HierSpeech++, un sintetizzatore vocale zero-shot robusto ed efficiente per conversioni di testo in voce o TTS. Il framework HierSpeech++ si basa sulle conoscenze dei framework di sintesi vocale gerarchica che non solo aumentano la robustezza, ma aggiungono anche espressività all’output vocale sintetico, oltre a migliorare la naturalità e la somiglianza del parlante della voce generata artificialmente, anche in un’impostazione zero-shot.
In questo articolo, parleremo del framework HierSpeech++ nel dettaglio e esamineremo l’architettura del modello, il funzionamento e i risultati in confronto con i modelli di generazione di testo e audio attuali. Quindi, iniziamo.
HierSpeech++ : Inferenza Variazionale Gerarchica per Sintesi di Voce Zero-Shot
HierSpeech++ è un framework di sintesi vocale zero-shot rapido, robusto ed efficiente che utilizza una pipeline di sintesi vocale gerarchica e, adottando questo framework di sintesi vocale end-to-end, il modello HierSpeech++ è in grado di massimizzare il potenziale della generazione di forme d’onda di alta qualità per collegare gerarchicamente il divario tra rappresentazioni semantiche e acustiche adottando una rappresentazione vocale auto-supervisionata come rappresentazione vocale semantica e tenta di risolvere le limitazioni attuali di adattamento di stile. Il framework di sintesi vocale end-to-end è stato introdotto per la prima volta dal modello VITS e adotta un VAE o Auto-Encoder Variazionale aumentato con addestramento avversario e flusso di normalizzazione. Inoltre, i framework basati su VAE con una pipeline di addestramento end-to-end hanno la capacità di generare forme d’onda audio di alta qualità con una qualità di sintesi vocale percettiva significativamente migliore di quelle generate da altri framework di sintesi vocale.
La qualità di ricostruzione audio di questi framework può essere ulteriormente migliorata utilizzando un Auto-Encoder Variazionale condizionale gerarchico come utilizzato nel framework HierSpeech. Nonostante il loro potenziale, i modelli basati sulla pipeline di addestramento end-to-end hanno alcune limitazioni, in particolare in un’impostazione zero-shot, poiché anche se possono sintetizzare campioni vocali con audio di alta qualità, la somiglianza del parlante nei compiti di clonazione vocale zero-shot è ancora afflitta da un’elevata complessità computazionale. D’altra parte, i modelli di sintesi vocale basati su diffusione si comportano bene in termini di adattamento del parlante, ma sono ancora lontani dalla perfezione, poiché utilizzano un processo di generazione interattivo che rallenta la velocità di inferenza, sono spesso vulnerabili ai dati rumorosi e, a causa della mancanza di corrispondenza tra l’addestramento e l’inferenza del processo di generazione a due fasi tra il Mel-spettrogramma e il suono generato, la qualità audio non è all’altezza.
Per affrontare i problemi incontrati dai suoi predecessori, il modello HierSpeech++ impiega un sintetizzatore vocale gerarchico, una risoluzione vocale e un componente testo-vec, e introduce un sintetizzatore vocale gerarchico migliorato basato sull’Auto-Encoder Variazionale condizionale gerarchico. Nel tentativo di migliorare la qualità audio oltre la qualità percettiva, il framework HierSpeech++ adotta un doppio audio per aumentare la posteriore acustica e migliora la generalizzazione fuori distribuzione impiegando un generatore adattivo gerarchico dotato di generazione condizionale e non condizionale. Inoltre, per dissociare i componenti vocali e migliorare le informazioni semantiche relative e agnostiche del parlante, il framework HierSpeech++ adotta anche un codificatore semantico multi-percorso basato sulla teoria sorgente-filtro. Come risultato dell’impiego di un Auto-Encoder Variazionale, il modello HierSpeech++ può collegare e apprendere rappresentazioni gerarchicamente e adattarsi progressivamente allo stile vocale bersaglio per inferire il suono audio. Inoltre, il framework HierSpeech++ dispiega anche una rete bidirezionale di Transformer di flusso di normalizzazione nel tentativo di migliorare l’adattamento e ridurre la mancanza di corrispondenza tra l’addestramento e l’inferenza.
Complessivamente, il modello HierSpeech++ è un framework di sintesi vocale gerarchica completamente parallelo, nuovo e robusto finalizzato alla sintesi di campioni vocali in un’impostazione zero-shot e tenta di apportare i seguenti contributi
- Utilizzare un framework di sintesi vocale gerarchica per controllare e trasferire stili e prosodia vocali.
- Abilitare la scalabilità dei dati e la sintesi vocale ad alta risoluzione campionando il suono audio da 16 a 48 kHz.
- Raggiungere l’abilità umana in compiti di conversione vocale zero-shot e testo-vocale.
HierSpeech++ : Componenti del Modello e Architettura
Come discusso, HierSpeech++ è un modello di sintesi vocale zero-shot che tenta di raggiungere la precisione umana in termini di somiglianza vocale e naturalità del parlante.

Il modello HierSpeech++ consiste in diversi componenti, tra cui un sintetizzatore vocale gerarchico, una risoluzione vocale e un componente testo-vec per TTV che lavorano in sincronia tra loro per facilitare l’addestramento di ciascun modello che può effettivamente utilizzare una grande quantità di dati vocali a bassa risoluzione per la clonazione vocale. Analizziamo il framework e parliamo di ciascun componente.
Rappresentazioni Vocali
Poiché la banda di frequenza umana è al di sotto dei 4 kHz, per la sintesi vocale, il framework HierSpeech++ campiona l’audio a 16 kHz. Inoltre, per ricostruire il segnale vocale, è vitale utilizzare almeno il doppio della componente di frequenza vocale più alta, oltre a campionare il campione audio. Per ottenere una qualità percettiva migliorata, il framework HierSpeech++ utilizza un componente di risoluzione vocale o SpeechSR per campionare il campione audio da 16 a 48 kHz e utilizza rappresentazioni a bassa risoluzione per rappresentazioni semantiche e acustiche.

Per le rappresentazioni acustiche, un framework di sintesi vocale tradizionale utilizza un Mel-spettrogramma come sua caratteristica acustica intermedia che viene poi trasformato dalla forma d’onda con l’aiuto di una STFT o Trasformata di Fourier a tempo breve. Tuttavia, è degno di nota che poiché le caratteristiche acustiche sono rappresentazioni ricche che comprendono vari attributi, tra cui contenuto e pronuncia, informazioni vocali e altro, ciò rende difficile per il framework inferire queste rappresentazioni, una situazione che spesso porta a errori di pronuncia, mancanza di somiglianza o eccessiva levigatura del parlato.
Proseguendo, per estrarre una rappresentazione semantica continua da una forma d’onda, il framework HierSpeech++ utilizza un framework Wav2Vec in contrasto con l’approccio di rappresentazione vocale auto-supervisionata popolare per rappresentazioni semantiche. Sebbene l’approccio faccia una buona alternativa per un modello monolingue ricco, influisce sulle capacità di clonazione vocale zero-shot del modello in termini di robustezza ed espressività, soprattutto in compiti di sintesi vocale multilingue.
Sintetizzatore Vocale Gerarchico
Il componente del Sintetizzatore Vocale Gerarchico è la pietra angolare del framework HierSpeech++, poiché consente l’addestramento del modulo senza utilizzare etichette come trascrizioni di testo o ID del parlante e facendo affidamento solo sui dati vocali. Per aumentare la capacità acustica, i modelli di sintesi vocale attuali hanno sostituito il Mel-spettrogramma con uno spettrogramma lineare, tuttavia, l’approccio minimizza il punteggio di divergenza KL in termini di periodicità del pitch, PESQ, punteggio di voce e non voce e anche la distanza dello spettrogramma lineare. Il Sintetizzatore Vocale Gerarchico impiega un Encodatore Acustico Dual-Audio per risolvere le sfide presentate dall’utilizzo di uno spettrogramma lineare progettato per catturare rappresentazioni acustiche più ricche e complete. Il framework utilizza anche un encodatore di forma d’onda per distillare le informazioni da un’audio forma d’onda grezza e le concatena con la rappresentazione dello spettrogramma lineare e, infine, proietta la rappresentazione acustica come rappresentazione concatenata.

Inoltre, per affrontare le rappresentazioni semantiche agnostiche e relative del parlante, il framework HierSpeech++ utilizza una rappresentazione vocale auto-supervisionata multi-percorso in cui ogni rappresentazione individuale viene utilizzata per l’adattamento di stile gerarchico con le rappresentazioni semantiche estratte per ottenere informazioni linguistiche dal livello medio del MMS. Il framework utilizza anche una frequenza fondamentale per migliorare la dissociazione del parlato, che consente di controllare manualmente il contorno del pitch. Il framework utilizza anche una rappresentazione linguistica come informazione condizionale per generare audio forma d’onda gerarchicamente e utilizza una rappresentazione linguistica migliorata della rappresentazione auto-supervisionata. È anche degno di nota che le rappresentazioni acustiche estratte durante l’addestramento utilizzando una forma d’onda e uno spettrogramma lineare vengono utilizzate per ricostruire l’audio forma d’onda grezza e un’inferenza variazionale gerarchica viene utilizzata per collegare le rappresentazioni acustiche con le rappresentazioni linguistiche multi-percorso. Il framework utilizza anche un generatore adattivo gerarchico (HAG) per generare campioni da semantica a forma d’onda e le rappresentazioni generate che comprendono una rappresentazione di stile e una rappresentazione acustica vengono alimentate ai generatori di sorgente e forma d’onda.
Testo-Vec
Per la sintesi vocale del testo, il framework HierSpeech++ utilizza un modello testo-vec o TTV che genera una frequenza fondamentale e una rappresentazione semantica da una sequenza di testo e utilizza una ricerca di allineamento monotono accoppiata con un Auto-Encoder Variazionale per allineare internamente il parlato e il testo. Il framework HierSpeech++ sostituisce poi lo spettrogramma lineare con una rappresentazione lineare auto-supervisionata e ricostruisce la stessa rappresentazione per servire come output per il TTV.

Inoltre, il framework HierSpeech++ prevede la frequenza fondamentale con quattro volte più risoluzione rispetto alle rappresentazioni vocali auto-supervisionate e utilizza una rappresentazione di testo condizionale come informazione di priorità. Come risultato delle informazioni semantiche delle rappresentazioni vocali auto-supervisionate, il framework è in grado di trasferire lo stile di prosodia nel modello testo-vec e alimenta una rappresentazione latente all’encodatore di fonemi per migliorare le capacità linguistiche della rappresentazione.
SpeechSR o Super Risoluzione Vocale
Il framework HierSpeech++ viene addestrato su un set di dati relativamente a bassa risoluzione in termini di efficienza dei dati e disponibilità e campiona un’onda vocale a bassa risoluzione in un’onda vocale ad alta risoluzione da 16 a 48 kHz. Il framework sostituisce anche una convoluzione trasposta con un campionatore del vicino più vicino che in precedenza era noto per alleviare gli artifact dovuti alle convoluzioni trasposte.

Architettura
L’encodatore di contenuto del modello testo-vec consiste in 16 layer WaveNet non casuali con una dimensione del kernel di 5 e una dimensione nascosta di 256, mentre il decodificatore di contenuto consiste in 8 layer WaveNet non casuali con una dimensione del kernel di 5 e una dimensione nascosta di 512. Il componente dell’encodatore di testo consiste in tre reti neurali Transformer condizionali di prosodia e tre reti neurali Transformer non condizionali con una dimensione del kernel di 9, una dimensione del filtro di 1024 e una dimensione nascosta di 256 con un tasso di dropout dell’encodatore di testo del 0,2. Per codificare le informazioni adiacenti e migliorare l’adattamento di stile di prosodia, il framework adotta una CNN con una dimensione del kernel di 5 nei blocchi di Transformer. Il SpeechSR, d’altra parte, comprende un singolo blocco AMP con 32 canali iniziali senza la presenza di un livello di campionamento. Il framework utilizza un campionatore del vicino più vicino per campionare le rappresentazioni nascoste e utilizza un MPD come discriminatore con sei diverse dimensioni di finestra e quattro discriminatori di sottobanda.

La figura sopra mostra la pipeline di inferenza del framework HierSpeech++ che inizia con l’estrazione delle rappresentazioni semantiche dall’audio a una frequenza di 16 kHz e alla frequenza fondamentale utilizzando l’algoritmo YAPPT. Prima che la frequenza fondamentale possa essere alimentata al Sintetizzatore Vocale Gerarchico, viene normalizzata utilizzando la deviazione standard e la media della sorgente audio e la frequenza fondamentale normalizzata viene quindi denormalizzata utilizzando la deviazione standard e la media dell’audio bersaglio. Per l’estrazione del testo-vocale, il framework HierSpeech++ estrae rappresentazioni testuali invece di rappresentazioni vocali e utilizza il modello testo-vec per generare una rappresentazione semantica da un prompt di prosodia.
Esperimento e Risultati
Il framework utilizza il set di dati LibriTTS pubblicamente disponibile per addestrare il componente del sintetizzatore vocale gerarchico con il primo passo che consiste nell’addestrare il modello con i sottinsiemi di addestramento del set di dati e utilizzando i restanti dati per abilitare il trasferimento migliorato dello stile vocale. Inoltre, per migliorare la diversità e la robustezza, il framework scala il set di dati a 1 kHz come mostrato nella figura seguente.

Ricostruzione, Compiti di Risintesi e Conversione Vocale
Per valutare le prestazioni del framework HierSpeech++ nei compiti di ricostruzione e risintesi, gli sviluppatori hanno condotto sette metriche oggettive e i risultati sono mostrati nelle figure seguenti per i compiti di ricostruzione e risintesi rispettivamente.


Per i compiti di conversione vocale, il framework utilizza due metriche soggettive di valutazione: somiglianza MOS o sMOS e punteggio di naturalità media di nMOS con tre metriche di naturalità oggettive e due metriche di somiglianza oggettive.

Proseguendo, l’obiettivo principale del framework HierSpeech++ è abilitare la sintesi vocale zero-shot e per valutare le sue prestazioni in zero-shot, viene confrontato con altri modelli di base come AutoVC, VoiceMixer, modelli basati su diffusione e molti altri con i risultati mostrati nella figura seguente.

Le figure seguenti mostrano i risultati di testo-vocale zero-shot con prompt rumorosi e molto rumorosi rispettivamente.


Pensieri Finali
In questo articolo, abbiamo parlato del modello HierSpeech++, un approccio nuovo per abilitare una sintesi vocale robusta ed efficace in un’impostazione zero-shot e superare le limitazioni affrontate dai framework di sintesi vocale attuali, tra cui la loro eccessiva dipendenza da grandi quantità di dati di addestramento, la dipendenza da unità vocali discrete o codec audio neurali pre-addestrati e la loro tendenza a generare automaticamente l’output audio che alla fine provoca una mancanza di robustezza e velocità di interferenza lenta e si traduce in errori di pronuncia, salti o ripetizioni. Il modello HierSpeech++ è un framework di sintesi vocale gerarchica completamente parallelo, nuovo e robusto finalizzato alla sintesi di campioni vocali in un’impostazione zero-shot e tenta di apportare i seguenti contributi
- Utilizzare un framework di sintesi vocale gerarchica per controllare e trasferire stili e prosodia vocali.
- Abilitare la scalabilità dei dati e la sintesi vocale ad alta risoluzione campionando il suono audio da 16 a 48 kHz.
- Raggiungere l’abilità umana in compiti di conversione vocale zero-shot e testo-vocale.












