Angolo di Anderson

Unificazione della sintesi del discorso e del gesto

mm

Quando sono tornato in Gran Bretagna dopo alcuni anni trascorsi nel sud dell’Italia, ci è voluto un po’ di tempo per smettere di gesticolare mentre parlavo. Nel Regno Unito, sostenere il discorso con movimenti delle mani audaci ti fa sembrare iper-caffeizzato; in Italia, come qualcuno che stava imparando la lingua, mi ha effettivamente aiutato a farmi capire. Anche adesso, nelle più rare occasioni in cui parlo italiano, le “mani selvagge” tornano in servizio. È quasi impossibile parlare italiano senza muoversi.

Negli ultimi anni, la comunicazione supportata da gesti nella cultura italiana e ebraica è diventata di pubblico dominio come più di un semplice stereotipo tratto dai lavori di Martin Scorsese e dai primi film di Woody Allen. Nel 2013, il New York Times ha compilato una breve storia dei gesti italiani; l’accademia sta iniziando a studiare le propensioni razziali per i gesti delle mani, piuttosto che liquidare l’argomento come uno stereotipo; e i nuovi emoji del Consorzio Unicode stanno colmando la carenza di gesti che accompagna la comunicazione digitale, basata solo sul testo.

Un approccio unificato alla sintesi del discorso e del gesto

Ora, una nuova ricerca del Dipartimento di discorso, musica e udito del KTH Royal Institute of Technology della Svezia sta cercando di combinare la sintesi del discorso e del gesto in un sistema multimodale unificato che potrebbe potenzialmente aumentare la nostra comprensione della comunicazione basata sul discorso utilizzando il linguaggio del corpo come un’integrazione aggiuntiva al discorso, piuttosto che come un campo di studio parallelo.

Immagini dalla pagina di test del progetto di sintesi del discorso e del gesto svedese. Fonte: https://swatsw.github.io/isg_icmi21/

Immagini dalla pagina di test del progetto di sintesi del discorso e del gesto svedese. Fonte: https://swatsw.github.io/isg_icmi21/

La ricerca propone un nuovo modello chiamato sintesi integrata del discorso e del gesto (ISG) e riunisce una serie di modelli neurali all’avanguardia della ricerca sul discorso e sul gesto.

Il nuovo approccio abbandona il modello di pipeline lineare pipeline (in cui le informazioni sui gesti vengono derivate in sequenza dal discorso come una fase di elaborazione secondaria) per un approccio più integrato, che si classifica allo stesso livello dei sistemi esistenti secondo gli utenti finali e che raggiunge un tempo di sintesi più veloce e una riduzione del numero di parametri.

Approcci lineari e integrati. Fonte: https://arxiv.org/pdf/2108.11436.pdf

Approcci lineari e integrati. Fonte: https://arxiv.org/pdf/2108.11436.pdf

Il nuovo sistema multimodale incorpora un sintetizzatore di testo-vocale spontaneo e un generatore di gesti guidato dal discorso audio, entrambi addestrati sul dataset esistente Trinity Speech Gesture dataset. Il dataset contiene 244 minuti di audio e di cattura del corpo di un uomo che parla su argomenti diversi e gesticola liberamente.

Il lavoro è un equivalente tangenziale e innovativo del progetto DurIAN, che genera espressioni facciali e discorso, piuttosto che gesti e discorso, e che rientra di più nel campo del riconoscimento e della sintesi delle espressioni.

Architettura

I componenti del discorso e visivi (gesti) del progetto sono sbilanciati in termini di dati; il testo è scarso e la gesticolazione è ricca e intensiva in termini di dati – una sfida in termini di definizione di obiettivi e metriche. Pertanto, i ricercatori hanno valutato il sistema principalmente in base alla risposta umana all’output, piuttosto che ad approcci meccanicistici più ovvi come l’errore quadratico medio (MSE).

I due principali modelli ISG sono stati sviluppati intorno alla seconda iterazione del progetto di sintesi del discorso Tacotron di Google del 2017, e all’iniziativa Glow-TTS della Corea del Sud pubblicata nel 2020. Tacotron utilizza un’architettura LSTM autoregressiva, mentre Glow-TTS agisce in parallelo tramite operatori di convoluzione, con prestazioni GPU più veloci e senza i problemi di stabilità che possono accompagnare i modelli autoregressivi.

I ricercatori hanno testato tre sistemi di discorso e gesti efficaci durante il progetto: una versione modificata di un modello di generazione multimodale del discorso e del gesto pubblicato nel 2021 da alcuni degli stessi ricercatori del nuovo progetto; una versione ISG dedicata e modificata di Tacotron 2 open source; e una versione ISG altamente modificata di Glow-TTS.

Per valutare i sistemi, i ricercatori hanno creato un ambiente di feedback basato sul web con persone 3D articolate che parlano e si muovono su segmenti di testo predefiniti (l’aspetto generale dell’ambiente può essere visto alla pagina del progetto pubblica).

L'ambiente di test.

L’ambiente di test.

I soggetti di test sono stati invitati a valutare le prestazioni del sistema in base al discorso e al gesto, al discorso solo e al gesto solo. I risultati hanno mostrato un leggero miglioramento nella nuova versione ISG rispetto alla versione pipeline più vecchia, sebbene il sistema più nuovo operi più velocemente e con risorse ridotte.

Chiesto 'Quanto è umano il gesto?', il modello ISG completamente integrato si classifica leggermente davanti al modello pipeline più lento, con i modelli basati su Tacotron e Glow ancora più indietro.

Chiesto ‘Quanto è umano il gesto?’, il modello ISG completamente integrato si classifica leggermente davanti al modello pipeline più lento, con i modelli basati su Tacotron e Glow ancora più indietro.

Strattono incorporato

Il modello Tacotron2-ISG, il più riuscito dei tre approcci, dimostra un livello di “apprendimento subliminale” relativo ad alcune delle frasi più comuni nel dataset, come “Non lo so” – nonostante la mancanza di dati espliciti che lo farebbero generare un gesto di strattono per accompagnare questa frase, i ricercatori hanno scoperto che il generatore effettivamente si stratta.

I ricercatori notano che la natura molto specifica di questo progetto innovativo significa inevitabilmente una scarsità di risorse generali, come dataset dedicati che incorporano dati sul discorso e sul gesto in un modo adatto per l’addestramento di un tale sistema. Tuttavia, e nonostante la natura innovativa della ricerca, considerano questo un percorso promettente e poco esplorato nel discorso, nella linguistica e nel riconoscimento dei gesti.

Scrittore su apprendimento automatico, specialista di dominio nella sintesi di immagini umane. Ex capo della ricerca contenuti presso Metaphysic.ai.