Intelligenza artificiale
Unificazione della sintesi del discorso e del gesto

Quando sono tornato in Gran Bretagna dopo alcuni anni trascorsi nel sud dell’Italia, ci è voluto un po’ di tempo per smettere di gesticolare mentre parlavo. Nel Regno Unito, sostenere il discorso con movimenti delle mani decisi ti fa sembrare eccessivamente caffeinato; in Italia, come persona che imparava la lingua, mi ha effettivamente aiutato a farmi capire. Anche adesso, nelle più rare occasioni in cui parlo italiano, le “mani selvagge” tornano in servizio. È quasi impossibile parlare italiano senza muoversi.
Negli ultimi anni, la comunicazione supportata dai gesti nella cultura italiana e ebraica è diventata oggetto di attenzione pubblica come qualcosa di più di un tropo dell’opera di Martin Scorsese e dei primi film di Woody Allen. Nel 2013, il New York Times ha compilato una breve storia video dei gesti delle mani italiani; l’accademia ha iniziato a studiare le propensioni razziali per la gestualità, piuttosto che liquidare l’argomento come uno stereotipo; e i nuovi emoji del consorzio Unicode stanno colmando la carenza di gesti che accompagna la comunicazione puramente digitale e basata sul testo.
Un approccio unificato al discorso e alla gesticolazione
Ora, una nuova ricerca del Dipartimento di discorso, musica e udito del KTH Royal Institute of Technology della Svezia cerca di combinare la riconoscimento del discorso e dei gesti in un sistema multimodale unificato che potrebbe potenzialmente aumentare la nostra comprensione della comunicazione basata sul discorso utilizzando il linguaggio del corpo come un complemento integrato al discorso, piuttosto che un campo di studio parallelo.

Immagini dalla pagina di test del progetto di discorso/gesto svedese. Fonte: https://swatsw.github.io/isg_icmi21/
La ricerca propone un nuovo modello chiamato sintesi di discorso e gesto integrati (ISG) e riunisce una serie di modelli neurali all’avanguardia della ricerca sul discorso e sui gesti.
Il nuovo approccio abbandona il modello di pipeline lineare pipeline (in cui le informazioni sui gesti sono derivate sequenzialmente dal discorso come una fase di elaborazione secondaria) per un approccio più integrato, che si classifica allo stesso livello dei sistemi esistenti secondo gli utenti finali e che raggiunge un tempo di sintesi più veloce e una riduzione del numero di parametri.

Approcci lineari e integrati. Fonte: https://arxiv.org/pdf/2108.11436.pdf
Il nuovo sistema multimodale incorpora un sintetizzatore di testo in discorso spontaneo e un generatore di gesti guidato dall’audio-discorso, entrambi addestrati sul set di dati esistente Trinity Speech Gesture dataset. Il set di dati contiene 244 minuti di audio e cattura del corpo di un uomo che parla su argomenti diversi e gesticola liberamente.
Il lavoro è un equivalente nuovo e tangenziale del progetto DurIAN, che genera espressioni facciali e discorso, piuttosto che gesti e discorso, e che rientra più nel campo del riconoscimento e della sintesi delle espressioni.
Architettura
I componenti del discorso e visivi (gesto) del progetto sono sbilanciati in termini di dati; il testo è scarso e la gesticolazione è ricca e intensiva in termini di dati – una sfida in termini di definizione di obiettivi e metriche. Pertanto, i ricercatori hanno valutato il sistema principalmente in base alla risposta umana all’output, piuttosto che ad approcci più meccanicistici come l’errore quadratico medio (MSE).
I due principali modelli ISG sono stati sviluppati intorno alla seconda iterazione del progetto di sintesi del discorso end-to-end di Google del 2017 Tacotron e all’iniziativa sudcoreana Glow-TTS pubblicata nel 2020. Tacotron utilizza un’architettura LSTM autoregressiva, mentre Glow-TTS agisce in parallelo tramite operatori di convoluzione, con prestazioni GPU più veloci e senza i problemi di stabilità che possono accompagnare i modelli autoregressivi.












