Intelligenza artificiale
Leggere le labbra con Visemi e Apprendimento Automatico

Nuove ricerche dalla Scuola di Ingegneria Informatica di Teheran offrono un approccio migliorato alla sfida di creare sistemi di apprendimento automatico in grado di leggere le labbra.
Il documento, intitolato Lettura delle labbra utilizzando la decodifica dei visemi, riporta che il nuovo sistema ottiene un miglioramento del 4% nel tasso di errore delle parole rispetto ai migliori modelli precedenti. Il sistema affronta la generale mancanza di dati di allenamento utili in questo settore mappando visemi su contenuti testuali derivati dai sei milioni di campioni nel dataset OpenSubtitles di titoli di film tradotti.
Un visema è l’equivalente visivo di un fonema, effettivamente una mappatura audio>immagine che può costituire una ‘funzionalità’ in un modello di apprendimento automatico.

Visemi in azione. Fonte: https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/
I ricercatori hanno iniziato stabilendo il tasso di errore più basso sui dataset disponibili e sviluppando sequenze di visemi da procedure di mappatura stabilite. Gradualmente, questo processo sviluppa un lessico visivo di parole – sebbene sia necessario definire le probabilità di accuratezza per diverse parole che condividono un visema (come ‘cuore’ e ‘arte’).
Quando due parole identiche producono lo stesso visema, viene selezionata la parola più frequente.
Il modello si basa sull’apprendimento sequenza-sequenza tradizionale aggiungendo una sottostazione di elaborazione in cui i visemi vengono previsti dal testo e modellati in un pipeline dedicata:

Sopra, metodi sequenza-sequenza tradizionali in un modello di caratteri; sotto, l’aggiunta di modellazione dei caratteri visemi nel modello di ricerca di Teheran. Fonte: https://arxiv.org/pdf/2104.04784.pdf
Il modello è stato applicato senza contesto visivo contro il dataset LRS3-TED, rilasciato dall’Università di Oxford nel 2018, con il peggiore tasso di errore delle parole (WER) ottenuto del 24,29%.
La ricerca di Teheran incorpora anche l’uso di un convertitore grafema-fonema.
In un test contro la ricerca di Oxford del 2017 Lettura delle frasi sulle labbra nel mondo selvaggio (vedi sotto), il metodo Video-To-Viseme ha ottenuto un tasso di errore delle parole del 62,3%, rispetto al 69,5% per il metodo di Oxford.
I ricercatori concludono che l’uso di un volume più alto di informazioni testuali, combinato con la mappatura dei grafemi-fonemi e dei visemi, promette miglioramenti rispetto allo stato dell’arte nei sistemi di lettura delle labbra automatizzati, mentre riconosce che i metodi utilizzati potrebbero produrre risultati ancora migliori quando incorporati in framework più sofisticati attuali.
La lettura delle labbra guidata dalla macchina è stata un’area attiva e in corso di ricerca sulla visione artificiale e sull’elaborazione del linguaggio naturale negli ultimi due decenni. Tra molti altri esempi e progetti, nel 2006 l’uso di software di lettura delle labbra automatizzato ha catturato i titoli quando è stato utilizzato per interpretare cosa stava dicendo Adolf Hitler in alcuni dei famosi film muti girati nella sua residenza bavarese, sebbene l’applicazione sembra essere scomparsa nell’oscurità da allora (dodici anni dopo, Sir Peter Jackson si è rivolto a lettori di labbra umani per ripristinare le conversazioni dei filmati della prima guerra mondiale nel progetto di restauro They Shall Not Grow Old).
Nel 2017, Lettura delle frasi sulle labbra nel mondo selvaggio, una collaborazione tra l’Università di Oxford e la divisione di ricerca di Google, ha prodotto un intelligenza artificiale per la lettura delle labbra in grado di inferire correttamente il 48% del discorso in video senza suono, dove un lettore di labbra umano poteva raggiungere solo un’accuratezza del 12,4% dallo stesso materiale. Il modello è stato addestrato su migliaia di ore di footage della BBC.
Questo lavoro ha seguito un’iniziativa separata di Oxford/Google dell’anno precedente, intitolata LipNet, un’architettura di rete neurale che ha mappato sequenze di video di lunghezza variabile su sequenze di testo utilizzando una rete neurale ricorrente (RNN) con funzionalità di gate. Il modello ha ottenuto una prestazione 4,1 volte migliore rispetto ai lettori di labbra umani.
Oltre al problema di ottenere una trascrizione accurata in tempo reale, la sfida di interpretare il discorso da video si approfondisce quando si rimuove il contesto utile, come l’audio, le riprese ‘frontali’ ben illuminate e un linguaggio/cultura in cui i fonemi/visemi sono relativamente distinti.
Sebbene non ci sia attualmente una comprensione empirica di quali lingue siano le più difficili da leggere sulle labbra in assenza completa di audio, il giapponese è un primo candidato. I modi diversi in cui i nativi giapponesi (nonché certi altri nativi dell’Asia orientale e occidentale) utilizzano le espressioni facciali contro il contenuto del loro discorso li rendono già una maggiore sfida per i sistemi di riconoscimento delle emozioni.
Tuttavia, vale la pena notare che gran parte della letteratura scientifica sull’argomento è generalmente cauta, non ultimo perché anche la ricerca oggettiva ben intenzionata in questa sfera rischia di oltrepassare la profilazione razziale e la promozione di stereotipi esistenti.
Le lingue con una alta proporzione di componenti gutturali, come ceco e olandese, sono particolarmente problematiche per le tecniche di estrazione del discorso automatizzate, mentre le culture in cui il parlante può esprimere emozione o deferenza guardando altrove (ancora, generalmente nelle culture asiatiche) aggiungono un’altra dimensione in cui i ricercatori di intelligenza artificiale per la lettura delle labbra dovranno sviluppare metodi aggiuntivi di ‘in-filling’ da altri indizi contestuali.













