Intelligenza Artificiale

Lettura labiale con visemi e apprendimento automatico

aggiornato on Dicembre 9, 2022

HAL legge le labbra in 2001: Odissea nello spazio (1968)

Una nuova ricerca della Scuola di Ingegneria Informatica di Teheran offre un approccio migliore alla sfida di creare sistemi di apprendimento automatico in grado di leggere le labbra.

I carta, intitolato Lettura labiale utilizzando la decodifica Viseme, riporta che il nuovo sistema raggiunge un miglioramento del 4% nel tasso di errore delle parole rispetto al migliore dei modelli precedenti simili. Il sistema affronta la generale mancanza di dati utili sulla formazione in questo settore attraverso la mappatura visemi al contenuto testuale derivato dai sei milioni di campioni nel set di dati OpenSubtitles dei titoli di film tradotti.

Un visema è l'equivalente visivo di un fonema, di fatto un audio>immagine mappatura che può costituire una "caratteristica" in un modello di apprendimento automatico.

Visemi in azione. Fonte: https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/

I ricercatori hanno iniziato stabilendo il tasso di errore più basso sui set di dati disponibili e sviluppando sequenze di visema da procedure di mappatura consolidate. A poco a poco, questo processo sviluppa un lessico visivo di parole, sebbene sia necessario definire le probabilità di accuratezza per parole diverse che condividono un visema (come "cuore" e "arte").

Visemi estratti dal testo. Fonte: https://arxiv.org/pdf/2104.04784.pdf

Quando due parole identiche risultano nello stesso visema, viene selezionata la parola che ricorre più frequentemente.

Il modello si basa sul tradizionale sequenza a sequenza apprendimento aggiungendo una fase di sub-elaborazione in cui i visemi sono previsti dal testo e modellati in una pipeline dedicata:

Sopra, metodi tradizionali da sequenza a sequenza in un modello di carattere; sotto, l'aggiunta della modellazione del carattere visema nel modello di ricerca di Teheran. Fonte: https://arxiv.org/pdf/2104.04784.pdf

Il modello è stato applicato senza contesto visivo contro il Set di dati LRS3-TED, rilasciato dell'Università di Oxford nel 2018, con il peggior tasso di errore di parola (WER) ha ottenuto un rispettabile 24.29%.

La ricerca di Teheran prevede anche l'uso di a grafema-fonema convertitore.

In un test contro la ricerca di Oxford del 2017 Frasi di lettura labiale in natura (vedi sotto), il metodo Video-To-Viseme ha raggiunto un tasso di errore di parola del 62.3%, rispetto al 69.5% del metodo Oxford.

I ricercatori concludono che l'uso di un volume maggiore di informazioni testuali, combinato con la mappatura grafema-fonema e visema, promette miglioramenti rispetto allo stato dell'arte nei sistemi automatici di lettura labiale, pur riconoscendo che i metodi utilizzati possono produrre anche risultati migliori se incorporati in quadri attuali più sofisticati.

La lettura labiale automatizzata è stata un’area attiva e continua della ricerca sulla visione artificiale e sulla PNL negli ultimi due decenni. Tra molti altri esempi e progetti, nel 2006 l'uso di un software automatizzato per la lettura labiale titoli catturati quando veniva utilizzato per interpretare ciò che Adolf Hitler diceva in alcuni dei famosi film muti girati nel suo ritiro bavarese, anche se l'applicazione sembra essere svanita nell'oscurità da quando (dodici anni dopo, Sir Peter Jackson ricorse ai lettori labiali umani per ripristinare le conversazioni dei filmati della prima guerra mondiale nel progetto di restauro non invecchieranno).

Nel 2017, Frasi di lettura labiale in natura, una collaborazione tra l'Università di Oxford e la divisione di ricerca AI di Google ha prodotto a AI che legge le labbra in grado di dedurre correttamente il 48% del parlato in video senza audio, dove un lettore labiale umano potrebbe raggiungere solo una precisione del 12.4% dallo stesso materiale. Il modello è stato addestrato su migliaia di ore di filmati della BBC TV.

Questo lavoro è seguito da a separato Iniziativa Oxford/Google dell'anno precedente, intitolata Lip Net, un'architettura di rete neurale che mappa sequenze video di lunghezza variabile in sequenze di testo utilizzando una rete ricorrente recintata (GRN), che aggiunge funzionalità all'architettura di base di una rete neurale ricorrente (RNN). Il modello ha ottenuto prestazioni migliorate di 4.1 volte rispetto ai lettori labiali umani.

Oltre al problema di ricavare una trascrizione accurata in tempo reale, la sfida di interpretare il parlato dal video si approfondisce man mano che rimuovi un contesto utile, come l'audio, filmati "faccia a faccia" ben illuminati e una lingua/cultura in cui i fonemi/ i visemi sono relativamente distinti.

Sebbene al momento non ci sia una comprensione empirica di quali lingue siano le più difficili da leggere con le labbra in completa assenza di audio, il giapponese è un primo contendente. I diversi modi in cui i nativi giapponesi (così come certi altri nativi dell'Asia occidentale e orientale) sfruttano le espressioni facciali contro il contenuto del loro discorso li rendono già un maggiore sfida per i sistemi di analisi del sentimento.

Tuttavia, vale la pena notare che gran parte della letteratura scientifica sull'argomento lo è generalmente circospetto, anche perché anche una ricerca oggettiva ben intenzionata in questo ambito rischia di sconfinare nella profilazione razziale e nella promulgazione di stereotipi esistenti.

Lingue con un'alta percentuale di componenti gutturali, come ad esempio Ceceno ed Olandese, sono particolarmente problematici per le tecniche di estrazione vocale automatica, mentre le culture in cui il parlante può esprimere emozione o deferenza distogliendo lo sguardo (di nuovo, generalmente nelle culture asiatiche) aggiungono un'altra dimensione in cui i ricercatori di lettura labiale dell'IA dovranno sviluppare ulteriori metodi di "riempimento" da altri indizi contestuali.