Connect with us

Kunstig intelligens

Læsning af læber med visemer og maskinlæring

mm
HAL reads lips in 2001: A Space Odyssey (1968)

Ny forskning fra School of Computer Engineering i Tehran tilbyder en forbedret metode til udfordringen med at skabe maskinlæringsystemer, der kan læse læber.

Den artikel, med titlen Læsning af læber ved hjælp af visem-dekodning, rapporterer, at det nye system opnår en 4% forbedring i ordfejlrate i forhold til de bedste af tidligere lignende modeller. Systemet adresserer den generelle mangel på nyttig træningsdata i denne sektor ved at kortlægge visemer til tekstindhold, der er afledt fra de seks millioner eksempler i OpenSubtitles-datasættet af oversatte filmtiltitler.

En visem er den visuelle ekvivalent af en fonem, effektivt en lyd>billede kortlægning, der kan udgøre en ‘funktion’ i et maskinlæringsmodel.

Visemer i aktion.

Visemer i aktion. Kilde: https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/

Forskerne startede med at etablere den laveste fejlrate på tilgængelige datasæt og udviklede visem-sekvenser fra etablerede kortlægningsprocedurer. Gradvis udvikler denne proces en visuel ordbog over ord – selvom det er nødvendigt at definere sandsynligheder for nøjagtighed for forskellige ord, der deler en visem (såsom ‘hjerte’ og ‘kunst’).

Decoded visemer

Visemer udtrukket fra tekst. Kilde: https://arxiv.org/pdf/2104.04784.pdf

Hvor to identiske ord resulterer i samme visem, vælges det mest hyppigt forekommende ord.

Modellen bygger på traditionel sekvens-til-sekvens-læring ved at tilføje en underproces, hvor visemer forudsiges fra tekst og modelleres i en dedikeret pipeline:

Visem-arkitektur til læsning af læber

Ovenfor, traditionelle sekvens-til-sekvens-metoder i et karaktermodel; nedenfor, tilføjelsen af visem-karakter-modellering i Teheran-forskningen. Kilde: https://arxiv.org/pdf/2104.04784.pdf

Modellen blev anvendt uden visuel kontekst mod LRS3-TED-datasættet, frigivet fra Oxford University i 2018, med den dårligste ordfejlrate (WER) på 24,29%.

Teheran-forskningen inkluderer også brugen af en grafem-til-fonem-omdanner.

I en test mod 2017 Oxford-forskningen Læsning af læber i vilde (se nedenfor), opnåede Video-To-Visem-metoden en ordfejlrate på 62,3%, sammenlignet med 69,5% for Oxford-metoden.

Forskerne konkluderer, at brugen af en højere mængde tekstinformation, kombineret med grafem-til-fonem og visem-kortlægning, lover forbedringer over den nuværende tilstand i automatiseret læsning af læber, mens de erkender, at metoderne, der anvendes, kan producere endnu bedre resultater, når de inkorporeres i mere avancerede rammer.

Maskin-dreven læsning af læber har været et aktivt og pågående område for computer-vision og NLP-forskning i de sidste to årtier. Blandt mange andre eksempler og projekter, i 2006 anvendtes automatiseret læsning af læber-software overskrifter, da det blev anvendt til at fortolke, hvad Adolf Hitler sagde i nogle af de berømte stumfilm optaget på hans bayerske tilflugtssted, selvom anvendelsen synes at være forsvundet i glemslens skygge siden (12 år senere, Sir Peter Jackson gik til menneskelige læsere af læber for at genskabe samtalerne i WW1-optagelserne i restaureringsprojektet De skal ikke blive gamle).

I 2017, Læsning af læber i vilde, et samarbejde mellem Oxford University og Google’s AI-forskningsafdeling producerede en læsning af læber-AI, der kunne korrekt slutte 48% af tale i video uden lyd, hvor en menneskelig læser af læber kun kunne nå en nøjagtighed på 12,4% fra samme materiale. Modellen blev trænet på tusinder af timer af BBC TV-optagelser.

Dette arbejde fulgte op på en separat Oxford/Google-initiativ fra det foregående år, med titlen LipNet, en neural netværksarkitektur, der kortlagde videosekvenser af variabel længde til tekstsekvenser ved hjælp af en Gated Recurrent Network (GRN), der tilføjer funktionalitet til den grundlæggende arkitektur af en Recurrent Neural Network (RNN). Modellen opnåede en 4,1-gang forbedret præstation i forhold til menneskelige læsere af læber.

Ud over problemet med at frembringe en præcis transskription i realtid, dykker udfordringen med at fortolke tale fra video, når man fjerner nyttig kontekst, såsom lyd, ‘ansigt-til-ansigt’-optagelser, der er godt belyst, og et sprog/kultur, hvor fonemer/visemer er relativt distinkte.

Selvom der ikke er nogen empirisk forståelse af, hvilke sprog der er de sværeste at læse på læber i fuldstændig fravær af lyd, er japansk en primær kandidat. De forskellige måder, hvorpå japanske indfødte (såvel som visse andre vest- og østasiatiske indfødte) udnytter ansigtsudtryk mod indholdet af deres tale, gør dem allerede til en stor udfordring for sentiment-analyse-systemer.

Men det er værd at bemærke, at meget af den videnskabelige litteratur på dette område er generelt omhyggelig, ikke mindst fordi selv velmenende objektiv forskning i denne sfære risikerer at krydse over i racemæssig profilering og udbredelse af eksisterende stereotyper.

Sprog med en høj proportion af gutturale komponenter, såsom tjetjensk og hollandsk, er særligt problematiske for automatiseret tale-ekstraktionsteknikker, mens kulturer, hvor taleren kan udtrykke følelse eller underkastelse ved at se væk (igen, generelt i asiatiske kulturer), tilføjer en anden dimension, hvor AI-læsning af læber-forskere skal udvikle yderligere metoder til ‘indfylning’ fra andre kontekstuelle hints.

Forfatter til maskinlæring, domæne-specialist i menneskesynthese af billeder. Tidligere leder af forskningsindhold på Metaphysic.ai.