Connect with us

Kunstig intelligens

Lesing av lepper med visemer og maskinlæring

mm
HAL reads lips in 2001: A Space Odyssey (1968)

Ny forskning fra Skolen for datateknikk ved Tehran tilbyr en forbedret metode for å møte utfordringen med å lage maskinlæringsystemer som kan lese lepper.

Den artikkelen, med tittelen Leseing av lepper med visem-dekoding, rapporterer at det nye systemet oppnår en 4% forbedring i ordfeilrate sammenlignet med de beste tidligere modellene. Systemet løser den generelle mangelen på nyttig treningdata i denne sektoren ved å kartlegge visemer til tekstinnhold derivert fra de seks millionene eksemplene i OpenSubtitles-datasettet av oversatte filmtitler.

En visem er den visuelle ekvivalenten av en fonem, effektivt en lyd>bilde mapping som kan utgjøre en ‘egenskap’ i en maskinlæringsmodell.

Visemer i aksjon

Visemer i aksjon. Kilde: https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/

Forskerne startet med å etablere den laveste feilraten på tilgjengelige datasett, og utviklet visem-sekvenser fra etablerte kartleggingsprosedyrer. Gradvis utvikler denne prosessen en visuell leksikon av ord – selv om det er nødvendig å definere sannsynligheter for nøyaktighet for forskjellige ord som deler en visem (slik som ‘hjerte’ og ‘kunst’).

Visemer utledet fra tekst

Visemer utledet fra tekst. Kilde: https://arxiv.org/pdf/2104.04784.pdf

Hvor to identiske ord resulterer i samme visem, velges det mest hyppig forekommende ordet.

Modellen bygger på tradisjonell sekvens-til-sekvens læring ved å legge til en underprosesseringsstadium hvor visemer predikeres fra tekst og modellert i en dedikert pipeline:

Visem-arkitektur leseing av lepper

Ovenfor, tradisjonelle sekvens-til-sekvens metoder i en karaktermodell; nedenfor, tillegg av visem-karaktermodellering i Tehran-forskningen modell. Kilde: https://arxiv.org/pdf/2104.04784.pdf

Modellen ble anvendt uten visuell kontekst mot LRS3-TED datasettet, utgitt fra Oxford University i 2018, med den dårligste ordfeilraten (WER) på 24,29%.

Tehran-forskningen inkorporerer også bruken av en grafem-til-fonem omvandler.

I en test mot 2017 Oxford-forskningen Leseing av lepper i ville (se nedenfor), oppnådde Video-Til-Visem-metoden en ordfeilrate på 62,3%, sammenlignet med 69,5% for Oxford-metoden.

Forskerne konkluderer med at bruken av en høyere volum av tekstinformasjon, kombinert med grafem-til-fonem og visem-kartlegging, lover forbedringer over den nåværende tilstanden i automatisert leseing av lepper systemer, mens de erkjenner at metodene som brukes kan produsere enda bedre resultater når de inkorporeres i mer avanserte rammer.

Maskin-drevet leseing av lepper har vært et aktivt og pågående område for datavisjon og NLP-forskning over de siste to tiårene. Blant mange andre eksempler og prosjekter, i 2006 fanget bruken av automatisert leseing av lepper program overskrifter når det ble brukt til å tolke hva Adolf Hitler sa i noen av de berømte stumfilmene tatt på hans bayerske tilbaketrekning, selv om applikasjonen synes å ha forsvunnet inn i obskuritet siden (tolv år senere, Sir Peter Jackson gikk tilbake til menneskelige leseing av lepper for å gjenopprette samtaler i WW1-opptak i restaureringsprosjektet De skal ikke vokse gamle).

I 2017, Leseing av lepper i ville, et samarbeid mellom Oxford University og Google’s AI-forskningsavdeling produserte en leseing av lepper AI i stand til å korrekt slutte 48% av tale i video uten lyd, hvor en menneskelig leseing av lepper bare kunne nå en nøyaktighet på 12,4% fra samme materialet. Modellen ble trent på tusenvis av timer med BBC TV-opptak.

Dette arbeidet fulgte på fra en separat Oxford/Google-initiativ fra året før, med tittelen LipNet, en neural nettverksarkitektur som kartla videosekvenser av variabel lengde til tekstsekvenser ved hjelp av en Gated Recurrent Network (GRN), som legger til funksjonalitet til den grunnleggende arkitekturen av en Recurrent Neural Network (RNN). Modellen oppnådde en 4,1 ganger forbedret ytelse enn menneskelige leseing av lepper.

Foruten problemet med å fremkalle en nøyaktig transkript i sanntid, dypner utfordringen med å tolke tale fra video når du fjerner nyttig kontekst, som lyd, ‘ansikt-til’ opptak som er godt belyst, og et språk/kultur hvor fonemene/visemene er relativt distinkte.

Selv om det for tiden ikke finnes noen empirisk forståelse av hvilke språk som er de mest vanskelige å lese av lepper i fullstendig fravær av lyd, er japansk en primær kandidat. De forskjellige måtene japanske innfødte (samt visse andre vest- og østasiatiske innfødte) utnytter ansiktsuttrykk mot innholdet av deres tale gjør dem allerede en stor utfordring for sentiment-analyse systemer.

Men det er verdt å merke seg at mye av den vitenskapelige litteraturen på dette området er generelt omsorgsfull, ikke minst fordi selv velmente objektiv forskning i denne sfæren risikerer å krysse over i rasistisk profilering og fremme eksisterende stereotyper.

Språk med en høy andel gutturale komponenter, som tsjetsjensk og nederlandsk, er spesielt problematisk for automatisert tale-ekstraksjonsteknikker, mens kulturer hvor taleren kan uttrykke følelse eller underkastelse ved å se bort (igjen, generelt i asiatiske kulturer) legger til en annen dimensjon hvor AI-leseing av lepper-forskere må utvikle ytterligere metoder for ‘in-filling’ fra andre kontekstuelle hint.

Forfatter på maskinlæring, domeneekspert på menneskesynthese. Tidligere leder for forskningsinnhold på Metaphysic.ai.