Kunstig intelligens
Gryningen for Deepfaked Emosjoner

Forskere har utviklet en ny maskinlæringsmetode for å påtvänge nye emosjoner på ansikter i videoer, ved å tilpasse eksisterende teknologier som nylig har dukket opp som løsninger for å matche lebebevegelser med fremmedspråklige dubbinger.
Forskningen er et likt samarbeid mellom Northeastern University i Boston og Media Lab ved MIT, og har tittelen Invertable Frowns: Video-to-Video Facial Emotion Translation. Selv om forskerne innrømmer at den innledende kvaliteten på resultatene må utvikles gjennom videre forskning, hevder de at teknikken, kalt Wav2Lip-Emotion, er den første av sitt slag som direkte tar opp fullvideo-uttrykksmodifikasjon gjennom neurale nettverksteknikker.
Basis-koden har blitt utgitt på GitHub, selv om modellkontrollpunkter vil bli lagt til i åpen kilde-repositoriet senere, lover forfatterne.

Til venstre, en ‘sørgmodig’ ramme fra kildevideoen. Til høyre, en ‘glad’ ramme. I midten er to nyanserte tilnærminger til å syntetisere alternative emosjoner – øverste rad: et fullstendig maskert ansikt der hele uttrykksflaten har blitt erstattet; nederste rad: en mer tradisjonell Wav2Lip-metode, som bare erstatter den nedre delen av ansiktet. Kilde: https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf
Enkelt video som kilde-data
I teorien er slike manipulasjoner nå mulige gjennom fullstendig trening på tradisjonelle deepfake-repositorier som DeepFaceLab eller FaceSwap. Imidlertid ville den standard arbeidsflyten innebære å bruke en alternativ identitet til ‘mål’-identiteten, som en skuespiller som imiterer mål-identiteten, hvis egne uttrykk ville bli overført til en annen person, sammen med resten av fremføringen. I tillegg ville deepfake stemme-kloningsteknikker vanligvis være nødvendig for å fullføre illusjonen.
Videre, å faktisk endre uttrykket til mål1>mål1 i en enkelt kildevideo under disse populære rammeverkene, ville innebære å endre ansikts-alignment-vektorene på en måte som disse arkitekturerne ikke nå faciliterer.

Wav2Lip-Emotion opprettholder lepe-synkronisering av den opprinnelige video-lyd-dialogen mens uttrykkene transformeres.
I stedet søker Wav2Lip-Emotion å ‘kopiere og lime’ emosjons-relaterte uttrykk fra en del av en video og erstatte dem i andre punkter, med en selv-påtvunget sparsomhet av kilde-data som er ment å tilby en lavere-innsats-metode for uttrykks-manipulering.
Offline-modeller kunne senere bli utviklet som er trent på alternative videoer av taleren, og dermed unngå behovet for at en enkelt video må inneholde en ‘palett’ av uttrykks-tilstander som kan manipuleres.
Potensielle formål
Forfatterne foreslår en rekke anvendelser for uttrykks-modifikasjon, inkludert en live-video-filter for å kompensere for effektene av PTSD og ansikts-lammelse. Artikkelen observerer:
‘Enkelt-personer med eller uten hemmede ansikts-uttrykk kan dra nytte av å justere sine egne uttrykk for bedre å tilpasse seg sosiale omstendigheter. En person kan ønske å endre uttrykkene i videoer som vises for dem. Talere kan rope på hverandre under en video-konferanse, men likevel ønske å samle innholdet i deres utveksling uten de ubehagelige uttrykkene. Eller en film-regissør kan ønske å forbedre eller dempe uttrykkene til en skuespiller.’
Siden ansikts-uttrykk er en nøkkel- og kjerne-indikator for intensjon, selv der det kan stride mot ordene som blir sagt, tilbyr evnen til å endre uttrykk også, i en viss grad, evnen til å endre hvordan kommunikasjonen mottas.
Tidligere arbeid
Interessen for maskinlærings-uttrykks-endring går tilbake til minst 2012, da et samarbeid mellom Adobe, Facebook og Rutgers University foreslo en metode for å endre uttrykk ved å bruke en tensor-basert 3D-geometri-rekonstruksjons-tilnærming, som møysommelig påtvang en CGI-mesh over hver ramme av en mål-video for å effektuere endringen.

2012 Adobe/Facebook-forskningen manipulerte uttrykk ved å påtvänge tradisjonelle, CGI-drevne endringer på video-opptak. Uttrykk kunne bli forsterket eller undertrykt. Kilde: https://yfalan.github.io/files/papers/FeiYang_CVPR2012.pdf
Selv om resultater var lovende, var teknikken møysommelig og ressursene som var nødvendig var betydelige. På dette tidspunktet var CGI langt foran datavisjons-baserte tilnærminger til direkte-egenskaps-rom- og piksel-manipulering.
Mer nært beslektet med den nye artikkelen er MEAD, en datasett og uttrykks-genereringsmodell som ble utgitt i 2020, i stand til å generere ‘talking-head’-videoer, selv om uten den niveau av sofistikasjon som potensielt kan bli oppnådd ved å modifisere faktiske kilde-videoer direkte.

Uttrykks-generering med 2020s MEAD, et samarbeid mellom SenseTime Research, Carnegie Mellon, og tre kinesiske universiteter. Kilde: https://wywu.github.io/projects/MEAD/MEAD.html
I 2018 dukket en annen artikkel, med tittelen GANimation: Anatomically-aware Facial Animation from a Single Image, opp som et US/spansk akademisk forskningssamarbeid, og brukte Generative Adversarial Networks til å forbedre eller endre uttrykk i stille bilder bare.

Endring av uttrykk i stille bilder med GANimation. Kilde: https://arxiv.org/pdf/1807.09251.pdf
Wav2Lip-Emotion
I stedet er det nye prosjektet basert på Wav2Lip, som fikk oppmerksomhet i 2020 ved å tilby en potensiell metode for å re-synkronisere lebe-bevegelse for å tilpasse nytt tale- (eller sang-) innputt som aldri har vært med i den opprinnelige videoen.
Den opprinnelige Wav2Lip-arkitekturen ble trent på en korpus av talte setninger fra BBC-arkivene. For å tilpasse Wav2Lip mot oppgaven med å endre uttrykk, ‘fine-tunet’ forskerne arkitekturen på ovennevnte MEAD-datasett.
MEAD består av 40 timer med video som viser 60 skuespillere som leser opp samme setning mens de utfører en rekke ansikts-uttrykk. Skuespillerne kommer fra 15 forskjellige land og tilbyr en rekke internasjonale karakteristika som er ment å hjelpe prosjektet (og avledede prosjekter) til å produsere anvendelige og godt-generaliserte uttrykks-syntese.
På tidspunktet for forskningen, hadde MEAD bare utgitt den første delen av datasettene, som viser 47 personer som utfører uttrykk som ‘sinne’, ‘avsky’, ‘frykt’, ‘forakt’, ‘glad’, ‘sørgmodig’ og ‘overraskelse’. I denne innledende utgaven av en ny tilnærming, begrenset forskerne omfanget av prosjektet til å påtvänge eller andre å endre de opplevde emosjonene ‘glad’ og ‘sørgmodig’, siden disse er de mest lett gjenkjennelige.
Metode og resultater
Den opprinnelige Wav2Lip-arkitekturen erstatter bare den nedre delen av ansiktet, mens Wav2Lip-Emotion også eksperimenterer med en fullstendig ansikts-erstatnings-maske og uttrykks-syntese. Derfor var det nødvendig for forskerne å også modifisere de innebygde evaluering-metodene, siden disse ikke var designet for en fullt-ansikts-konfigurasjon.
Forfatterne forbedrer den opprinnelige koden ved å beholde den opprinnelige lyd-inndata, og opprettholde konsistensen av lepe-bevegelse.
Generator-elementet har en identitets-encoder, tale-encoder og ansikts-dekoder, i henhold til tidligere arbeid. Tale-elementet er kodet tillegg som stakkede 2D-konvolusjoner som deretter er konkatenerert til deres assosierte ramme/r.
Foruten det generative elementet, har den modifiserte arkitekturen tre hoved-diskriminatorelementer, som tar sikte på kvaliteten av lepe-synkronisering, en emosjons-objektivt-element, og en adversarialt-trent visuell kvalitets-objektivt.
For fullt ansikts-rekonstruksjon, inneholdt den opprinnelige Wav2Lip-arbeidet ingen forløper, og derfor ble modellen trent fra scratch. For nedre-ansikts-trening (halv-maske), gikk forskerne videre fra kontrollpunkter inkludert i den opprinnelige Wav2Lip-koden.
Foruten automatisk evaluering, brukte forskerne crowd-sourced mening supplert av en semi-automatisk tjeneste-plattform. Arbeiderne rangerte generelt utgangen høyt i forhold til å gjenkjenne de påtvungne emosjonene, mens de bare rapporterte ‘moderate’ evalueringer for bilde-kvalitet.
Forfatterne foreslår at, foruten å forbedre generert video-kvalitet med videre forbedringer, fremtidige iterasjoner av arbeidet kunne omfatte en bredere rekke av emosjoner, og at arbeidet kunne likevel bli anvendt i fremtiden på merket eller automatisk-inferert kilde-data og datasett, og dermed til slutt føre til en autentisk system hvor emosjoner kunne bli justert opp eller ned etter brukerens ønske, eller til slutt erstattet av motsatte emosjoner i forhold til den opprinnelige kilde-videoen.












