Kunstig intelligens

Morgenen for Deepfaked Emotioner

Published September 20, 2021

Updated April 28, 2026

Martin Anderson

Forskere har udviklet en ny maskinlæringsmetode til at påtvænge nye emotioner på ansigter i videoarbejder, ved at tilpasse eksisterende teknologier, der nyligt er dukket op som løsninger til at matche læbepositioner med fremmedsprogede dubbinger.

Forskningen er en lige samarbejdsindsats mellem Northeastern University i Boston og Media Lab på MIT, og har titlen Invertable Frowns: Video-to-Video Facial Emotion Translation. Selv om forskerne indrømmer, at den initiale kvalitet af resultaterne skal udvikles gennem yderligere forskning, hævder de, at metoden, der kaldes Wav2Lip-Emotion, er den første af sin art til direkte at løse fuld-video-udtryksændring gennem neurale netværksteknikker.

Basekoden er blevet frigivet på GitHub, selv om modelkontrolpunkter vil blive tilføjet til den åbne kildearkiv senere, lover forfatterne.

Til venstre, en ‘sæd’ ramme af kildevideoen. Til højre, en ‘glad’ ramme. I midten er to ny opdukkende tilgange til at syntetisere alternative emotioner – øverste række: en fuldt-maskeret ansigtsdel, hvor hele udtryksfladen er erstattet; nederste række: en mere traditionel Wav2Lip-metode, der kun erstatter den nederste del af ansigtet. Kilde: https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf

Enkelt video som kildedata

I teorien kan sådanne manipulationer opnås nu gennem fuldstændig træning på traditionelle deepfake-repositorier som DeepFaceLab eller FaceSwap. However, den standardmæssige arbejdsgang ville indebære at bruge en alternativ identitet til ‘mål’-identiteten, såsom en skuespiller, der efterligner målidentiteten, hvis egne udtryk ville blive overført til en anden person, sammen med resten af præstationen. Derudover ville deepfake-stemme-kloningsteknikker normalt være nødvendige for at fuldende illusionen.

Yderligere ville det faktisk at ændre udtrykket af mål1>mål1 i en enkelt kildevideo under disse populære rammer indebære at ændre ansigtsudtryksvektorerne på en måde, som disse arkitekturer ikke i øjeblikket faciliterer.

Wav2Lip-Emotion opretholder læbessynkronisering af den originale videoaudio-dialog, mens udtrykkene omformes.

I stedet søger Wav2Lip-Emotion effektivt at ‘kopiere og indsætte’ emotion-relaterede udtryk fra en del af en video og indsætte dem i andre punkter, med en selv påtvunget sparsommelighed af kilde-data, der er tiltænkt at tilbyde en lavere-bestræbelse-metode for udtryksmanipulation.

Offline-modeller kunne senere udvikles, der er trænet på alternative videoer af taleren, og som eliminerer behovet for, at en enkelt video skal indeholde en ‘palet’ af udtryksstater, hvormed videoen kan manipuleres.

Potentiel formål

Forfatterne foreslår en række anvendelser for udtryksændring, herunder en live-video-filter til at kompensere for effekterne af PTSD og ansigtslammelse. Artiklen bemærker:

‘Personer med eller uden hæmmede ansigtsudtryk kan have gavn af at justere deres egne udtryk for bedre at tilpasse sig deres sociale omstændigheder. En person kan ønske at ændre udtrykkene i videoer, der vises for dem. Talere kan råbe ad hinanden under en videokonference, men ønske alligevel at samle indholdet i deres udveksling uden de ubehagelige udtryk. Eller en filminstruktør kan ønske at forstærke eller formindske udtrykkene hos en skuespiller.’

Da ansigtsudtryk er en nøgle- og kerneindikator for hensigt, selv hvor det kan glide mod ordene, der tales, tilbyder evnen til at ændre udtryk også, i visse tilfælde, evnen til at ændre, hvordan kommunikationen modtages.

Tidligere arbejde

Interessen for maskinlærings-udtryksændring går tilbage til mindst 2012, da et samarbejde mellem Adobe, Facebook og Rutgers University foreslog en metode til at ændre udtryk ved at bruge en tensor-baseret 3D-geometri-rekonstruktionsmetode, der møjsommeligt påtvang en CGI-mesh over hver ramme af en målvideo for at effektuere ændringen.

Den 2012 Adobe/Facebook-forskning manipulerede udtryk ved at påtvænge traditionelle, CGI-drevne ændringer på videooptagelser. Udtryk kunne forstærkes eller undertrykkes. Kilde: https://yfalan.github.io/files/papers/FeiYang_CVPR2012.pdf

Selv om resultaterne var lovende, var metoden besværlig, og ressourcerne, der var nødvendige, var betydelige. På dette tidspunkt var CGI langt foran computer-vision-baserede tilgange til direkte funktion-rum- og pixel-manipulation.

Mere nært beslægtet med den nye artikel er MEAD, en dataset og udtryks-genereringsmodel, der blev frigivet i 2020, og som kan generere ‘talking-head’-videoer, selv om det ikke har det samme niveau af sofistikation, der potentielt kan opnås ved at ændre den faktiske kildevideo direkte.

Udtryks-generering med 2020’s MEAD, et samarbejde mellem SenseTime Research, Carnegie Mellon og tre kinesiske universiteter. Kilde: https://wywu.github.io/projects/MEAD/MEAD.html

I 2018 dukkede en anden artikel op, med titlen GANimation: Anatomically-aware Facial Animation from a Single Image, som en US/spansk akademisk forskningssamarbejde, og som brugte Generative Adversarial Networks til at forstærke eller ændre udtryk i stille billeder alene.

Ændring af udtryk i stille billeder med GANimation. Kilde: https://arxiv.org/pdf/1807.09251.pdf

Wav2Lip-Emotion

I stedet er det nye projekt baseret på Wav2Lip, som fremkaldte opmærksomhed i 2020 ved at tilbyde en potentiel metode til at gensynkronisere læbebevægelser for at tilpasse nyt tale- (eller sang-) input, der aldrig havde været en del af den originale video.

Den originale Wav2Lip-arkitektur var trænet på en korpus af talte sætninger fra BBC-arkiverne. For at tilpasse Wav2Lip til opgaven med udtryksændring ‘finjusterede’ forskerne arkitekturen på ovennævnte MEAD-dataset.

MEAD består af 40 timers video med 60 skuespillere, der læser en sætning op, mens de udfører en række ansigtsudtryk. Skuespillerne kommer fra 15 forskellige lande og tilbyder en række internationale karakteristika, der er tiltænkt at hjælpe projektet (og afledte projekter) med at producere anvendelige og vel-generaliserede udtrykssynteser.

Ved forskningstidspunktet havde MEAD kun frigivet den første del af datasettet, der indeholdt 47 personer, der udførte udtryk som ‘vred’, ‘foragt’, ‘frygt’, ‘foragt’, ‘glad’, ‘sæd’ og ‘overraskelse’. I denne første udgave af en ny tilgang begrænsede forskerne projektets omfang til at påtvænge eller ændre de opfattede emotioner ‘glad’ og ‘sæd’, da disse er de mest let genkendelige.

Metode og resultater

Den originale Wav2Lip-arkitektur erstatter kun den nederste del af ansigtet, mens Wav2Lip-Emotion også eksperimenterer med en fuld ansigtsmask og udtrykssyntese. Derfor var det nødvendigt for forskerne at ændre de indbyggede evalueringmetoder, da disse ikke var designet til en fuld-ansigtskonfiguration.

Forfatterne forbedrer den originale kode ved at fastholde det originale audio-input, og opretholde konsistens af læbebevægelser.

Generator-delen indeholder en identitets-encoder, tale-encoder og ansigts-decoder, i overensstemmelse med den tidligere arbejde. Tale-elementet er kodet yderligere som stablede 2D-konvolutioner, der herefter konkateneres til deres associatede ramme(r).

Ud over det generative element indeholder den modificerede arkitektur tre hoveddiskriminatorelementer, der sigter mod kvaliteten af læbesynkronisering, et emotion-mål-element og et visuelt kvalitetsmål, der er trænet adversarielt.

Til fuld ansigtsrekonstruktion indeholdt den originale Wav2Lip-arbejde ingen præcedens, og derfor blev modellen trænet fra scratch. Til lavere-ansigts-træning (halv-mask) gik forskerne ud fra kontrolpunkter, der var inkluderet i den originale Wav2Lip-kode.

Ud over automatisk evaluering brugte forskerne crowd-sourced mening leveret af en semi-automatisk service-platform. Arbejderne vurderede generelt output højt i forhold til at genkende de påtvungne emotioner, mens de kun rapporterede ‘moderate’ vurderinger for billedkvalitet.

Forfatterne foreslår, at fremtidige iterationer af arbejdet kunne omfatte en bredere række af emotioner, og at arbejdet også kunne anvendes i fremtiden på mærkede eller automatisk indførte kilde-data og datasets, hvilket til sidst ville føre til et ægte system, hvor emotioner kunne justeres op eller ned efter brugerens ønske, eller endda erstattes af modsatte emotioner i forhold til den originale kildevideo.