Kunstmatige intelligentie

De Dageraad van Deepfaked Emoties

Published September 20, 2021

Updated April 28, 2026

Martin Anderson

Onderzoekers hebben een nieuwe machine learning-techniek ontwikkeld om willekeurig nieuwe emoties op te leggen op gezichten in video’s, door bestaande technologieën aan te passen die onlangs zijn ontwikkeld als oplossingen om lipbewegingen te laten overeenkomen met nasynchronisatie in vreemde talen.

Het onderzoek is een gelijke samenwerking tussen Northeastern University in Boston en het Media Lab van MIT, en heeft als titel Invertable Frowns: Video-to-Video Facial Emotion Translation. Hoewel de onderzoekers toegeven dat de initiële kwaliteit van de resultaten moet worden ontwikkeld door verdere onderzoek, claimen ze dat de techniek, genaamd Wav2Lip-Emotion, de eerste is die rechtstreeks full-video expressie modificatie aanpakt met behulp van neurale netwerktechnieken.

De basiscode is uitgegeven op GitHub, hoewel modelcontrolepunten later zullen worden toegevoegd aan de open source repository, beloven de auteurs.

Links, een ‘treurige’ frame van de bronvideo. Rechts, een ‘gelukkige’ frame. In het midden zijn twee nascente benaderingen voor het synthetiseren van alternatieve emoties – bovenste rij: een volledig gemaskeerd gezicht waarbij het hele expressieoppervlak is vervangen; onderste rij: een meer traditionele Wav2Lip-methode, die alleen het onderste deel van het gezicht vervangt. Bron: https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf

Enkele Video als Brongegevens

In theorie zijn dergelijke manipulaties nu mogelijk door middel van volledige training op traditionele deepfake-repositories zoals DeepFaceLab of FaceSwap. Echter, het standaardwerkproces zou het gebruik van een alternatieve identiteit voor de ‘doel’identiteit omvatten, zoals een acteur die de doelidentiteit imiteert, waarvan de eigen expressies zouden worden overgedragen op een andere persoon, samen met de rest van de prestatie. Bovendien zouden deepfake-stemkloon-technieken meestal nodig zijn om de illusie te voltooien.

Verder zou het daadwerkelijk veranderen van de expressie van target1>target1 in een enkele bronvideo onder deze populaire kaders het veranderen van de gezichtsalignatievectoren op een manier die deze architectuur momenteel niet faciliteert.

Wav2Lip-Emotion behoudt de lip-synchronisatie van de oorspronkelijke video-audio dialoog terwijl de geassocieerde expressies worden getransformeerd.

In plaats daarvan streeft Wav2Lip-Emotion ernaar om ‘kopieer en plak’ emotie-gerelateerde expressies van een deel van een video en ze in andere punten te vervangen, met een zelfopgelegde zuinigheid van brondata die uiteindelijk een lagere inspanning moet bieden voor expressie-manipulatie.

Offline modellen kunnen later worden ontwikkeld die zijn getraind op alternatieve video’s van de spreker, waardoor de behoefte aan een enkele video die een ‘palet’ van expressiestaten bevat om de video te manipuleren, wordt geëlimineerd.

Mogelijke Doeleinden

De auteurs suggereren een aantal toepassingen voor expressie-modificatie, waaronder een live video-filter om de effecten van PTSS en faciale verlamming te compenseren. Het artikel merkt op:

‘Individuen met of zonder geremde gezichtsuitdrukkingen kunnen profiteren van het afstemmen van hun eigen uitdrukkingen om beter te passen bij hun sociale omstandigheden. Men kan de uitdrukkingen in video’s die aan hen worden getoond willen veranderen. Sprekers kunnen tegen elkaar schreeuwen tijdens een videoconferentie, maar willen desondanks de inhoud van hun uitwisseling verzamelen zonder de onaangename uitdrukkingen. Of een filmregisseur kan de uitdrukkingen van een acteur willen verhogen of verlagen.’

Aangezien gezichtsuitdrukking een sleutel- en kernindicator van intentie is, zelfs waar het tegen de woorden die worden gesproken ingaat, biedt de mogelijkheid om de uitdrukking te veranderen ook, in zekere mate, de mogelijkheid om te veranderen hoe de communicatie wordt ontvangen.

Vorige Werk

Interesse in machine learning-uitdrukkingsverandering gaat terug tot minstens 2012, toen een samenwerking tussen Adobe, Facebook en Rutgers University een methode voorstelde om uitdrukkingen te veranderen door middel van een tensor-gebaseerde 3D-geometrie-reconstructiebenadering, die moeizaam een CGI-mesh over elk frame van een doelvideo imponeerde om de verandering te bewerkstelligen.

Het onderzoek van Adobe/Facebook uit 2012 manipuleerde uitdrukkingen door traditionele, CGI-gedreven veranderingen op video-opnames toe te passen. Uitdrukkingen konden worden verhoogd of onderdrukt. Bron: https://yfalan.github.io/files/papers/FeiYang_CVPR2012.pdf

Hoewel de resultaten veelbelovend waren, was de techniek omslachtig en waren de benodigde middelen aanzienlijk. Op dat moment was CGI ver vooruit op computer vision-gebaseerde benaderingen voor directe feature space- en pixelmanipulatie.

Nauwer verwant aan het nieuwe artikel is MEAD, een dataset en expressie-generatiemodel dat in 2020 werd uitgegeven, dat in staat is om ‘talking-head’-video’s te genereren, maar zonder het niveau van sofisticatie dat potentieel kan worden behaald door de modificatie van daadwerkelijke bronvideo’s.

Expressie-generatie met MEAD uit 2020, een samenwerking tussen SenseTime Research, Carnegie Mellon en drie Chinese universiteiten. Bron: https://wywu.github.io/projects/MEAD/MEAD.html

In 2018 verscheen een ander artikel, getiteld GANimation: Anatomically-aware Facial Animation from a Single Image, als een Amerikaans-Spaanse academische onderzoeksamenwerking, en gebruikte Generative Adversarial Networks om uitdrukkingen in stiltebeelden te verhogen of te veranderen.

Uitdrukkingen veranderen in stiltebeelden met GANimation. Bron: https://arxiv.org/pdf/1807.09251.pdf

Wav2Lip-Emotion

In plaats daarvan is het nieuwe project gebaseerd op Wav2Lip, dat publiciteit kreeg in 2020 door een potentiële methode aan te bieden voor het opnieuw synchroniseren van lipbewegingen om nieuwe spraak- (of zang-) invoer te accommoderen die nooit in de oorspronkelijke video is verschenen.

De oorspronkelijke Wav2Lip-architectuur was getraind op een corpus van gesproken zinnen uit de BBC-archieven. Om Wav2Lip aan te passen voor de taak van expressie-verandering, hebben de onderzoekers de architectuur ‘fijn afgesteld’ op de hierboven genoemde MEAD-dataset.

MEAD bestaat uit 40 uur video met 60 acteurs die dezelfde zin voorlezen terwijl ze een verscheidenheid aan gezichtsuitdrukkingen vertonen. De acteurs komen uit 15 verschillende landen en bieden een reeks internationale kenmerken die zijn bedoeld om het project (en afgeleide projecten) te helpen om toepasbare en goed gegeneraliseerde expressie-synthese te produceren.

Op het moment van onderzoek had MEAD alleen het eerste deel van de dataset vrijgegeven, met 47 personen die uitdrukkingen zoals ‘boos’, ‘afkeer’, ‘angst’, ‘minachting’, ‘gelukkig’, ‘treurig’ en ‘verrassing’ vertonen. In deze eerste uitstap naar een nieuwe benadering hebben de onderzoekers de reikwijdte van het project beperkt tot het overplakken of anderszins veranderen van de waargenomen emoties ‘gelukkig’ en ‘treurig’, aangezien deze het meest herkenbaar zijn.

Methode en Resultaten

De oorspronkelijke Wav2Lip-architectuur vervangt alleen het onderste deel van het gezicht, terwijl Wav2Lip-Emotion ook experimenteert met een volledige gezichtsvervanging en expressie-synthese. Daarom was het noodzakelijk voor de onderzoekers om de ingebouwde evaluatiemethoden aan te passen, aangezien deze niet waren ontworpen voor een volledig gezichtsconfiguratie.

De auteurs verbeteren de oorspronkelijke code door de oorspronkelijke audio-invoer te behouden en de consistentie van lipbewegingen te behouden.

Het generatorelement bevat een identiteitsencoder, spraakencoder en gezichtsdecoder, in overeenstemming met het eerdere werk. Het spraakelement wordt bovendien gecodeerd als gestapelde 2D-convoluties die vervolgens worden samengevoegd met hun geassocieerde frame/s.

Naast het generatieve element bevat de aangepaste architectuur drie belangrijke discriminator-onderdelen, die zich richten op de kwaliteit van lip-synchronisatie, een emotie-objectief element en een visueel kwaliteitsobjectief dat tegenstrijdig is getraind.

Voor volledige gezichtsreconstructie bevatte het oorspronkelijke Wav2Lip-werk geen precedent, en werd het model daarom van scratch getraind. Voor onderste-gezichtstraining (half-masker) gingen de onderzoekers verder vanuit controlepunten die waren opgenomen in de oorspronkelijke Wav2Lip-code.

Naast automatische evaluatie gebruikten de onderzoekers crowd-gegeven meningen die werden geleverd door een semi-geautomatiseerde serviceplatform. De werknemers beoordeelden de output over het algemeen hoog in termen van het herkennen van de overgeplakte emoties, terwijl ze alleen ‘matige’ beoordelingen meldden voor beeldkwaliteit.

De auteurs suggereren dat, naast het verbeteren van gegenereerde video-kwaliteit met verdere verfijningen, toekomstige iteraties van het werk een bredere reeks emoties kunnen omvatten, en dat het werk ook in de toekomst kan worden toegepast op gelabelde of automatisch afgeleide brondata en datasets, wat uiteindelijk kan leiden tot een authentiek systeem waarin emoties kunnen worden aangepast of veranderd in overeenstemming met de oorspronkelijke bronvideo.