Artificial Intelligence
De dageraad van diepgewortelde emoties

Onderzoekers hebben een nieuwe machine learning-techniek ontwikkeld om willekeurig nieuwe emoties op te leggen aan gezichten in video, waarbij ze bestaande technologieën aanpassen die onlangs naar voren zijn gekomen als oplossingen om lipbewegingen te matchen met nasynchronisatie in vreemde talen.
Het onderzoek is een gelijkwaardige samenwerking tussen de Northeastern University in Boston en het Media Lab aan het MIT, en is getiteld Omkeerbare frons: video-naar-video vertaling van gezichtsemoties. Hoewel de onderzoekers toegeven dat de initiële kwaliteit van de resultaten moet worden ontwikkeld door verder onderzoek, beweren ze dat de techniek, genaamd Wav2Lip-Emotion, de eerste in zijn soort is die rechtstreeks de modificatie van volledige video-expressie aanpakt door middel van neurale netwerktechnieken.
De basiscode is geweest uitgebracht op GitHub, hoewel modelcontrolepunten later aan de open source-repository zullen worden toegevoegd, beloven de auteurs.

Links een 'verdrietig' frame uit de bronvideo. Rechts een 'vrolijk' frame. In het midden staan ​​twee opkomende benaderingen voor het synthetiseren van alternatieve emoties: bovenste rij: een volledig gemaskeerd gezicht waarbij het volledige expressieoppervlak is vervangen; onderste rij: een meer traditionele Wav2Lip-methode, waarbij alleen het onderste deel van het gezicht wordt vervangen. Bron: https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf
Enkele video als brongegevens
In theorie zijn dergelijke manipulaties nu verkrijgbaar door volledige training op traditionele deepfake-repositories zoals DeepFaceLab of FaceSwapDe standaardworkflow zou echter inhouden dat er een alternatieve identiteit wordt gebruikt voor de identiteit van het 'doelwit', zoals een acteur die het doelwit imiteert, wiens eigen gezichtsuitdrukkingen samen met de rest van de performance worden overgedragen aan een ander individu. Bovendien zouden deepfake stemkloontechnieken meestal nodig zijn om de illusie compleet te maken.
Verder, het daadwerkelijk veranderen van de uitdrukking van doel1>doel1 in een enkele bronvideo onder deze populaire kaders zou het veranderen van de gezichtsuitlijningsvectoren op een manier die deze architecturen momenteel niet mogelijk maken.

Wav2Lip-Emotion handhaaft de lippensynchronisatie van de originele video-audiodialoog terwijl de bijbehorende uitdrukkingen worden getransformeerd.
In plaats daarvan probeert Wav2Lip-Emotion op effectieve wijze emotiegerelateerde gezichtsuitdrukkingen te 'kopiëren en plakken' uit een deel van een video en ze te vervangen op andere punten. Dit gebeurt met een zelfopgelegde soberheid van brongegevens, die uiteindelijk moet leiden tot een methode voor het manipuleren van gezichtsuitdrukkingen die minder moeite kost.
Later kunnen offline modellen worden ontwikkeld die worden getraind op afwisselende video's van de spreker. Hierdoor is het niet langer nodig dat één video een 'palet' van expressiestaten bevat waarmee de video kan worden gemanipuleerd.
Potentiële doeleinden
De auteurs stellen een aantal toepassingen voor voor het wijzigen van gezichtsuitdrukkingen, waaronder een live videofilter om de effecten van PTSS-patiënten en patiënten met aangezichtsverlamming te compenseren. De krant merkt op:
'Mensen met of zonder geremde gezichtsuitdrukkingen kunnen baat hebben bij het afstemmen van hun eigen gezichtsuitdrukkingen op hun sociale omstandigheden. Men kan de gezichtsuitdrukkingen in video's die aan hen worden getoond, willen aanpassen. Sprekers kunnen tijdens een videoconferentie tegen elkaar schreeuwen, maar toch de inhoud van hun gesprek willen vastleggen zonder de onaangename gezichtsuitdrukkingen. Of een filmregisseur kan de gezichtsuitdrukkingen van een acteur willen versterken of verzwakken.'
Omdat gezichtsuitdrukking een sleutel en kernindicator van intentie, zelfs waar het kan schuren tegen de woorden die worden gesproken, biedt het vermogen om de uitdrukking te veranderen tot op zekere hoogte ook het vermogen om de manier waarop de communicatie verloopt te veranderen ontvangen.
Eerder werk
De belangstelling voor het wijzigen van expressies door machine learning gaat in ieder geval terug tot 2012, toen a samenwerking tussen Adobe, Facebook en Rutgers University stelde een methode voor om uitdrukkingen te wijzigen door gebruik te maken van een op Tensor gebaseerde 3D-geometrie-reconstructiebenadering, die moeizaam een ​​CGI-mesh oplegde over elk frame van een doelvideo om de wijziging te bewerkstelligen.

Het Adobe/Facebook-onderzoek uit 2012 manipuleerde uitdrukkingen door traditionele, CGI-gestuurde veranderingen op te leggen aan videobeelden. Uitdrukkingen kunnen worden vergroot of onderdrukt. Bron: https://yfalan.github.io/files/papers/FeiYang_CVPR2012.pdf
Hoewel de resultaten veelbelovend waren, was de techniek omslachtig en waren de benodigde middelen aanzienlijk. Op dit punt liep CGI ver vooruit op op computervisie gebaseerde benaderingen voor het sturen van kenmerkruimte en pixelmanipulatie.
Nauw verwant aan het nieuwe artikel is MEAD, een dataset en model voor het genereren van expressies dat in 2020 werd uitgebracht en dat in staat is om 'talking-head'-video's te genereren, maar dan wel zonder de mate van verfijning die mogelijk is door de daadwerkelijke bronvideo rechtstreeks te wijzigen.

Expressiegeneratie met MEAD uit 2020, een samenwerking tussen SenseTime Research, Carnegie Mellon en drie Chinese universiteiten. Bron: https://wywu.github.io/projects/MEAD/MEAD.html
In 2018 nog een paper, getiteld GANimation: Anatomisch bewuste gezichtsanimatie van een enkel beeld, ontstond als Amerikaans/Spaanse academische onderzoekssamenwerking en gebruikte Generative Adversarial Networks om uitdrukkingen alleen in stilstaande beelden te verbeteren of te wijzigen.

Uitdrukkingen in stilstaande beelden veranderen met GANimation. Bron: https://arxiv.org/pdf/1807.09251.pdf
Wav2Lip-emotie
In plaats daarvan is het nieuwe project gebaseerd op Wav2Lip, dat publiciteit gekregen in 2020 door een mogelijke methode aan te bieden voor het opnieuw synchroniseren van lipbewegingen om nieuwe spraak mogelijk te maken (of lied) invoer die nooit in de originele video voorkwam.
De oorspronkelijke Wav2Lip-architectuur werd getraind op een corpus van gesproken zinnen uit de BBC-archieven. Om Wav2Lip aan te passen aan de taak van expressieverandering, hebben de onderzoekers de architectuur op de bovengenoemde MEAD-dataset 'fijngeregeld'.
MEAD bestaat uit 40 uur video waarin 60 acteurs dezelfde zin voorlezen terwijl ze verschillende gezichtsuitdrukkingen uitvoeren. De actoren komen uit 15 verschillende landen en bieden een scala aan internationale kenmerken om het project (en afgeleide projecten) te helpen een toepasbare en goed veralgemeende uitdrukkingssynthese te produceren.
Ten tijde van het onderzoek had MEAD slechts het eerste deel van de dataset vrijgegeven, met 47 personen die uitdrukkingen als 'boos', 'walging', 'angst', 'minachting', 'blij', 'verdrietig' en 'verrassing' uitdrukten. In deze eerste poging tot een nieuwe aanpak beperkten de onderzoekers de reikwijdte van het project tot het overlappen of anderszins veranderen van de waargenomen emoties 'blij' en 'verdrietig', omdat deze het gemakkelijkst te herkennen zijn.
Methode en resultaten
De originele Wav2Lip-architectuur vervangt alleen het onderste deel van het gezicht, terwijl Wav2Lip-Emotion ook experimenteert met een volledig gezichtsvervangend masker en uitdrukkingssynthese. Het was dus noodzakelijk voor de onderzoekers om de ingebouwde evaluatiemethoden bovendien aan te passen, aangezien deze niet waren ontworpen voor een full-face configuratie.
De auteurs verbeteren de originele code door de originele audio-invoer te behouden, waardoor de consistentie van de lipbeweging behouden blijft.
Het generatorelement is voorzien van een identiteits-encoder, een spraak-encoder en een gezichtsdecoder, in overeenstemming met het eerdere werk. Het spraakelement wordt bovendien gecodeerd als gestapelde 2D-convoluties die vervolgens worden samengevoegd tot hun bijbehorende frame(s).
Naast het generatieve element, bevat de gewijzigde architectuur drie belangrijke onderscheidende componenten, gericht op de kwaliteit van lipsynchronisatie, een emotie-objectief element en een vijandig getraind visueel kwaliteitsdoel.
Voor volledige gezichtsreconstructie bevatte het originele Wav2Lip-werk geen precedent en daarom werd het model vanaf nul getraind. Voor training van het ondergezicht (halfmasker) gingen de onderzoekers uit van checkpoints die in de originele Wav2Lip-code waren opgenomen.
Naast automatische evaluatie maakten de onderzoekers gebruik van crowd-sourced opinies, aangeleverd door een semi-geautomatiseerd serviceplatform. De medewerkers beoordeelden de output over het algemeen hoog op het herkennen van de overlappende emoties, terwijl ze de beeldkwaliteit slechts 'matig' beoordeelden.
De auteurs suggereren dat, naast het verbeteren van de gegenereerde videokwaliteit met verdere verfijningen, toekomstige iteraties van het werk een breder scala aan emoties zouden kunnen omvatten, en dat het werk in de toekomst evengoed zou kunnen worden toegepast op gelabelde of automatisch afgeleide brongegevens en datasets, wat uiteindelijk zou kunnen leiden tot , naar een authentiek systeem waarin emoties naar wens van de gebruiker kunnen worden verhoogd of verlaagd, of uiteindelijk kunnen worden vervangen door contrasterende emoties ten opzichte van de originele bronvideo.