Artificiell intelligens

Gryningen för Deepfaked Emotioner

Published September 20, 2021

Updated April 28, 2026

Martin Anderson

Forskare har utvecklat en ny maskinlärningsteknik för att godtyckligt pålägga nya känslor på ansikten i video, genom att anpassa befintliga tekniker som nyligen har dykt upp som lösningar för att matcha läpprörelser med utländsk språkdubbning.

Forskningen är ett lika samarbete mellan Northeastern University i Boston och Media Lab på MIT, och har titeln Invertable Frowns: Video-to-Video Facial Emotion Translation. Även om forskarna medger att den initiala kvaliteten på resultaten måste utvecklas genom ytterligare forskning, hävdar de att tekniken, som kallas Wav2Lip-Emotion, är den första i sitt slag som direkt hanterar fullständig videouttrycksmodifiering genom neuronnätstekniker.

Baskoden har släppts på GitHub, även om modellkontrollpunkter kommer att läggas till i den öppna källkodsarkivet senare, lovar författarna.

Till vänster, en ‘ledsen’ bildruta från källvideon. Till höger, en ‘lycklig’ bildruta. I mitten finns två nascenta tillvägagångssätt för att syntetisera alternativa känslor – översta raden: ett fullständigt maskerat ansikte där hela uttrycksytan har ersatts; nedre raden: en mer traditionell Wav2Lip-metod, som endast ersätter den nedre delen av ansiktet. Källa: https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf

Enkel video som källdata

I teorin är sådana manipulationer möjliga nu genom fullständig träning på traditionella deepfake-repositorier som DeepFaceLab eller FaceSwap. Men den standardiserade arbetsflödet skulle innebära att man använder en alternativ identitet till ‘mål’-identiteten, såsom en skådespelare som imiterar målidentiteten, vars egna uttryck skulle överföras till en annan person, tillsammans med resten av prestationen. Dessutom skulle deepfake-röstkloningstekniker vanligtvis vara nödvändiga för att slutföra illusionen.

Ytterligare, att faktiskt ändra uttrycket för mål1>mål1 i en enda källvideo under dessa populära ramar skulle innebära att ändra ansiktsjusteringsvektorerna på ett sätt som dessa arkitekturer inte för närvarande underlättar.

Wav2Lip-Emotion upprätthåller läppsynkronisering av den ursprungliga videoaudiologen medan uttrycken omvandlas.

Istället syftar Wav2Lip-Emotion till att ‘kopiera och klistra in’ uttryck från en del av en video och ersätta dem i andra punkter, med en självpålagd sparsamhet med källdata som avses att erbjuda en lägre ansträngning för uttrycksmanipulation.

Offline-modeller kunde senare utvecklas som tränas på alternativa videor av talaren, vilket eliminerar behovet av att en video innehåller en ‘palett’ av uttryckstillstånd med vilka man kan manipulera videon.

Potentiella syften

Författarna föreslår ett antal tillämpningar för uttrycksmodifiering, inklusive en livevideofilter för att kompensera för effekterna av PTSD och ansiktsförlamning. Artikeln observerar:

‘Individer med eller utan hämmade ansiktsuttryck kan dra nytta av att justera sina egna uttryck för att bättre passa deras sociala omständigheter. En person kan vilja ändra uttrycken i videor som visas för dem. Talare kan skrika åt varandra under en videokonferens, men ändå vilja samla innehållet i deras utbyte utan de obehagliga uttrycken. Eller en filmregissör kan vilja förstärka eller minska uttrycken hos en skådespelare.’

Eftersom ansiktsuttryck är en nyckel- och kärnindikator för avsikt, även där det kan nöta mot orden som uttalas, erbjuder förmågan att ändra uttryck också, i viss mån, förmågan att ändra hur kommunikationen tas emot.

Tidigare arbete

Intresset för maskinlärningsuttrycksändring går tillbaka till åtminstone 2012, när ett samarbete mellan Adobe, Facebook och Rutgers University föreslog en metod för att ändra uttryck genom att använda en tensorbaserad 3D-geometriåterställningsansats, som mödosamt pålade en CGI-mesh över varje bildruta i målvideon för att åstadkomma ändringen.

2012 års Adobe/Facebook-forskning manipulerade uttryck genom att pålägga traditionella, CGI-drivna ändringar på videofootage. Uttryck kunde förstärkas eller undertryckas. Källa: https://yfalan.github.io/files/papers/FeiYang_CVPR2012.pdf

Även om resultaten var lovande, var tekniken betungande och resurserna som behövdes var betydande. Vid den här tiden var CGI långt före datorseende-baserade tillvägagångssätt för direkt funktion och pixelmanipulering.

Mer nära relaterat till den nya artikeln är MEAD, en dataset och uttrycksgenereringsmodell som släpptes 2020, som kan generera ‘talking-head’-videor, men utan den nivå av sofistikering som potentiellt kan uppnås genom att modifiera den faktiska källvideon direkt.

Uttrycksgenerering med 2020 års MEAD, ett samarbete mellan SenseTime Research, Carnegie Mellon och tre kinesiska universitet. Källa: https://wywu.github.io/projects/MEAD/MEAD.html

2018 publicerades en annan artikel, med titeln GANimation: Anatomically-aware Facial Animation from a Single Image, som ett amerikanskt/spanskt akademiskt forskningssamarbete, och som använde generativa adversariala nätverk för att förstärka eller ändra uttryck i stillbilder endast.

Ändra uttryck i stillbilder med GANimation. Källa: https://arxiv.org/pdf/1807.09251.pdf

Wav2Lip-Emotion

Istället baseras det nya projektet på Wav2Lip, som fick uppmärksamhet 2020 genom att erbjuda en potentiell metod för att återställa läpprörelser för att anpassa nytt tal (eller sång) indata som aldrig funnits i den ursprungliga videon.

Den ursprungliga Wav2Lip-arkitekturen tränades på en korpus av talade meningar från BBC-arkiven. För att anpassa Wav2Lip till uppgiften att ändra uttryck ‘finjusterade’ forskarna arkitekturen på den ovannämnda MEAD-databasen.

MEAD består av 40 timmar video som visar 60 skådespelare som läser upp samma mening medan de utför en mängd olika ansiktsuttryck. Skådespelarna kommer från 15 olika länder och erbjuder en rad internationella egenskaper som syftar till att hjälpa projektet (och derivata projekt) att producera tillämplig och välgenererad uttryckssyntes.

Vid forskningstiden hade MEAD endast släppt den första delen av databasen, som visar 47 personer som utför uttryck som ‘arg’, ‘avsmak’, ‘rädsla’, ‘förakt’, ‘lycklig’, ‘ledsen’ och ‘överraskad’. I denna initiala utgåva av ett nytt tillvägagångssätt begränsade forskarna omfattningen av projektet till att pålägga eller ändra de uppfattade känslorna ‘lycklig’ och ‘ledsen’, eftersom dessa är de mest lättigenkännliga.

Metod och resultat

Den ursprungliga Wav2Lip-arkitekturen ersätter endast den nedre delen av ansiktet, medan Wav2Lip-Emotion också experimenterar med en fullständig ansiktsmask och uttryckssyntes. Därför var det nödvändigt för forskarna att även modifiera de inbyggda utvärderingsmetoderna, eftersom dessa inte var utformade för en fullständig ansiktskonfiguration.

Författarna förbättrar den ursprungliga koden genom att behålla den ursprungliga ljudindata, upprätthålla läpprörelsekonsekvens.

Generatorn innehåller en identitetsskodare, taletskodare och ansiktsavkodare, i enlighet med det tidigare arbetet. Taletselementet kodas ytterligare som staplade 2D-konvolutioner som sedan konkateneras till deras associerade bildruta/r.

Förutom den generativa komponenten har den modifierade arkitekturen tre huvudsakliga diskrimineringskomponenter, som riktar sig mot kvaliteten på läppsynkronisering, en känslomässig objektelement och en visuellt kvalitetsobjekt som tränats med motstånd.

För fullständig ansiktsrekonstruktion fanns det i det ursprungliga Wav2Lip-arbetet inget prejudikat, och därför tränades modellen från scratch. För lägre ansiktsutbildning (halvmask) gick forskarna vidare från kontrollpunkter som ingick i den ursprungliga Wav2Lip-koden.

Förutom automatisk utvärdering använde forskarna crowd-sourced åsikt som tillhandahålls av en semi-automatisk serviceplattform. Arbetarna bedömde i allmänhet utdata högt i termer av att känna igen de pålagda känslorna, medan de endast rapporterade ‘måttliga’ utvärderingar för bildkvalitet.

Författarna föreslår att, förutom att förbättra den genererade videokvaliteten med ytterligare förfiningar, framtida iterationer av arbetet kunde omfatta en bredare palett av känslor, och att arbetet också kunde tillämpas i framtiden på märkta eller automatiskt härledda källdata och dataset, vilket leder till en autentisk system där känslor kan justeras upp eller ner efter användarens önskemål, eller slutligen ersätta motsatta känslor i förhållande till den ursprungliga källvideon.