Artificiell intelligens

En ny och enklare Deepfake-metod som överträffar tidigare tillvägagångssätt

Uppdaterad on December 9, 2022

Ett samarbete mellan en kinesisk AI-forskargrupp och USA-baserade forskare har utvecklat vad som kan vara den första riktiga innovationen inom deepfakes-teknik sedan fenomenet uppstod för fyra år sedan.

Den nya metoden kan utföra faceswaps som överträffar alla andra befintliga ramverk på standardperceptuella tester, utan att behöva samla in och sammanställa stora dedikerade datamängder och träna dem i upp till en vecka för bara en enda identitet. För exemplen som presenteras i det nya dokumentet utbildades modeller på helhet av två populära kändisuppsättningar, på en NVIDIA Tesla P40 GPU i cirka tre dagar.

Hela videon inbäddad i slutet av denna artikel. I det här exemplet från en video i kompletterande material till den nya tidningen överförs Scarlett Johanssons ansikte till källvideon. CihaNet tar bort problemet med kantmaskering när man utför ett byte, genom att bilda och skapa djupare relationer mellan käll- och målidentiteter, vilket innebär ett slut på "uppenbara gränser" och andra överlagringsfel som uppstår i traditionella deepfake-metoder. Källa: Källa: https://mitchellx.github.io/#video

Hela videon finns i slutet av denna artikel. I det här exemplet från en video i kompletterande material som tillhandahålls av en av författarna till den nya uppsatsen, överförs Scarlett Johanssons ansikte till källvideon. CihaNet tar bort problemet med kantmaskering när man utför ett byte, genom att bilda och skapa djupare relationer mellan käll- och målidentiteter, vilket innebär ett slut på "uppenbara gränser" och andra överlagringsfel som uppstår i traditionella deepfake-metoder. Källa: Källa: https://mitchellx.github.io/#video

Det nya tillvägagångssättet tar bort behovet av att "klistra in" den transplanterade identiteten grovt i målvideon, vilket ofta leder till kontrollampa artefakter som dyker upp där det falska ansiktet slutar och det verkliga, underliggande ansiktet börjar. Snarare används "hallucinationskartor" för att utföra en djupare blandning av visuella aspekter, eftersom systemet separerar identitet från sammanhang mycket mer effektivt än nuvarande metoder, och därför kan blanda målidentiteten på en mer djupgående nivå.

Från tidningen. CihaNet-transformationer underlättas genom hallucinationskartor (nedre raden). Systemet använder kontextinformation (dvs. ansiktsriktning, hår, glasögon och andra ocklusioner etc.) helt och hållet från bilden som den nya identiteten kommer att läggas på, och ansiktsidentitetsinformation helt från den person som ska infogas i bilden. Denna förmåga att skilja ansikte från sammanhang är avgörande för systemets framgång. Källa: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257

Den nya hallucinationskartan ger effektivt ett mer komplett sammanhang för bytet, i motsats till de hårda maskerna som ofta kräver omfattande kuration (och i fallet med DeepFaceLab, separat utbildning) samtidigt som den ger begränsad flexibilitet vad gäller verklig inkorporering av de två identiteterna.

Från prover som tillhandahålls i tilläggsmaterialet, med användning av både FFHQ- och Celeb-A HQ-datauppsättningar, över VGGFace och Forensics++. De två första kolumnerna visar de slumpmässigt valda (riktiga) bilderna som ska bytas. Följande fyra kolumner visar resultaten av bytet med de fyra mest effektiva metoderna som för närvarande finns tillgängliga, medan den sista kolumnen visar resultatet från CihaNet. FaceSwap-förrådet har använts, snarare än det mer populära DeepFaceLab, eftersom båda projekten är gafflar av den ursprungliga 2017 Deepfakes-koden på GitHub. Även om varje projekt sedan dess har lagt till modeller, tekniker, olika användargränssnitt och kompletterande verktyg, har den underliggande koden som gör deepfakes möjliga aldrig förändrats och förblir gemensam för båda. Källa: https://dl.acm.org/action/downloadSupplement?doi=10.1145%2F3474085.3475257&file=mfp0519aux.zip

Smakämnen papper, med titeln Kontext- och identitetshallucinationsnätverk i ett steg, är författad av forskare knutna till JD AI Research och University of Massachusetts Amherst, och stöddes av Kinas nationella nyckelforsknings- och utvecklingsprogram under anslag nr 2020AAA0103800. Det introducerades vid den 29:e ACM International Conference on Multimedia, den 20-24 oktober, i Chengdu, Kina.

Inget behov av "Face-On"-paritet

Både den mest populära nuvarande mjukvaran för deepfake, DeepFaceLab, och konkurrerande gaffel FaceSwap, utför slingrande och ofta handkurerade arbetsflöden för att identifiera åt vilket håll ett ansikte lutar, vilka hinder som finns i vägen som måste beaktas (igen, manuellt) , och måste klara av många andra irriterande hinder (inklusive belysning) som gör att de används långt ifrån den "peka-och-klicka"-upplevelse som felaktigt skildras i media sedan deepfakes kom.

Däremot kräver CihaNet inte att två bilder är vända mot kameran direkt för att extrahera och utnyttja användbar identitetsinformation från en enda bild.

I dessa exempel utmanas en svit av deepfake mjukvaruutmanare med uppgiften att byta ansikten som inte bara är olika i identitet, men som inte står inför på samma sätt. Programvara som härrör från det ursprungliga deepfakes-förrådet (som det enormt populära DeepFaceLab och FaceSwap, på bilden ovan) kan inte hantera skillnaden i vinklar mellan de två bilderna som ska bytas ut (se tredje kolumnen). Samtidigt kan CihaNet abstrahera identiteten på ett korrekt sätt, eftersom "posen" i ansiktet inte är en naturlig del av identitetsinformationen.

arkitektur

CihaNet-projektet, enligt författarna, inspirerades av 2019 års samarbete mellan Microsoft Research och Peking University, kallat FaceShifter, även om det gör några anmärkningsvärda och kritiska ändringar i kärnarkitekturen för den äldre metoden.

FaceShifter använder två Adaptive Instance Normalization (AdaIN) nätverk för att hantera identitetsinformation, vilken data sedan överförs till målbilden via en mask, på ett sätt som liknar nuvarande populära deepfake-programvara (och med alla dess relaterade begränsningar), med hjälp av en extra HÖR-nät (som inkluderar ett separat tränat undernät som tränats på ocklusionshinder – ett extra lager av komplexitet).

Istället använder den nya arkitekturen denna "kontextuella" information direkt för själva transformationsprocessen, via en tvåstegs enkel Cascading Adaptive Instance Normalization (C-AdaIN) operation, som ger konsistens i sammanhanget (dvs ansiktshud och ocklusioner) av ID- relevanta områden.

Det andra undernätet som är avgörande för systemet kallas Swapping Block (SwapBlk), som genererar en integrerad funktion från referensbildens sammanhang och den inbäddade "identitetsinformationen" från källbilden, och kringgår de flera steg som krävs för att åstadkomma detta genom att konventionella strömmedel.

För att hjälpa till att skilja mellan sammanhang och identitet, a hallucinationskarta genereras för varje nivå, står för en mjuk segmenteringsmask och agerar på ett bredare utbud av funktioner för denna kritiska del av deepfake-processen.

När värdet på hallucinationskartan (bilden nedan till höger) växer framträder en tydligare väg mellan identiteter.

På så sätt genomförs hela bytesprocessen i ett enda steg och utan efterbearbetning.

Data och testning

För att testa systemet tränade forskarna fyra modeller på två mycket populära och brokiga öppna bilddatauppsättningar – CelebA-HQ och NVIDIAs Flickr-Faces-HQ Dataset (FFHQ), som var och en innehåller 30,000 70,000 respektive XNUMX XNUMX bilder.

Ingen beskärning eller filtrering utfördes på dessa basdatauppsättningar. I varje fall tränade forskarna hela varje dataset på den enda Tesla GPU:n under tre dagar, med en inlärningshastighet på 0.0002 på Adam-optimering.

De gjorde sedan en serie slumpmässiga byten mellan de tusentals personligheter som finns med i datamängderna, utan hänsyn till om ansiktena var lika eller inte till och med könsmatchade, och jämförde CihaNets resultat med resultatet från fyra ledande deepfake-ramverk: Ansikts byte (som står för de mer populära DeepFaceLab, eftersom den delar en rotkodbas i 2017 års originalförråd som förde med sig deepfakes till världen); den tidigare nämnda FaceShifter; FSGAN; Och SimSwap.

Vid jämförelse av resultaten via VGG-Face, FFHQ, CelebA-HQ och FaceForensics ++, fann författarna att deras nya modell överträffade alla tidigare modeller, vilket anges i tabellen nedan.

De tre mått som användes för att utvärdera resultaten var strukturell likhet (SSIM), utgöra uppskattningsfel och Noggrannhet för ID-hämtning, som beräknas baserat på procentandelen framgångsrika hämtade par.

Forskarna hävdar att CihaNet representerar ett överlägset tillvägagångssätt när det gäller kvalitativa resultat, och ett anmärkningsvärt framsteg i förhållande till den nuvarande teknikens ståndpunkt inom deepfake-teknologier, genom att ta bort bördan av omfattande och arbetsintensiva maskeringsarkitekturer och metoder, och uppnå en mer användbar och handlingsbar separation av identitet från sammanhang.

Ta en titt nedan för att se ytterligare videoexempel på den nya tekniken. Du kan hitta videon i full längd här..