Artificiell intelligens
En ny och enklare Deepfake-metod som överträffar tidigare tillvägagångssätt
Ett samarbete mellan en kinesisk AI-forskargrupp och USA-baserade forskare har utvecklat vad som kan vara den första riktiga innovationen inom deepfakes-teknik sedan fenomenet uppstod för fyra år sedan.
Den nya metoden kan utföra faceswaps som överträffar alla andra befintliga ramverk på standardperceptuella tester, utan att behöva samla in och sammanställa stora dedikerade datamängder och träna dem i upp till en vecka för bara en enda identitet. För exemplen som presenteras i det nya dokumentet utbildades modeller på helhet av två populära kändisuppsättningar, på en NVIDIA Tesla P40 GPU i cirka tre dagar.
Det nya tillvägagångssättet tar bort behovet av att "klistra in" den transplanterade identiteten grovt i målvideon, vilket ofta leder till kontrollampa artefakter som dyker upp där det falska ansiktet slutar och det verkliga, underliggande ansiktet börjar. Snarare används "hallucinationskartor" för att utföra en djupare blandning av visuella aspekter, eftersom systemet separerar identitet från sammanhang mycket mer effektivt än nuvarande metoder, och därför kan blanda målidentiteten på en mer djupgående nivå.
Den nya hallucinationskartan ger effektivt ett mer komplett sammanhang för bytet, i motsats till de hårda maskerna som ofta kräver omfattande kuration (och i fallet med DeepFaceLab, separat utbildning) samtidigt som den ger begränsad flexibilitet vad gäller verklig inkorporering av de två identiteterna.
Smakämnen papper, med titeln Kontext- och identitetshallucinationsnätverk i ett steg, är författad av forskare knutna till JD AI Research och University of Massachusetts Amherst, och stöddes av Kinas nationella nyckelforsknings- och utvecklingsprogram under anslag nr 2020AAA0103800. Det introducerades vid den 29:e ACM International Conference on Multimedia, den 20-24 oktober, i Chengdu, Kina.
Inget behov av "Face-On"-paritet
Både den mest populära nuvarande mjukvaran för deepfake, DeepFaceLab, och konkurrerande gaffel FaceSwap, utför slingrande och ofta handkurerade arbetsflöden för att identifiera åt vilket håll ett ansikte lutar, vilka hinder som finns i vägen som måste beaktas (igen, manuellt) , och måste klara av många andra irriterande hinder (inklusive belysning) som gör att de används långt ifrån den "peka-och-klicka"-upplevelse som felaktigt skildras i media sedan deepfakes kom.
Däremot kräver CihaNet inte att två bilder är vända mot kameran direkt för att extrahera och utnyttja användbar identitetsinformation från en enda bild.
arkitektur
CihaNet-projektet, enligt författarna, inspirerades av 2019 års samarbete mellan Microsoft Research och Peking University, kallat FaceShifter, även om det gör några anmärkningsvärda och kritiska ändringar i kärnarkitekturen för den äldre metoden.
FaceShifter använder två Adaptive Instance Normalization (AdaIN) nätverk för att hantera identitetsinformation, vilken data sedan överförs till målbilden via en mask, på ett sätt som liknar nuvarande populära deepfake-programvara (och med alla dess relaterade begränsningar), med hjälp av en extra HÖR-nät (som inkluderar ett separat tränat undernät som tränats på ocklusionshinder – ett extra lager av komplexitet).
Istället använder den nya arkitekturen denna "kontextuella" information direkt för själva transformationsprocessen, via en tvåstegs enkel Cascading Adaptive Instance Normalization (C-AdaIN) operation, som ger konsistens i sammanhanget (dvs ansiktshud och ocklusioner) av ID- relevanta områden.
Det andra undernätet som är avgörande för systemet kallas Swapping Block (SwapBlk), som genererar en integrerad funktion från referensbildens sammanhang och den inbäddade "identitetsinformationen" från källbilden, och kringgår de flera steg som krävs för att åstadkomma detta genom att konventionella strömmedel.
För att hjälpa till att skilja mellan sammanhang och identitet, a hallucinationskarta genereras för varje nivå, står för en mjuk segmenteringsmask och agerar på ett bredare utbud av funktioner för denna kritiska del av deepfake-processen.
På så sätt genomförs hela bytesprocessen i ett enda steg och utan efterbearbetning.
Data och testning
För att testa systemet tränade forskarna fyra modeller på två mycket populära och brokiga öppna bilddatauppsättningar – CelebA-HQ och NVIDIAs Flickr-Faces-HQ Dataset (FFHQ), som var och en innehåller 30,000 70,000 respektive XNUMX XNUMX bilder.
Ingen beskärning eller filtrering utfördes på dessa basdatauppsättningar. I varje fall tränade forskarna hela varje dataset på den enda Tesla GPU:n under tre dagar, med en inlärningshastighet på 0.0002 på Adam-optimering.
De gjorde sedan en serie slumpmässiga byten mellan de tusentals personligheter som finns med i datamängderna, utan hänsyn till om ansiktena var lika eller inte till och med könsmatchade, och jämförde CihaNets resultat med resultatet från fyra ledande deepfake-ramverk: Ansikts byte (som står för de mer populära DeepFaceLab, eftersom den delar en rotkodbas i 2017 års originalförråd som förde med sig deepfakes till världen); den tidigare nämnda FaceShifter; FSGAN; Och SimSwap.
Vid jämförelse av resultaten via VGG-Face, FFHQ, CelebA-HQ och FaceForensics ++, fann författarna att deras nya modell överträffade alla tidigare modeller, vilket anges i tabellen nedan.
De tre mått som användes för att utvärdera resultaten var strukturell likhet (SSIM), utgöra uppskattningsfel och Noggrannhet för ID-hämtning, som beräknas baserat på procentandelen framgångsrika hämtade par.
Forskarna hävdar att CihaNet representerar ett överlägset tillvägagångssätt när det gäller kvalitativa resultat, och ett anmärkningsvärt framsteg i förhållande till den nuvarande teknikens ståndpunkt inom deepfake-teknologier, genom att ta bort bördan av omfattande och arbetsintensiva maskeringsarkitekturer och metoder, och uppnå en mer användbar och handlingsbar separation av identitet från sammanhang.
Ta en titt nedan för att se ytterligare videoexempel på den nya tekniken. Du kan hitta videon i full längd här..
Från kompletterande material till den nya tidningen utför CihaNet ansiktsbyte på olika identiteter. Källa: https://mitchellx.github.io/#video