Artificiell intelligens

Identifiera kändis Deepfakes från yttre ansiktsregioner

Uppdaterad on December 9, 2022

Ett nytt samarbete mellan Microsoft och ett kinesiskt universitet har föreslagit ett nytt sätt att identifiera deepfake från kändisar, genom att utnyttja bristerna i nuvarande deepfake-tekniker för att känna igen identiteter som har "projicerats" på andra människor.

Tillvägagångssättet kallas Identitetskonsistenstransformator (IKT), och fungerar genom att jämföra de yttersta delarna av ansiktet (käke, kindben, hårfäste och andra yttre kantlinjer) med ansiktets inre. Systemet utnyttjar allmänt tillgängliga offentliga bilddata från kända personer, vilket begränsar dess effektivitet till populära kändisar, vars bilder är tillgängliga i stort antal i allmänt tillgängliga datauppsättningar för datorseende, och på internet.

Förfalskningstäckningen av falska ansikten i sju tekniker: DeepFake i FF+; DeepFake i Google DeepFake Detection; DeepFaceLab; Face2Face; FSGAN; och DF-VAE. Populära paket som DeepFaceLab och FaceSwap ger liknande begränsad täckning. Källa: https://arxiv.org/pdf/2203.01318.pdf

Som bilden ovan illustrerar är för närvarande populära metoder för deepfake ganska resursbegränsade, och de förlitar sig på motstående värdansikten (bilden eller videon av en person som kommer att få sin identitet ersatt av deepfake) för att minimera bevis på ansiktsersättning.

Även om olika metoder kan omfatta hela pannan och en stor del av hakan och kindbensområdena, är alla mer eller mindre begränsade inuti värdansiktets ram.

En framträdande karta som betonar den "inre" och "yttre" identiteten beräknad av IKT. Där en inre ansiktsmatchning fastställs men en yttre identitet inte överensstämmer, utvärderar IKT bilden som falsk.

I tester visade sig IKT kunna upptäcka djupfalskt innehåll i falska gränser, såsom lågupplöst video, där innehållet i hela videon försämras av komprimeringsartefakter, vilket hjälper till att dölja kvarvarande bevis på djupfalskprocessen – en omständighet som förvirrar många konkurrerande deepfake-detektionsmetoder.

IKT överträffar utmanare när det gäller att känna igen deepfake-innehåll. Se videon inbäddad i slutet av artikeln för fler exempel och bättre upplösning. Se inbäddad källvideo i slutet av artikeln för ytterligare exempel. Källa: https://www.youtube.com/watch?v=zgF50dcymj8

Smakämnen papper har titeln Skydda kändisar med Identity Consistency Transformer, och kommer från nio forskare som är olika knutna till University of Science and Technology i Kina, Microsoft Research Asia och Microsoft Cloud + AI.

Trovärdighetsgapet

Det finns åtminstone ett par anledningar till varför populära ansiktsbytealgoritmer som t.ex DeepFaceLab och Ansikts byte försumma det yttersta området av de utbytta ansiktsidentiteterna.

För det första är träning av djupfalska modeller tidskrävande och resurskritisk, och antagandet av "kompatibla" värdansikter/kroppar frigör GPU-cykler och epoker för att koncentrera oss på de relativt oföränderliga inre områdena av ansiktet som vi använder för att urskilja identitet (eftersom Variabler som viktfluktuationer och åldrande är minst benägna att förändra dessa centrala ansiktsdrag på kort sikt).

För det andra har de flesta djupfalska tillvägagångssätt (och detta är verkligen fallet med DeepFaceLab, programvaran som används av de mest populära eller ökända utövarna) begränsad förmåga att replikera "änden av ansiktet"-marginaler som kind- och käkområden, och är begränsade av det faktum att deras uppströms (2017)-koden behandlade inte detta problem i stor utsträckning.

I de fall identiteterna inte stämmer överens måste deepfake-algoritmen 'måla' bakgrundsområden runt ansiktet, vilket den i bästa fall gör klumpigt, även i händerna på de bästa deepfakers, som t.ex. Ctrl Skift ansikte, vars produktion användes i tidningens studier.

Det bästa av det bästa: stillbilder från en deepfake-video från den hyllade deepfakern Ctrl-Shift-Face, som byter Jim Carrey mot Gary Oldman. Detta arbete representerar utan tvekan några av de bästa resultaten som för närvarande är tillgängliga via DeepFaceLab och efterbehandlingstekniker. Ändå förblir utbytena begränsade till den relativt ringa uppmärksamhet som DFL ger det yttre ansiktet, vilket kräver en herkulisk ansträngning av datakurering och träning för att ta itu med de yttersta linjerna. Källa: https://www.youtube.com/watch?v=x8igrh1eyLk

Denna "snålhet" eller avlänkning av uppmärksamhet undkommer till stor del allmänhetens uppmärksamhet i den nuvarande oron över den växande realismen med deepfakes, eftersom våra kritiska förmågor kring deepfakes fortfarande utvecklas förbi "chock- och vördnadsstadiet".

Delade identiteter

Den nya tidningen noterar att de flesta tidigare metoder för deepfake-detektering är beroende av artefakter som förråder bytesprocessen, som t.ex. inkonsekventa huvudställningar och blinkning, bland många andra tekniker. Bara den här veckan har ytterligare ett nytt deepfake-detekteringspapper föreslagen använda "signaturen" för de olika modelltyperna i FaceSwap-ramverket för att hjälpa till att identifiera förfalskad video skapad med den (se bilden nedan).

Identifiera deepfakes genom att karakterisera signaturerna för olika modelltyper i FaceSwap-ramverket. Källa: https://arxiv.org/pdf/2202.12951.pdf

Däremot skapar IKT:s arkitektur två separata kapslade identiteter för en person, som var och en måste verifieras innan hela identiteten anses vara "sanna" film eller bilder.

Arkitektur för utbildnings- och testfaserna av IKT.

Uppdelningen av identiteter underlättas av en vision Transformator, som utför ansiktsidentifiering innan de undersökta regionerna delas upp i tokens som tillhör de inre eller yttre identiteterna.

Fördelning av patchar mellan de två parallella identitetsbetecknarna.

I uppsatsen anges:

"Tyvärr tenderar existerande ansiktsverifieringsmetoder att karakterisera den mest diskriminerande regionen, dvs. den inre ytan för verifiering och misslyckas med att fånga identitetsinformationen i den yttre ytan. Med Identity Consistency Transformer tränar vi en modell för att lära sig ett par identitetsvektorer, en för det inre ansiktet och den andra för det yttre ansiktet, genom att designa en Transformer så att den inre och den yttre identiteten kan läras in samtidigt i en sömlöst enhetlig modell.'

Eftersom det inte finns någon existerande modell för detta identifieringsprotokoll, har författarna tagit fram en ny typ av konsistensförlust som kan fungera som ett mått för äkthet. Den "inre token" och "yttre token" som är resultatet av identitetsextraktionsmodellen läggs till de mer konventionella patchinbäddningar som produceras av ansiktsidentifieringsramverk.

Data och utbildning

IKT-nätverket utbildades på Microsoft Research MS-Celeb-1M dataset, som innehåller 10 miljoner kändisansiktsbilder som täcker en miljon identiteter, inklusive skådespelare, politiker och många andra typer av framstående figurer. Enligt förfarandet enligt tidigare metod Ansiktsröntgen (ett annat Microsoft Research-initiativ), ICT:s egen falska genereringsrutin byter inre och yttre regioner av ansikten från denna datauppsättning för att skapa material att testa algoritmen på.

För att utföra dessa interna byten identifierar ICT två bilder i datamängden som uppvisar liknande huvudställningar och ansiktslandmärken, genererar ett maskområde för de centrala funktionerna (som ett byte kan utföras i) och utför ett djupt falskt byte med RGB-färgkorrigering.

Anledningen till att IKT begränsas till identifiering av kändisar är att den förlitar sig (i sin mest effektiva variant) på en ny referensuppsättning som innehåller härledda ansiktsvektorer från en central corpus (i det här fallet MS-Celeb-1M, även om referensen skulle kunna utökas till nätverkstillgängliga bilder, som sannolikt endast skulle existera i tillräcklig kvalitet och kvantitet för välkända offentliga personer).

Dessa härledda vektoruppsättnings-kupletter fungerar som äkthetstecken för att verifiera de inre och yttre ansiktsområdena i tandem.

Författarna noterar att tokens som erhålls från dessa metoder representerar funktioner på hög nivå, vilket resulterar i en djupförfalskningsdetekteringsprocess som är mer sannolikt att överleva utmanande miljöer som lågupplöst eller på annat sätt försämrad video.

Avgörande är IKT inte letar efter artefaktbaserade bevis, utan är snarare inriktad på metoder för identitetsverifiering mer i överensstämmelse med ansiktsigenkänningstekniker – ett tillvägagångssätt som är svårt med låg volym data, vilket är fallet med utredningen av incidenter med deepfake hämndporr mot icke kända mål.

Tester

Utbildad på MS-Celeb-1M, delades IKT sedan in i referensstödda och "blinda" versioner av algoritmen och testades mot en rad konkurrerande datamängder och metoder. Dessa inkluderade FaceForensics ++ (FF++), en datauppsättning med 1000 autentiska och deepfake-videor skapade med fyra metoder, inklusive Face2Face och FaceSwap; Googles Deepfake Detection (DFD), som också består av tusentals Google-genererade deepfake-videor; Celeb-DeepFake v1 (CD1), som innehåller 408 verkliga och 795 syntetiserade videor med låg artefakt; Celeb-DeepFake v2, en förlängning av V1 som innehåller 590 riktiga och 5,639 2020 falska videor; och Kinas XNUMX Deeper-Forensics (Djupare).

Det är datamängderna; detektionsmetoderna i testutmaningarna var Multi aktivitet, MesoInc4, Kapsel, Xception-c0, c2 (en metod som används i FF++), FWA/DSP-FW från universitetet i Albany, Två-gren, PCL+I2G, och Yuval Nirkins kontext-diskrepans metod.

De förutnämnda detektionsmetoderna syftar till att detektera särskilda typer av ansiktsmanipulation. Utöver dessa testade den nya tidningens författare mer allmänna deepfake-detektionserbjudanden Ansiktsröntgen, Michigan State University's FFD, CNNDetektionoch Patch-Forensics från MIT CSAIL.

De mest uppenbara resultaten från testet är att de konkurrerande metoderna drastiskt minskar i effektivitet när videoupplösningen och kvaliteten sjunker. Eftersom några av de allvarligaste potentialerna för att genomtränga våra diskriminerande krafter ligger (inte minst för närvarande) i video utan HD eller på annat sätt kvalitetskomprometterad, verkar detta vara ett betydande resultat.

I resultatdiagrammet ovan indikerar de blå och röda linjerna IKT-metodernas motståndskraft mot bildförsämring i alla områden utom vägspärren för gaussiskt brus (inte en sannolikhet i zoom- och webbkameraliknande bilder), medan de konkurrerande metodernas tillförlitlighet sjunker.

I resultattabellen nedan ser vi effektiviteten hos de olika metoderna för deepfake-detektion på de osynliga datamängderna. Grå- och asterisk-resultat indikerar jämförelse med ursprungligen publicerade resultat i projekt med sluten källkod, som inte kan verifieras externt. I nästan alla jämförbara ramverk överträffar IKT de konkurrerande metoderna för deepfake-detektering (visas i fet stil) jämfört med de testade datamängderna.

Som ett ytterligare test körde författarna innehåll från den hyllade deepfakern Ctrl Shift Faces YouTube-kanal och fann att konkurrerande metoder uppnådde särskilt sämre identifieringsresultat:

Anmärkningsvärt här är att FF++-metoder (Xception-c23) och FFD, som uppnår några av de högsta poängen för några av testdatan i den nya uppsatsens allmänna tester, här uppnår ett mycket lägre betyg än IKT i en "verklig värld"-kontext med högt ansträngt deepfake-innehåll.

Författarna avslutar artikeln med förhoppningen att dess resultat styr deepfake-detektionsgemenskapen mot liknande initiativ som koncentrerar sig på mer lättgenererbara funktioner på hög nivå, och bort från det "kalla kriget" av artefaktdetektering, där de senaste metoderna rutinmässigt undviks av utvecklingen i deepfake ramverk, eller av andra faktorer som gör sådana metoder mindre motståndskraftiga.

Kolla in den medföljande tilläggsvideon nedan för fler exempel på IKT-identifiering av djupt falskt innehåll som ofta överskrider alternativa metoder.

Skydda kändisar med Identity Consistency Transformer-CVPR2022