Connect with us

Artificiell intelligens

Identifiering av kändisdeepfakes från yttre ansiktsområden

mm

Ett nytt samarbete mellan Microsoft och ett kinesiskt universitet har föreslagit en ny metod för att identifiera kändisdeepfakes, genom att utnyttja bristerna i nuvarande deepfake-tekniker för att känna igen identiteter som har “projicerats” på andra människor.

Tillvägagångssättet kallas Identity Consistency Transformer (ICT), och fungerar genom att jämföra de yttre delarna av ansiktet (haka, kindben, hårfäste och andra yttre linjement) med ansiktets inre delar. Systemet utnyttjar allmänt tillgängliga offentliga bilddata av kändisar, vilket begränsar dess effektivitet till populära kändisar, vars bilder finns i stort antal i allmänt tillgängliga datamängder för datorseende och på internet.

The forgery coverage of faked faces across seven techniques: DeepFake in FF+; DeepFake in Google DeepFake Detection; DeepFaceLab; Face2Face; FSGAN; and DF-VAE. Source: https://arxiv.org/pdf/2203.01318.pdf

The forgery coverage of faked faces across seven techniques: DeepFake in FF+; DeepFake in Google DeepFake Detection; DeepFaceLab; Face2Face; FSGAN; and DF-VAE. Popular packages such as DeepFaceLab and FaceSwap provide similarly constrained coverage. Source: https://arxiv.org/pdf/2203.01318.pdf

Som bilden ovan visar, är nuvarande populära metoder för deepfaking ganska resursbegränsade och förlitar sig på lämpliga “värdansikten” (bilden eller videon av en person som kommer att få sin identitet ersatt av deepfaken) för att minimera bevis på ansiktsbyte.

Även om varierande metoder kan omfatta hela pannan och en stor del av hakan och kindbensområdena, är alla mer eller mindre begränsade inom ramen för värdansiktet.

A saliency map that emphasizes the 'inner' and 'outer' identities calculated by ICT. Where an inner facial match is established but an outer identity does not correspond, ICT evaluates the image as false.

A saliency map that emphasizes the ‘inner’ and ‘outer’ identities calculated by ICT. Where an inner facial match is established but an outer identity does not correspond, ICT evaluates the image as false.

I tester visade sig ICT kunna upptäcka deepfake-innehåll i lågupplöst video, där innehållet i hela videon är försämrat av kompressionsartefakter, vilket hjälper till att dölja resterande bevis för deepfake-processen – en omständighet som förvirrar många konkurrerande deepfake-detektionsmetoder.

ICT outperforms contenders in recognizing deepfake content. See video embedded at end of article for more examples and better resolution. Source: https://www.youtube.com/watch?v=zgF50dcymj8

ICT outperforms contenders in recognizing deepfake content. See video embedded at end of article for more examples and better resolution. See embedded source video at end of article for further examples. Source: https://www.youtube.com/watch?v=zgF50dcymj8

Den artikeln heter Protecting Celebrities with Identity Consistency Transformer, och kommer från nio forskare som är anslutna till University of Science and Technology of China, Microsoft Research Asia och Microsoft Cloud + AI.

The Credibility Gap

Det finns minst ett par skäl till varför populära ansiktsbytaralgoritmer som DeepFaceLab och FaceSwap försummar de yttre områdena av de bytte ansiktsidentiteterna.

Först och främst är utbildning av deepfake-modeller tidskrävande och resurskritisk, och antagandet av “kompatibla” värdansikten/framkroppar frigör GPU-cykler och epoker för att koncentrera sig på de relativt oföränderliga inre områdena av ansiktet som vi använder för att skilja identitet (eftersom variabler som viktfluktuation och åldrande är minst benägna att förändra dessa kärnansiktsdrag på kort sikt).

Som en andra anledning har de flesta deepfake-ansatser (och detta är säkert fallet med DeepFaceLab, den programvara som används av de mest populära eller ökända utövarna) begränsad förmåga att replikera “ända av ansikte”-marginaler som kind och haka, och är begränsade av det faktum att deras uppströms ( 2017 ) kod inte omfattande behandlade denna fråga.

I fall där identiteterna inte matchar bra, måste deepfake-algoritmen “inpainta” bakgrundsområden runt ansiktet, vilket den gör klumpigt i bästa fall, även i händerna på de bästa deepfakers, som Ctrl Shift Face, vars utdata användes i artikeln.

The best of the best: stills from a deepfake video from acclaimed deepfaker Ctrl-Shift-Face, swapping Jim Carrey over Gary Oldman. This work arguably represents some of the best output currently available via DeepFaceLab and post-processing techniques. Nonetheless, the swaps remains limited to the relatively scant attention that DFL gives to the outer face, requiring a Herculean effort of data curation and training to address the outermost lineaments. Source: https://www.youtube.com/watch?v=x8igrh1eyLk

The best of the best: stills from a deepfake video from acclaimed deepfaker Ctrl-Shift-Face, swapping Jim Carrey over Gary Oldman. This work arguably represents some of the best output currently available via DeepFaceLab and post-processing techniques. Nonetheless, the swaps remain limited to the relatively scant attention that DFL gives to the outer face, requiring a Herculean effort of data curation and training to address the outermost lineaments. Source: https://www.youtube.com/watch?v=x8igrh1eyLk

Denna “sleight of hand”, eller avledning av uppmärksamheten, undgår i stor utsträckning allmänhetens uppmärksamhet i den nuvarande oron över den växande realismen i deepfakes, eftersom våra kritiska fakulteter runt deepfakes fortfarande utvecklas förbi “chock och förundran”-stadiet.

Split Identities

Den nya artikeln påpekar att de flesta tidigare metoder för deepfake-detektion förlitar sig på artefakter som avslöjar byteprocessen, som inkonsekventa huvudposeringar och blinkning, bland många andra tekniker. Bara denna vecka har en annan ny deepfake-detektionsartikel föreslagit att använda “signatur” av de varierande modelltyperna i FaceSwap-ramverket för att hjälpa till att identifiera förfalskad video skapad med det (se bild nedan).

Identifying deepfakes by characterizing the signatures of different model types in the FaceSwap framework. Source: https://arxiv.org/pdf/2202.12951.pdf

Identifying deepfakes by characterizing the signatures of different model types in the FaceSwap framework. Source: https://arxiv.org/pdf/2202.12951.pdf

Till skillnad från detta skapar ICT:s arkitektur två separata, inbäddade identiteter för en person, som båda måste verifieras innan hela identiteten kan fastställas som “sann” film eller bild.

Architecture for the training and testing phases of ICT.

Architecture for the training and testing phases of ICT.

Delningen av identiteter underlättas av en vision Transformer, som utför ansiktsidentifiering innan den delar upp de undersökta områdena i token som tillhör de inre eller yttre identiteterna.

Distributing patches among the two parallel identity signifiers.

Distributing patches among the two parallel identity signifiers.

Artikeln påpekar:

‘Tyvärr tenderar befintliga ansiktsverifieringsmetoder att karakterisera den mest diskriminerande regionen, d.v.s. det inre ansiktet för verifiering och misslyckas med att fånga identitetsinformationen i det yttre ansiktet. Med Identity Consistency Transformer, tränar vi en modell för att lära sig ett par identitetsvektorer, en för det inre ansiktet och den andra för det yttre ansiktet, genom att utforma en Transformer så att de inre och yttre identiteterna kan läras samtidigt i en sammanhängande modell.’

Eftersom det inte finns någon befintlig modell för denna identifieringsprotokoll, har författarna utvecklat en ny typ av konsekvensförlust som kan fungera som en måttstock för äkthet. De “inre token” och “yttre token” som resulterar från identitetsextraktionsmodellen läggs till de mer konventionella patch-inkapslingarna som produceras av ansiktsidentifieringsramverk.

Data och utbildning

ICT-nätverket tränades på Microsoft Research’s MS-Celeb-1M-datamängd, som innehåller 10 miljoner kändisansiktsbilder som täcker en miljon identiteter, inklusive skådespelare, politiker och många andra typer av framstående personer. Enligt förfarandet för tidigare metod Face X-ray (en annan Microsoft Research-initiativ), skapar ICT:s egen rutin för att generera falskt innehåll material på vilket algoritmen kan testas.

För att utföra dessa interna byten identifierar ICT två bilder i datamängden som visar liknande huvudposeringar och ansiktslandmärken, genererar en maskregion av de centrala dragen (in i vilken ett byte kan utföras), och utför ett deepfake-byte med RGB-färgkorrigering.

Anledningen till att ICT begränsas till kändisidentifiering är att den förlitar sig (i sin mest effektiva variation) på en ny referensuppsättning som inkorporerar härledda ansiktsvektorer från en central korpus (i detta fall MS-Celeb-1M, även om referensen kunde utvidgas till nätverks-tillgängliga bilder, som skulle finnas i tillräcklig kvalitet och kvantitet endast för välkända offentliga figurer).

Dessa härledda vektorpar fungerar som äkthetstoken för att verifiera de inre och yttre ansiktsregionerna i tandem.

Författarna påpekar att token som erhålls från dessa metoder representerar “hög-nivå”-funktioner, vilket resulterar i en deepfake-detektionsprocess som är mer benägen att överleva utmanande miljöer som lågupplöst eller på annat sätt försämrade videor.

Avgörande är att ICT inte letar efter artefaktbaserade bevis, utan snarare fokuserar på identitetsverifieringsmetoder som är mer i linje med ansiktsigenkänningstekniker – en tillvägagångssätt som är svårt med lågvolymdata, som är fallet med utredningar av incidenter av deepfake-hämnporr mot icke-kända mål.

Tester

Tränad på MS-Celeb-1M, delades ICT sedan in i referensassisterade och “blinda” versioner av algoritmen, och testades mot en rad konkurrerande datamängder och metoder. Dessa inkluderade FaceForensics++ (FF++), en datamängd på 1000 autentiska och deepfake-videor skapade över fyra metoder, inklusive Face2Face och FaceSwap; Google’s Deepfake Detection (DFD), som också består av tusentals Google-genererade deepfake-videor; Celeb-DeepFake v1 (CD1), som innehåller 408 riktiga och 795 syntetiserade, låg-artefakt-videor; Celeb-DeepFake v2, en utvidgning av V1 som innehåller 590 riktiga och 5 639 falska videor; och Kinas 2020 Deeper-Forensics (Deeper).

Dessa är datamängderna; detektionsmetoderna i testutmaningarna var Multi-task, MesoInc4, Capsule, Xception-c0, c2 (en metod som används i FF++), FWA/DSP-FW från University at Albany, Two-Branch, PCL+I2G, och Yuval Nirkins kontext-discrepancemetod.

De ovannämnda detektionsmetoderna är inriktade på att upptäcka särskilda typer av ansiktsmanipulation. Utöver dessa testade artikelförfattarna mer allmänna deepfake-detektionserbjudanden Face X-ray, Michigan State Universitys FFD, CNNDetection, och Patch-Forensics från MIT CSAIL.

De mest uppenbara resultaten från testet är att de konkurrerande metoderna drastiskt minskar i effektivitet när videouppdatering och kvalitet sänks. Eftersom några av de allvarligaste potentialerna för deepfake att tränga in i våra diskriminerande krafter ligger (inte minst för närvarande) i icke-HD eller på annat sätt kvalitetskomprometterad video, verkar detta vara ett betydande resultat.

I resultattabellen nedan ser vi effektiviteten hos de varierande deepfake-detektionsmetoderna på de osedda datamängderna. Grå och asteriskerade resultat indikerar jämförelse från ursprungligen publicerade resultat i slutna källkodsprojekt, som inte kan verifieras externt. Över nästan alla jämförbara ramverk presterar ICT bättre än de rivaliserande deepfake-detektionsansatserna (visade i fetstil) över de testade datamängderna.

Som ett tilläggs-test körde författarna innehåll från YouTube-kanalen för den prisbelönta deepfaker Ctrl Shift Face, och fann att konkurrerande metoder uppnådde betydligt sämre identifieringsscore:

Anmärkningsvärt är att FF++-metoder (Xception-c23) och FFD, som uppnår några av de högsta poängerna över några av testdatamängderna i den nya artikeln, här uppnår en mycket lägre poäng än ICT i en “verklig värld”-kontext av högansträngd deepfake-innehåll.

Författarna avslutar artikeln med förhoppningen att dess resultat styr deepfake-detektionsgemenskapen mot liknande initiativ som fokuserar på mer allmänt generaliserbara högnivåfunktioner, och bort från “kalla kriget” av artefakt-detektion, där de senaste metoderna rutinmässigt ogiltigförklaras av utvecklingen i deepfake-ramverk, eller av andra faktorer som gör sådana metoder mindre motståndskraftiga.

Titta på det bifogade supplementvideon nedan för fler exempel på ICT som identifierar deepfake-innehåll som ofta lurar alternativa metoder.

 

 

Publicerad första gången 4 mars 2022.

Författare på maskinlärande, domänspecialist inom mänsklig bildsyntes. Före detta chef för forskningsinnehåll på Metaphysic.ai.