Connect with us

Kunstig intelligens

Identifikation af celebrity deepfakes fra ydre ansigtsområder

mm

Et nyt samarbejde mellem Microsoft og et kinesisk universitet har foreslået en ny måde at identificere celebrity deepfakes på, ved at udnytte svaghederne i nuværende deepfake-teknikker til at genkende identiteter, der er “projiceret” på andre mennesker.

Tilgangen kaldes Identity Consistency Transformer (ICT) og virker ved at sammenligne de ydre dele af ansigtet (kæbe, kindben, hårlinje og andre ydre konturer) med ansigtets indre. Systemet udnytter offentligt tilgængelige billeddata af berømte personer, hvilket begrænser dets effektivitet til populære celebriteter, hvis billeder er tilgængelige i store mængder i offentligt tilgængelige computer vision-datasets og på internettet.

The forgery coverage of faked faces across seven techniques: DeepFake in FF+; DeepFake in Google DeepFake Detection; DeepFaceLab; Face2Face; FSGAN; and DF-VAE. Source: https://arxiv.org/pdf/2203.01318.pdf

The forgery coverage of faked faces across seven techniques: DeepFake in FF+; DeepFake in Google DeepFake Detection; DeepFaceLab; Face2Face; FSGAN; and DF-VAE. Popular packages such as DeepFaceLab and FaceSwap provide similarly constrained coverage. Source: https://arxiv.org/pdf/2203.01318.pdf

Som billedet ovenfor illustrerer, er nuværende populære metoder for deepfaking ret ressource-kritiske og afhænger af “appropiate” vært-ansigter (billedet eller videoen af en person, der vil have sin identitet erstattet af deepfaken) for at minimere bevis for ansigtsudskiftning.

Selv om varierende metoder kan omfatte hele panden og en stor del af hagen og kindbenets områder, er de alle mere eller mindre begrænsede inden for rammen af vært-ansigtet.

A saliency map that emphasizes the 'inner' and 'outer' identities calculated by ICT. Where an inner facial match is established but an outer identity does not correspond, ICT evaluates the image as false.

A saliency map that emphasizes the ‘inner’ and ‘outer’ identities calculated by ICT. Where an inner facial match is established but an outer identity does not correspond, ICT evaluates the image as false.

I tests viste ICT sig i stand til at détectere deepfake-indhold i fake-venlige omgivelser såsom lav opløsning video, hvor indholdet af hele videoen er degraderet af kompressionsarter, hvilket hjælper med at skjule resterne af deepfake-processen – en omstændighed, der forvirrer mange konkurrerende deepfake-detectionsmetoder.

ICT outperforms contenders in recognizing deepfake content. See video embedded at end of article for more examples and better resolution. Source: https://www.youtube.com/watch?v=zgF50dcymj8

ICT outperforms contenders in recognizing deepfake content. See video embedded at end of article for more examples and better resolution. See embedded source video at end of article for further examples. Source: https://www.youtube.com/watch?v=zgF50dcymj8

Den paper er titlen Protecting Celebrities with Identity Consistency Transformer, og kommer fra ni forskere, der er tilknyttet University of Science and Technology of China, Microsoft Research Asia og Microsoft Cloud + AI.

The Credibility Gap

Der er mindst to grunde til, hvorfor populære face-swapping-algoritmer såsom DeepFaceLab og FaceSwap negligerer de ydre områder af de udskiftede ansigtsidentiteter.

Først og fremmest er træning af deepfake-modeller tidskrævende og ressource-kritisk, og adoptionen af “kompatible” vært-ansigter/forskellige frigør GPU-cykler og epocher til at koncentrere sig om de relativt uforanderlige indre områder af ansigtet, som vi bruger til at skelne identitet (da variable såsom vægtfluktuation og aldring er mindst sandsynlige for at ændre disse kerneansigts-træk på kort sigt).

For det andet har de fleste deepfake-tilgange (og dette er bestemt tilfældet med DeepFaceLab, softwaren brugt af de mest populære eller berygtede praktikere) en begrænset evne til at replikere “end of face”-marginer såsom kind og kæbeområder og er begrænset af, at deres opstrøms (2017) kode ikke omfattede denne problemstilling i detaljer.

I tilfælde, hvor identiteterne ikke matcher godt, må deepfake-algoritmen “inpainte” baggrundsområder omkring ansigtet, hvilket den gør klodset på bedste, selv i hænderne på de bedste deepfakers, såsom Ctrl Shift Face, hvis output blev brugt i papirets studier.

The best of the best: stills from a deepfake video from acclaimed deepfaker Ctrl-Shift-Face, swapping Jim Carrey over Gary Oldman. This work arguably represents some of the best output currently available via DeepFaceLab and post-processing techniques. Nonetheless, the swaps remains limited to the relatively scant attention that DFL gives to the outer face, requiring a Herculean effort of data curation and training to address the outermost lineaments. Source: https://www.youtube.com/watch?v=x8igrh1eyLk

The best of the best: stills from a deepfake video from acclaimed deepfaker Ctrl-Shift-Face, swapping Jim Carrey over Gary Oldman. This work arguably represents some of the best output currently available via DeepFaceLab and post-processing techniques. Nonetheless, the swaps remain limited to the relatively scant attention that DFL gives to the outer face, requiring a Herculean effort of data curation and training to address the outermost lineaments. Source: https://www.youtube.com/watch?v=x8igrh1eyLk

Dette “sleight of hand”, eller afledning af opmærksomhed, undgår i stor udstrækning offentlig opmærksomhed i den nuværende bekymring over den voksende realisme af deepfakes, fordi vores kritiske facutter omkring deepfakes endnu er under udvikling forbi “shock and awe”-stadiet.

Split Identities

Den nye paper bemærker, at de fleste tidligere metoder til deepfake-detection afhænger af artefakter, der forråder swap-processen, såsom inconsistente hovedposer og blinkning, blandt numriske andre teknikker. Kun denne uge har en anden ny deepfake-detection-paper forslagt at bruge “signatur” af de varierende modeltyper i FaceSwap-rammen til at hjælpe med at identificere forfalsket video skabt med det (se billedet nedenfor).

Identifying deepfakes by characterizing the signatures of different model types in the FaceSwap framework. Source: https://arxiv.org/pdf/2202.12951.pdf

Identifying deepfakes by characterizing the signatures of different model types in the FaceSwap framework. Source: https://arxiv.org/pdf/2202.12951.pdf

I modsætning hertil skaber ICT’s arkitektur to separate, indbyrdes identiteter for en person, hvoraf hver af dem skal verificeres, før hele identiteten konkluderes som “sandt” footage eller billede.

Architecture for the training and testing phases of ICT.

Architecture for the training and testing phases of ICT.

Splitningen af identiteter faciliteres af en vision Transformer, der udfører ansigtsidentifikation, før det undersøgte område deles op i tokens, der tilhører den indre eller ydre identitet.

Distributing patches among the two parallel identity signifiers.

Distributing patches among the two parallel identity signifiers.

Forfatter til maskinlæring, domæne-specialist i menneskesynthese af billeder. Tidligere leder af forskningsindhold på Metaphysic.ai.