Kunstig intelligens
‘Kreativ’ Ansigtsgodkendelse med Generative Adversarial Networks

En ny artikel fra Stanford University har foreslået en ny metode til at narre ansigtsgodkendelsessystemer på platforme som datingapps, ved at bruge en Generative Adversarial Network (GAN) til at oprette alternative ansigtsbilleder, der indeholder den samme essentielle ID-information som et rigtigt ansigt.
Metoden lykkedes med at omgå ansigtsgodkendelsesprocesser på datingapplikationer som Tinder og Bumble, og i ét tilfælde kunne den endda afvise en kønsombyttet (mandlig) ansigt som ægte for den oprindelige (kvinde)identitet.

Forskellige genererede identiteter, der viser den specifikke kodning af artiklens forfatter (vist i første billede ovenfor). Kilde: https://arxiv.org/pdf/2203.15068.pdf
Ifølge forfatteren repræsenterer arbejdet den første forsøg på at omgå ansigtsgodkendelse med brug af genererede billeder, der er indfuset med bestemte identitets-træk, men som forsøger at repræsentere en alternativ eller væsentligt ændret identitet.
Teknikken blev testet på et brugerdefineret lokalt ansigtsgodkendelsessystem og fungerede godt i sorte boks-test mod to datingapplikationer, der udfører ansigtsgodkendelse på brugeruploadede billeder.
Den nye artikel har titlen Ansigtsgodkendelses Omgang og kommer fra Sanjana Sarda, en forsker ved Elektrisk Ingeniørvidenskab på Stanford University.
Styring af Ansigt Rum
Selvom ‘injektion’ af ID-specifikke funktioner (dvs. fra ansigter, vejsskilder osv.) i tilpassede billeder er en standarddel af adversarial angreb, foreslår den nye studie noget andet: at forskningssæktorens voksende evne til at kontrollere den latente rum af GAN’er vil til sidst muliggøre udviklingen af arkitekturer, der kan oprette konsekvente alternative identiteter til en brugers – og effektivt muliggøre udtrækning af identitetsfunktioner fra web-tilgængelige billeder af en uvidende bruger til at overtage i en ‘skygge’ tilpasset identitet.
Konsistens og navigabilitet har været de primære udfordringer vedrørende den latente rum af GAN’er, siden Generative Adversarial Networks blev opfundet. En GAN, der har succesfuldt assimileret en samling af træningsbilleder i dens latente rum, giver ingen let kort til at ‘pushe’ funktioner fra en klasse til en anden.
Selvom teknikker og værktøjer som Gradient-vægtet Klasse Aktivations Kort (Grad-CAM) kan hjælpe med at etablere latente retninger mellem de etablerede klasser og muliggøre transformationer (se billedet nedenfor), gør den yderligere udfordring af entanglement ofte for en ‘approximativ’ rejse, med begrænset fin kontrol over overgangen.

En ru rejse mellem kodede vektorer i en GAN’s latente rum, der skyder en data-afledt mandlig identitet ind i ‘kvinde’-kodningerne på den anden side af en af mange lineære hyperplaner i det komplekse og arcane latente rum. Billede afledt fra materiale på https://www.youtube.com/watch?v=dCKbRCUyop8
Evnen til at ‘fryse’ og beskytte ID-specifikke funktioner, mens de flyttes ind i transformative kodninger andre steder i det latente rum, gør det muligt at oprette en konsekvent (og endda animérbar) person, hvis identitet læses af maskinsystemer som en anden.
Metode
Forfatteren brugte to datasæt som grundlag for eksperimenterne: et Human User Dataset bestående af 310 billeder af hendes ansigt over en periode på fire år, med varierende belysning, alder og visningsvinkel), med beskårne ansigter udtrukket via Caffe; og det racemæssigt balancerede 108.501 billeder i FairFace-datasættet, udtrukket og beskåret på samme måde.
Det lokale ansigtsgodkendelsesmodel blev afledt fra en basisimplementering af FaceNet og DeepFace, forudtrænet på ConvNet Inception, hvor hver billede repræsenteres af en 128-dimensionel vektor.
Tilgangen bruger ansigtsbilleder fra et trænet undermængde fra FairFace. For at bestå ansigtsgodkendelse er den beregnede afstand forårsaget af et billedes Frobenius-norm justeret mod målbrugeren i databasen. Ethvert billede under grænsen på 0,7 svarer til den samme identitet, ellers anses godkendelse for at være mislykket.
En StyleGAN-model blev finjusteret på forfatterens personlige datasæt, hvilket resulterede i en model, der ville generere genkendelige variationer af hendes identitet, selvom ingen af disse genererede billeder var identiske med træningsdata. Dette blev opnået ved at fryse de første fire lag i diskriminatoren for at undgå overfitning af data og producere varieret output.
Selvom diverse billeder blev opnået med den grundlæggende StyleGAN-model, fik den lave opløsning og fidelitet til at fremkalde en anden forsøg med StarGAN V2, som tillader træning af sæddebilleder mod et målansigt.
StarGAN V2-modellen blev forudtrænet i cirka 10 timer ved hjælp af FairFace-valideringssættet, på en batch-størrelse på fire og en valideringsstørrelse på 8. I den mest succesfulde tilgang blev forfatterens personlige datasæt brugt som kilde med træningsdata som reference.
Godkendelses Eksperimenter
Et ansigtsgodkendelsesmodel blev opbygget på basis af en undermængde af 1000 billeder, med det formål at godkende et vilkårligt billede fra sættet. Billeder, der bestod godkendelse, blev herefter testet mod forfatterens egen ID.

Til venstre, artiklens forfatter, et rigtigt foto; midten, et vilkårligt billede, der mislykkedes i godkendelse; højre, et ubeslægtet billede fra datasættet, der bestod godkendelse som forfatteren.
Formålet med eksperimenterne var at oprette så stor en afstand som muligt mellem den opfattede visuelle identitet, mens man fastholdt de definerende træk af målidentiteten. Dette blev vurderet med Mahalanobis-afstand, en metode, der bruges i billedbehandling til mønster- og skabelonsøgning.
For den grundlæggende generative model viser de lavopløselige resultater begrænset diversitet, på trods af at de bestod lokal ansigtsgodkendelse. StarGAN V2 viste sig mere i stand til at oprette diverse billeder, der kunne godkende.

Alle billeder vist her bestod lokal ansigtsgodkendelse. Ovenfor er de lavopløselige StyleGAN-baseline-genereringer, nedenfor, de højopløselige og højkvalitetsfulde StarGAN V2-genereringer.
De resulterende genererede billeder blev testet mod ansigtsgodkendelsessystemerne på datingapps Bumble og Tinder, med forfatterens identitet som baseline, og bestod godkendelse. En ‘mandlig’ generation af forfatterens ansigt bestod også Bumbles godkendelsesproces, selvom belysningen skulle justeres i det genererede billede, før det blev accepteret. Tinder accepterede ikke den mandlige version.

‘Mandlige’ versioner af forfatterens (kvinde)identitet.
Konklusion
Disse er seminale eksperimenter i identitetsprojektion i sammenhæng med GAN’s latente rummanipulation, som fortsat er en ekstraordinær udfordring i billedsynthesis og deepfake-forskning. Alligevel åbner arbejdet op for begrebet om at indlejre højst specifikke funktioner konsekvent på tværs af diverse identiteter og om at oprette ‘alternative’ identiteter, der ‘læses’ som en anden.
Først udgivet 30. marts 2022.












