Connect with us

Artificiell intelligens

‘Kreativ’ ansiktsverifiering med generativa adversariala nätverk

mm

En ny rapport från Stanford University har föreslagit en ny metod för att lura ansiktsautentiserings-system i plattformar som dating-appar, genom att använda ett Generative Adversarial Network (GAN) för att skapa alternativa ansiktsbilder som innehåller samma väsentliga ID-information som ett riktigt ansikte.

Metoden lyckades kringgå ansiktsverifieringsprocesser på datingapplikationer som Tinder och Bumble, i ett fall även lyckades med att utge en könsväxlad (manlig) ansikte som äkta för källan (kvinnlig) identitet.

Olika genererade identiteter som visar den specifika kodningen av rapportförfattarens (visad i första bilden ovan). Källa: https://arxiv.org/pdf/2203.15068.pdf

Olika genererade identiteter som visar den specifika kodningen av rapportförfattarens (visad i första bilden ovan). Källa: https://arxiv.org/pdf/2203.15068.pdf

Enligt författaren representerar arbetet det första försöket att kringgå ansiktsverifiering med hjälp av genererade bilder som har tilldelats specifika identitetsegenskaper, men som försöker representera en alternativ eller avsevärt förändrad identitet.

Tekniken testades på ett anpassat lokalt ansiktsverifieringssystem och fungerade bra i svarta lådor-tester mot två datingapplikationer som utför ansiktsverifiering på användaruppladdade bilder.

Den nya rapporten har titeln Ansiktsverifieringskringgång och kommer från Sanjana Sarda, en forskare vid Institutionen för elektroteknik vid Stanford University.

Att kontrollera ansiktsutrymmet

Även om “injicering” av ID-specifika funktioner (dvs. från ansikten, vägskyltar etc.) i skapade bilder är en standardfunktion i adversarial attacker, föreslår den nya studien något annat: att forskningssektorns växande förmåga att kontrollera den latenta utrymmet för GAN kommer så småningom att möjliggöra utvecklingen av arkitekturer som kan skapa konsekventa alternativa identiteter för en användare – och, effektivt, möjliggöra extrahering av identitetsfunktioner från webbtillgängliga bilder av en ovetande användare för att samverka med en “skugga” skapad identitet.

Konsekvens och navigerbarhet har varit de primära utmaningarna när det gäller den latenta utrymmet för GAN sedan Generative Adversarial Networks introducerades. En GAN som har lyckats assimilera en samling träningsbilder i sitt latenta utrymme erbjuder ingen enkel karta för att “trycka” funktioner från en klass till en annan.

Medan tekniker och verktyg som Gradient-weighted Class Activation Mapping (Grad-CAM) kan hjälpa till att etablera latenta riktningar mellan etablerade klasser och möjliggöra transformationer (se bild nedan), utgör den ytterligare utmaningen sammanflätning vanligtvis en “approximativ” resa, med begränsad fin kontroll över övergången.

En grov resa mellan kodade vektorer i ett GANs latenta utrymme, som trycker en data-härledd manlig identitet in i “kvinnliga” kodningar på andra sidan av en av många linjära hyperplan i det komplexa och arkaiska latenta utrymmet. Bilden är hämtad från material på https://www.youtube.com/watch?v=dCKbRCUyop8

Förmågan att “frysa” och skydda ID-specifika funktioner medan de flyttas till transformerande kodningar på andra sidan av det latenta utrymmet möjliggör potentiellt att skapa en konsekvent (och sogar animerbar) individ vars identitet läses av maskinsystem som någon annan.

Metod

Författaren använde två datamängder som underlag för experiment: en Human User Dataset bestående av 310 bilder av hennes ansikte under en period av fyra år, med varierande belysning, ålder och vyvinklar), med beskurna ansikten extraherade via Caffe; och den rasligt balanserade 108 501 bilderna i FairFace-datamängden, likaså extraherade och beskurna.

Det lokala ansiktsverifieringsmodellen hämtades från en basimplementering av FaceNet och DeepFace, förtränad på ConvNet Inception, med varje bild representerad av en 128-dimensionell vektor.

Tillvägagångssättet använder ansiktsbilder från en tränad delmängd från FairFace. För att passera ansiktsverifiering beräknas avståndet orsakat av en bilds Frobenius-norm mot den mål-användaren i databasen. Varje bild under tröskelvärdet 0,7 motsvarar samma identitet, annars anses verifieringen ha misslyckats.

En StyleGAN-modell finjusterades på författarens personliga datamängd, vilket resulterade i en modell som kunde generera igenkännliga variationer av hennes identitet, även om ingen av dessa genererade bilder var identiska med träningsdata. Detta uppnåddes genom att frysa de första fyra lagren i diskriminatoren, för att undvika överanpassning av data och producera varierad utdata.

Även om diverse bilder erhölls med den grundläggande StyleGAN-modellen, ledde den låga upplösningen och fideliteten till ett andra försök med StarGAN V2, som tillåter träningsbilder att riktas mot en målansikte.

StarGAN V2-modellen förtränades under cirka 10 timmar med FairFace-valideringsuppsättningen, med en batchstorlek på fyra och en valideringsstorlek på 8. I det mest lyckade tillvägagångssättet användes författarens personliga datamängd som källa med träningsdata som referens.

Verifieringsexperiment

En ansiktsverifieringsmodell konstruerades baserat på en undermängd av 1000 bilder, med avsikt att verifiera en godtycklig bild från uppsättningen. Bilder som passerade verifieringen framgångsrikt testades sedan mot författarens egen ID.

Till vänster, rapportförfattarens, en riktig foto; mitten, en godtycklig bild som misslyckades med verifieringen; höger, en orelaterad bild från datamängden som passerade verifieringen som författaren.

Till vänster, rapportförfattarens, en riktig foto; mitten, en godtycklig bild som misslyckades med verifieringen; höger, en orelaterad bild från datamängden som passerade verifieringen som författaren.

Målet med experimenten var att skapa så stor lucka som möjligt mellan den upplevda visuella identiteten samtidigt som de väsentliga egenskaperna för mål-identiteten behålls. Detta utvärderades med Mahalanobis-avstånd, en måttstock som används i bildbehandling för mönster- och mall-sökning.

För den grundläggande generativa modellen visar de lågupplösta resultaten begränsad diversitet, trots att de passerade lokal ansiktsverifiering. StarGAN V2 visade sig vara mer kapabel att skapa diverse bilder som kunde autentisera.

Alla bilder som visas passerade lokal ansiktsverifiering. Ovan är de lågupplösta StyleGAN-basgenereringarna, nedan, de högupplösta och högkvalitativa StarGAN V2-genereringarna.

Alla bilder som visas passerade lokal ansiktsverifiering. Ovan är de lågupplösta StyleGAN-basgenereringarna, nedan, de högupplösta och högkvalitativa StarGAN V2-genereringarna.

De tre sista bilderna ovan använde författarens egen ansiktsdatamängd som både källa och referens, medan de föregående bilderna använde träningsdata som referens och författarens datamängd som källa.

De resulterande genererade bilderna testades mot ansiktsverifieringssystemen för dating-apparna Bumble och Tinder, med författarens identitet som baslinjen, och passerade verifieringen. En “manlig” generation av författarens ansikte passerade också Bumbles verifieringsprocess, även om belysningen måste justeras i den genererade bilden innan den accepterades. Tinder accepterade inte den manliga versionen.

'Manliga' versioner av författarens (kvinnliga) identitet.

‘Manliga’ versioner av författarens (kvinnliga) identitet.

Slutsats

Dessa är banbrytande experiment i identitetsprojektion, i sammanhanget med GANs latenta utrymmesmanipulering, som förblir en extraordinär utmaning inom bildsynthes och deepfake-forskning. Trots detta öppnar arbetet upp konceptet att infoga högt specifika funktioner konsekvent över diverse identiteter och att skapa “alternativa” identiteter som “läses” som någon annan.

 

Publicerad första gången 30 mars 2022.

Författare på maskinlärande, domänspecialist inom mänsklig bildsyntes. Före detta chef för forskningsinnehåll på Metaphysic.ai.