Artificiell intelligens

Deepfakes kan effektivt lura många stora API:er för "Liveness" för ansiktsbehandling

publicerade Februari 23, 2022

Uppdaterad December 9, 2022

Martin Anderson

Från 'DeepFace Live - Arnold Schwarzenegger 224 3.03M iterationer | RTX A6000' - https://www.youtube.com/watch?v=9tr35y-yQRY

Ett nytt forskningssamarbete mellan USA och Kina har undersökt känsligheten för djupförfalskningar hos några av de största ansiktsbaserade autentiseringssystemen i världen, och funnit att de flesta av dem är sårbara för utvecklande och framväxande former av djupförfalskningar.

Forskningen genomförde deepfake-baserade intrång med hjälp av ett anpassat ramverk utplacerat mot Facial Liveness Verification (FLV)-system som vanligtvis tillhandahålls av stora leverantörer och säljs som en tjänst till nedströmskunder som flygbolag och försäkringsbolag.

Från uppsatsen, en översikt över hur Facial Liveness Verification (FLV) API:er fungerar mellan stora leverantörer. Källa: https://arxiv.org/pdf/2202.10673.pdf

Facial Liveness är tänkt att stöta bort användningen av tekniker som t.ex motstridiga bildattacker, Användning av masker och förinspelad video, sk "mästareansikten"och andra former av visuell ID-kloning.

Studien drar slutsatsen att det begränsade antalet deepfake-detektionsmoduler som används i dessa system, av vilka många betjänar miljontals kunder, är långt ifrån ofelbara och kan ha konfigurerats på deepfake-tekniker som nu är föråldrade, eller kan vara för arkitekturspecifika .

Författarna noterar:

"[Olika] deepfake-metoder visar också variationer mellan olika leverantörer... Utan tillgång till de tekniska detaljerna hos de olika FLV-leverantörerna spekulerar vi i att sådana variationer tillskrivs de försvarsåtgärder som olika leverantörer använder. Till exempel kan vissa leverantörer använda försvar mot specifika deepfake-attacker."

Och fortsätt:

"[De flesta] FLV-API:er använder inte anti-deepfake-detektering; även för de med sådant försvar är deras effektivitet oroande (t.ex. kan den upptäcka högkvalitativa syntetiserade videor men misslyckas med att upptäcka videor av låg kvalitet)."

Forskarna observerar i detta avseende att "äkthet" är relativ:

"[Även] om en syntetiserad video är overklig för människor, kan den fortfarande kringgå den nuvarande anti-deepfake-detekteringsmekanismen med en mycket hög framgångsgrad."

Ovan, exempel på djupfalska bilder som kunde autentiseras i författarnas experiment. Nedan, tydligen mycket mer realistiska fejkade bilder som misslyckades med autentisering.

Ovan, exempel på djupförfalskade bilder som kunde autentiseras i författarnas experiment. Nedan, till synes betydligt mer realistiska förfalskade bilder som inte autentiserades.

Ett annat fynd var att den nuvarande konfigurationen av generiska ansiktsverifieringssystem är partiska mot vita män. Därefter visade sig kvinnliga och icke-vita identiteter vara mer effektiva för att kringgå verifieringssystem, vilket innebär att kunder i dessa kategorier löper större risk för intrång via deepfake-baserade tekniker.

Rapporten finner att vita manliga identiteter utvärderas mest noggrant och noggrant av de populära API:erna för verifiering av ansiktsliv. I tabellen ovan ser vi att kvinnliga och icke-vita identiteter lättare kan användas för att kringgå systemen.

Tidningen konstaterar det "det finns partiskheter i [Verifiering av ansiktslivskraft], vilket kan medföra betydande säkerhetsrisker för en viss grupp människor."

Författarna genomförde också etiska ansiktsautentiseringsattacker mot en kinesisk regering, ett stort kinesiskt flygbolag, ett av de största livförsäkringsbolagen i Kina, och R360, en av världens största enhörningsinvesteringsgrupper, och rapporterar framgång med att kringgå dessa organisationers nedströmsanvändning av de studerade API:erna.

I fallet med en lyckad autentiseringsförbikoppling för det kinesiska flygbolaget krävde nedströms-API:et att användaren "skakade på huvudet" som ett bevis mot potentiellt deepfake-material, men detta visade sig inte fungera mot det ramverk som forskarna utformat, vilket innehåller sex deepfake-arkitekturer.

Trots flygbolagets utvärdering av en användares huvudskakning kunde Deepfake-innehåll klara testet.

Trots flygbolagets utvärdering av en användares huvudskakningar klarade deepfake-innehållet testet.

Tidningen noterar att författarna kontaktade de inblandade försäljarna, som enligt uppgift har erkänt arbetet.

Författarna erbjuder en rad rekommendationer för förbättringar av den nuvarande tekniken inom FLV, inklusive att överge autentisering med en bild (”Bildbaserad FLV”), där autentisering baseras på en enda bildruta från en kunds kameraflöde; en mer flexibel och omfattande uppdatering av deepfake-detekteringssystem över bild- och röstdomäner; införande av kravet på att röstbaserad autentisering i användarvideo ska synkroniseras med läpprörelser (vilket de i allmänhet inte är nu); och krav på att användare utför gester och rörelser som för närvarande är svåra för deepfake-system att reproducera (till exempel, profilvyer och partiell obfuskation av ansiktet).

Ocuco-landskapet papper har titeln Att se är att leva? Omtänka säkerheten för verifiering av ansiktslivlighet i Deepfake-eran, och kommer från de gemensamma huvudförfattarna Changjiang Li och Li Wang, och fem andra författare från Pennsylvania State University, Zhejiang University och Shandong University.

Kärnmålen

Forskarna riktade in sig på de "sex mest representativa" leverantörerna av Facial Liveness Verification (FLV), vilka har anonymiserats med kryptonymer i forskningen.

Leverantörerna är representerade så här: BD och 'TC' representera en konglomeratleverantör med det största antalet ansiktsrelaterade API-anrop och den största andelen av Kinas AI-molntjänster; HW är "en av leverantörerna med den största [kinesiska] marknaden för publika moln"; CW har den snabbaste tillväxttakten inom datorseende och håller på att uppnå en ledande marknadsposition; ST är bland de största datorvisionsleverantörerna; och iFT siffror bland de största AI-programvaruleverantörerna i Kina.

Data och arkitektur

De underliggande data som driver projektet inkluderar en datauppsättning med 625,537 XNUMX bilder från det kinesiska initiativet CelebA-spoof, tillsammans med livevideor från Michigan State Universitys 2019 SiW-M datasätt.

Alla experimenten utfördes på en server med dubbla 2.40 GHz Intel Xeon E5-2640 v4-processorer som körs på 256 GB RAM med en 4 TB hårddisk och fyra orkestrerade 1080Ti NVIDIA GPU:er, för totalt 44 GB operativt VRAM.

Sex i ett

Ramverket som utformats av artikelns författare kallas LiveBugger, och innehåller sex toppmoderna deepfake-ramverk som sträcker sig mot de fyra huvudförsvaren i FLV-system.

LiveBugger innehåller olika deepfake-metoder och fokuserar på de fyra huvudsakliga attackvektorerna i FLV-system.

De sex deepfake-ramverk som används är: Oxford Universitys 2018 X2Face; USA:s akademiska samarbete ICface; två varianter av det israeliska projektet 2019 FSGAN; italienaren Första ordningens metodmodell (FOMM), från början av 2020; och Pekings universitets Microsoft Research-samarbete FaceShifter (även om FaceShifter inte är öppen källkod, var författarna tvungna att rekonstruera det baserat på de publicerade arkitekturdetaljerna).

Metoder som användes bland dessa ramverk inkluderade användningen av förrenderad video där försökspersonerna i parodivideon utför rutinerade handlingar som har extraherats från API-autentiseringskraven i en tidigare utvärderingsmodul av LiveBugger, och även användningen av effektiv "deepfake-puppetry", som översätter en individs liverörelser till en deepfaked ström som har infogas i en koopererad webbkameraström.

Ett exempel på det senare är DeepFaceLive, Vilket debuterade förra sommaren som ett tilläggsprogram till det populära DeepFaceLab, för att möjliggöra deepfake-streaming i realtid, men vilket inte ingår i författarnas forskning.

Att attackera de fyra vektorerna

De fyra attackvektorerna inom ett typiskt FLV-system är: bildbaserad FLV, som använder ett enda användartillhandahållet foto som autentiseringstoken mot ett ansikts-ID som är registrerat i systemet; tystnadsbaserad FLV, vilket kräver att användaren laddar upp ett videoklipp av sig själv; handlingsbaserad FLV, som kräver att användaren utför åtgärder som dikteras av plattformen; och röstbaserad FLV, vilket matchar en användares uppmanade tal mot systemets databaspost för den användarens talmönster.

Den första utmaningen för systemet är att fastställa i vilken utsträckning ett API kommer att avslöja sina krav, eftersom de sedan kan förutses och tillgodoses i deepfaking-processen. Detta hanteras av Intelligence Engine i LiveBugger, som samlar information om krav från allmänt tillgänglig API-dokumentation och andra källor.

Eftersom de publicerade kraven kan saknas (av olika anledningar) i API:ets faktiska rutiner, innehåller Intelligence Engine en sond som samlar in implicit information baserat på resultaten av utforskande API-anrop. I forskningsprojektet underlättades detta av officiella offline-"test"-API:er som tillhandahölls för utvecklare, och även av volontärer som erbjöd sig att använda sina egna livekonton för testning.

Intelligence Engine söker efter bevis om huruvida ett API för närvarande använder ett särskilt tillvägagångssätt som kan vara användbart vid attacker. Funktioner av detta slag kan inkludera koherensdetektering, som kontrollerar om bildrutorna i en video är temporärt kontinuerliga – ett krav som kan fastställas genom att skicka kodade videoramar och observera om detta bidrar till autentiseringsfel.

Modulen söker också efter Läppspråksdetektering, där API:et kan kontrollera om ljudet i videon är synkroniserad med användarens läpprörelser (sällan fallet – se "Resultat" nedan).

Resultat

Författarna fann att alla sex utvärderade API:er inte använde koherensdetektion vid tidpunkten för experimenten, vilket gjorde det möjligt för deepfaker-motorn i LiveBugger att helt enkelt sy ihop syntetiserat ljud med deepfaked video, baserat på bidraget material från frivilliga.

Vissa nedströmsapplikationer (dvs. kunder till API-ramverken) visade sig dock ha lagt till koherensdetektering till processen, vilket gjorde det nödvändigt att förinspela en video som var skräddarsydd för att kringgå detta.

Dessutom är det bara ett fåtal av API-leverantörerna som använder läppspråksdetektering; för de flesta av dem analyseras video och ljud som separata kvantiteter, och det finns ingen funktion som försöker matcha läpprörelsen med det tillhandahållna ljudet.

Olika resultat som spänner över utbudet av falska tekniker som finns tillgängliga i LiveBugger mot den varierade mängden attackvektorer i FLV API:er. Högre siffror indikerar en högre grad av framgång i att penetrera FLV med deepfake-tekniker. Alla API:er inkluderar inte alla möjliga försvar för FLV; till exempel erbjuder flera inte något försvar mot deepfakes, medan andra inte kontrollerar att läpprörelser och ljud matchar i användarinlämnad video under autentisering.

Slutsats

Artikelns resultat och indikationer för framtiden för FLV API:er är labyrintiska, och författarna har sammanfogat dem till en funktionell "arkitektur av sårbarheter" som skulle kunna hjälpa FLV-utvecklare att bättre förstå några av de problem som upptäckts.

Tidningens nätverk av rekommendationer angående den befintliga och potentiella känsligheten hos ansiktsbaserade videoidentifieringsrutiner för deepfake attacker.

Artikelns nätverk av rekommendationer angående den befintliga och potentiella känsligheten hos ansiktsbaserade videoidentifieringsrutiner för djupförfalskningsattacker.

Rekommendationerna noterar:

"Säkerhetsriskerna med FLV finns i många verkliga applikationer och hotar därmed säkerheten för miljontals slutanvändare."

Författarna observerar också att användningen av handlingsbaserad FLV är "marginell" och att en ökning av antalet åtgärder som användare måste utföra "inte kan ge någon säkerhetsvinst".

Vidare noterar författarna att kombinationen av röstigenkänning och temporal ansiktsigenkänning (i video) är ett fruktlöst försvar om inte API-leverantörerna börjar kräva att läpprörelser synkroniseras med ljud.

Dokumentet kommer mot bakgrund av en nyligen utfärdad varning från FBI till företag om farorna med djupförfalskningsbedrägerier, nästan ett år efter deras varning om teknikens användning i utländska inflytandeoperationer, och av allmänna rädslor att levande deepfake-teknik kommer att underlätta en ny brottsvåg på en publik som fortfarande litar på säkerhetsarkitekturer för videoautentisering.

Dessa är fortfarande de första dagarna av deepfake som en autentiseringsattackyta; 2020 var 35 miljoner dollar bedrägligt utdraget från en bank i Förenade Arabemiraten med hjälp av deepfake-ljudteknik, och en brittisk chef lurades också till att betala ut 243,000 XNUMX USD i 2019.

Första gången publicerad 23 februari 2022.

Strax

Att uttrycka känslor genom typografi med AI

Missa inte

Datorkomponent efterliknar mänskliga hjärnsynapser