Artificiell intelligens
Deepfakes kan effektivt lura mÄnga stora API:er för "Liveness" för ansiktsbehandling

Ett nytt forskningssamarbete mellan USA och Kina har undersökt kÀnsligheten för djupförfalskningar hos nÄgra av de största ansiktsbaserade autentiseringssystemen i vÀrlden, och funnit att de flesta av dem Àr sÄrbara för utvecklande och framvÀxande former av djupförfalskningar.
Forskningen genomförde deepfake-baserade intrÄng med hjÀlp av ett anpassat ramverk utplacerat mot Facial Liveness Verification (FLV)-system som vanligtvis tillhandahÄlls av stora leverantörer och sÀljs som en tjÀnst till nedströmskunder som flygbolag och försÀkringsbolag.

FrÄn uppsatsen, en översikt över hur Facial Liveness Verification (FLV) API:er fungerar mellan stora leverantörer. KÀlla: https://arxiv.org/pdf/2202.10673.pdf
Facial Liveness Àr tÀnkt att stöta bort anvÀndningen av tekniker som t.ex motstridiga bildattacker, AnvÀndning av masker och förinspelad video, sk "mÀstareansikten"och andra former av visuell ID-kloning.
Studien drar slutsatsen att det begrÀnsade antalet deepfake-detektionsmoduler som anvÀnds i dessa system, av vilka mÄnga betjÀnar miljontals kunder, Àr lÄngt ifrÄn ofelbara och kan ha konfigurerats pÄ deepfake-tekniker som nu Àr förÄldrade, eller kan vara för arkitekturspecifika .
Författarna noterar:
"[Olika] deepfake-metoder visar ocksÄ variationer mellan olika leverantörer... Utan tillgÄng till de tekniska detaljerna hos de olika FLV-leverantörerna spekulerar vi i att sÄdana variationer tillskrivs de försvarsÄtgÀrder som olika leverantörer anvÀnder. Till exempel kan vissa leverantörer anvÀnda försvar mot specifika deepfake-attacker."
Och fortsÀtt:
"[De flesta] FLV-API:er anvÀnder inte anti-deepfake-detektering; Àven för de med sÄdant försvar Àr deras effektivitet oroande (t.ex. kan den upptÀcka högkvalitativa syntetiserade videor men misslyckas med att upptÀcka videor av lÄg kvalitet)."
Forskarna observerar i detta avseende att "Àkthet" Àr relativ:
"[Ăven] om en syntetiserad video Ă€r overklig för mĂ€nniskor, kan den fortfarande kringgĂ„ den nuvarande anti-deepfake-detekteringsmekanismen med en mycket hög framgĂ„ngsgrad."

Ovan, exempel pÄ djupförfalskade bilder som kunde autentiseras i författarnas experiment. Nedan, till synes betydligt mer realistiska förfalskade bilder som inte autentiserades.
Ett annat fynd var att den nuvarande konfigurationen av generiska ansiktsverifieringssystem Àr partiska mot vita mÀn. DÀrefter visade sig kvinnliga och icke-vita identiteter vara mer effektiva för att kringgÄ verifieringssystem, vilket innebÀr att kunder i dessa kategorier löper större risk för intrÄng via deepfake-baserade tekniker.

Rapporten finner att vita manliga identiteter utvÀrderas mest noggrant och noggrant av de populÀra API:erna för verifiering av ansiktsliv. I tabellen ovan ser vi att kvinnliga och icke-vita identiteter lÀttare kan anvÀndas för att kringgÄ systemen.
Tidningen konstaterar det "det finns partiskheter i [Verifiering av ansiktslivskraft], vilket kan medföra betydande sÀkerhetsrisker för en viss grupp mÀnniskor."
Författarna genomförde ocksÄ etiska ansiktsautentiseringsattacker mot en kinesisk regering, ett stort kinesiskt flygbolag, ett av de största livförsÀkringsbolagen i Kina, och R360, en av vÀrldens största enhörningsinvesteringsgrupper, och rapporterar framgÄng med att kringgÄ dessa organisationers nedströmsanvÀndning av de studerade API:erna.
I fallet med en lyckad autentiseringsförbikoppling för det kinesiska flygbolaget krÀvde nedströms-API:et att anvÀndaren "skakade pÄ huvudet" som ett bevis mot potentiellt deepfake-material, men detta visade sig inte fungera mot det ramverk som forskarna utformat, vilket innehÄller sex deepfake-arkitekturer.

Trots flygbolagets utvÀrdering av en anvÀndares huvudskakningar klarade deepfake-innehÄllet testet.
Tidningen noterar att författarna kontaktade de inblandade försÀljarna, som enligt uppgift har erkÀnt arbetet.
Författarna erbjuder en rad rekommendationer för förbĂ€ttringar av den nuvarande tekniken inom FLV, inklusive att överge autentisering med en bild (âBildbaserad FLVâ), dĂ€r autentisering baseras pĂ„ en enda bildruta frĂ„n en kunds kameraflöde; en mer flexibel och omfattande uppdatering av deepfake-detekteringssystem över bild- och röstdomĂ€ner; införande av kravet pĂ„ att röstbaserad autentisering i anvĂ€ndarvideo ska synkroniseras med lĂ€pprörelser (vilket de i allmĂ€nhet inte Ă€r nu); och krav pĂ„ att anvĂ€ndare utför gester och rörelser som för nĂ€rvarande Ă€r svĂ„ra för deepfake-system att reproducera (till exempel, profilvyer och partiell obfuskation av ansiktet).
Ocuco-landskapet papper har titeln Att se Àr att leva? OmtÀnka sÀkerheten för verifiering av ansiktslivlighet i Deepfake-eran, och kommer frÄn de gemensamma huvudförfattarna Changjiang Li och Li Wang, och fem andra författare frÄn Pennsylvania State University, Zhejiang University och Shandong University.
KÀrnmÄlen
Forskarna riktade in sig pÄ de "sex mest representativa" leverantörerna av Facial Liveness Verification (FLV), vilka har anonymiserats med kryptonymer i forskningen.
Leverantörerna Àr representerade sÄ hÀr: BD och 'TC' representera en konglomeratleverantör med det största antalet ansiktsrelaterade API-anrop och den största andelen av Kinas AI-molntjÀnster; HW Àr "en av leverantörerna med den största [kinesiska] marknaden för publika moln"; CW har den snabbaste tillvÀxttakten inom datorseende och hÄller pÄ att uppnÄ en ledande marknadsposition; ST Àr bland de största datorvisionsleverantörerna; och iFT siffror bland de största AI-programvaruleverantörerna i Kina.
Data och arkitektur
De underliggande data som driver projektet inkluderar en datauppsÀttning med 625,537 XNUMX bilder frÄn det kinesiska initiativet CelebA-spoof, tillsammans med livevideor frÄn Michigan State Universitys 2019 SiW-M datasÀtt.
Alla experimenten utfördes pÄ en server med dubbla 2.40 GHz Intel Xeon E5-2640 v4-processorer som körs pÄ 256 GB RAM med en 4 TB hÄrddisk och fyra orkestrerade 1080Ti NVIDIA GPU:er, för totalt 44 GB operativt VRAM.
Sex i ett
Ramverket som utformats av artikelns författare kallas LiveBugger, och innehÄller sex toppmoderna deepfake-ramverk som strÀcker sig mot de fyra huvudförsvaren i FLV-system.

LiveBugger innehÄller olika deepfake-metoder och fokuserar pÄ de fyra huvudsakliga attackvektorerna i FLV-system.
De sex deepfake-ramverk som anvÀnds Àr: Oxford Universitys 2018 X2Face; USA:s akademiska samarbete ICface; tvÄ varianter av det israeliska projektet 2019 FSGAN; italienaren Första ordningens metodmodell (FOMM), frÄn början av 2020; och Pekings universitets Microsoft Research-samarbete FaceShifter (Àven om FaceShifter inte Àr öppen kÀllkod, var författarna tvungna att rekonstruera det baserat pÄ de publicerade arkitekturdetaljerna).
Metoder som anvÀndes bland dessa ramverk inkluderade anvÀndningen av förrenderad video dÀr försökspersonerna i parodivideon utför rutinerade handlingar som har extraherats frÄn API-autentiseringskraven i en tidigare utvÀrderingsmodul av LiveBugger, och Àven anvÀndningen av effektiv "deepfake-puppetry", som översÀtter en individs liverörelser till en deepfaked ström som har infogas i en koopererad webbkameraström.
Ett exempel pÄ det senare Àr DeepFaceLive, Vilket debuterade förra sommaren som ett tillÀggsprogram till det populÀra DeepFaceLab, för att möjliggöra deepfake-streaming i realtid, men vilket inte ingÄr i författarnas forskning.
Att attackera de fyra vektorerna
De fyra attackvektorerna inom ett typiskt FLV-system Àr: bildbaserad FLV, som anvÀnder ett enda anvÀndartillhandahÄllet foto som autentiseringstoken mot ett ansikts-ID som Àr registrerat i systemet; tystnadsbaserad FLV, vilket krÀver att anvÀndaren laddar upp ett videoklipp av sig sjÀlv; handlingsbaserad FLV, som krÀver att anvÀndaren utför ÄtgÀrder som dikteras av plattformen; och röstbaserad FLV, vilket matchar en anvÀndares uppmanade tal mot systemets databaspost för den anvÀndarens talmönster.
Den första utmaningen för systemet Àr att faststÀlla i vilken utstrÀckning ett API kommer att avslöja sina krav, eftersom de sedan kan förutses och tillgodoses i deepfaking-processen. Detta hanteras av Intelligence Engine i LiveBugger, som samlar information om krav frÄn allmÀnt tillgÀnglig API-dokumentation och andra kÀllor.
Eftersom de publicerade kraven kan saknas (av olika anledningar) i API:ets faktiska rutiner, innehÄller Intelligence Engine en sond som samlar in implicit information baserat pÄ resultaten av utforskande API-anrop. I forskningsprojektet underlÀttades detta av officiella offline-"test"-API:er som tillhandahölls för utvecklare, och Àven av volontÀrer som erbjöd sig att anvÀnda sina egna livekonton för testning.
Intelligence Engine söker efter bevis om huruvida ett API för nĂ€rvarande anvĂ€nder ett sĂ€rskilt tillvĂ€gagĂ„ngssĂ€tt som kan vara anvĂ€ndbart vid attacker. Funktioner av detta slag kan inkludera koherensdetektering, som kontrollerar om bildrutorna i en video Ă€r temporĂ€rt kontinuerliga â ett krav som kan faststĂ€llas genom att skicka kodade videoramar och observera om detta bidrar till autentiseringsfel.
Modulen söker ocksĂ„ efter LĂ€ppsprĂ„ksdetektering, dĂ€r API:et kan kontrollera om ljudet i videon Ă€r synkroniserad med anvĂ€ndarens lĂ€pprörelser (sĂ€llan fallet â se "Resultat" nedan).
Resultat
Författarna fann att alla sex utvÀrderade API:er inte anvÀnde koherensdetektion vid tidpunkten för experimenten, vilket gjorde det möjligt för deepfaker-motorn i LiveBugger att helt enkelt sy ihop syntetiserat ljud med deepfaked video, baserat pÄ bidraget material frÄn frivilliga.
Vissa nedströmsapplikationer (dvs. kunder till API-ramverken) visade sig dock ha lagt till koherensdetektering till processen, vilket gjorde det nödvÀndigt att förinspela en video som var skrÀddarsydd för att kringgÄ detta.
Dessutom Àr det bara ett fÄtal av API-leverantörerna som anvÀnder lÀppsprÄksdetektering; för de flesta av dem analyseras video och ljud som separata kvantiteter, och det finns ingen funktion som försöker matcha lÀpprörelsen med det tillhandahÄllna ljudet.

Olika resultat som spÀnner över utbudet av falska tekniker som finns tillgÀngliga i LiveBugger mot den varierade mÀngden attackvektorer i FLV API:er. Högre siffror indikerar en högre grad av framgÄng i att penetrera FLV med deepfake-tekniker. Alla API:er inkluderar inte alla möjliga försvar för FLV; till exempel erbjuder flera inte nÄgot försvar mot deepfakes, medan andra inte kontrollerar att lÀpprörelser och ljud matchar i anvÀndarinlÀmnad video under autentisering.
Slutsats
Artikelns resultat och indikationer för framtiden för FLV API:er Àr labyrintiska, och författarna har sammanfogat dem till en funktionell "arkitektur av sÄrbarheter" som skulle kunna hjÀlpa FLV-utvecklare att bÀttre förstÄ nÄgra av de problem som upptÀckts.

Artikelns nÀtverk av rekommendationer angÄende den befintliga och potentiella kÀnsligheten hos ansiktsbaserade videoidentifieringsrutiner för djupförfalskningsattacker.
Rekommendationerna noterar:
"SÀkerhetsriskerna med FLV finns i mÄnga verkliga applikationer och hotar dÀrmed sÀkerheten för miljontals slutanvÀndare."
Författarna observerar ocksÄ att anvÀndningen av handlingsbaserad FLV Àr "marginell" och att en ökning av antalet ÄtgÀrder som anvÀndare mÄste utföra "inte kan ge nÄgon sÀkerhetsvinst".
Vidare noterar författarna att kombinationen av röstigenkÀnning och temporal ansiktsigenkÀnning (i video) Àr ett fruktlöst försvar om inte API-leverantörerna börjar krÀva att lÀpprörelser synkroniseras med ljud.
Dokumentet kommer mot bakgrund av en nyligen utfÀrdad varning frÄn FBI till företag om farorna med djupförfalskningsbedrÀgerier, nÀstan ett Är efter deras varning om teknikens anvÀndning i utlÀndska inflytandeoperationer, och av allmÀnna rÀdslor att levande deepfake-teknik kommer att underlÀtta en ny brottsvÄg pÄ en publik som fortfarande litar pÄ sÀkerhetsarkitekturer för videoautentisering.
Dessa Àr fortfarande de första dagarna av deepfake som en autentiseringsattackyta; 2020 var 35 miljoner dollar bedrÀgligt utdraget frÄn en bank i Förenade Arabemiraten med hjÀlp av deepfake-ljudteknik, och en brittisk chef lurades ocksÄ till att betala ut 243,000 XNUMX USD i 2019.
Första gÄngen publicerad 23 februari 2022.