Kontakt med oss

Kunstig intelligens

Deepfakes kan effektivt lure mange viktige API-er for ansikts-"Liveness".

mm
Fra DeepFace Live - Arnold Schwarzenegger 224 3.03M iterasjoner | RTX A6000 - https://www.youtube.com/watch?v=9tr35y-yQRY
Fra 'DeepFace Live - Arnold Schwarzenegger 224 3.03M iterasjoner | RTX A6000' - https://www.youtube.com/watch?v=9tr35y-yQRY

Et nytt forskningssamarbeid mellom USA og Kina har undersøkt følsomheten for dypforfalskninger til noen av de største ansiktsbaserte autentiseringssystemene i verden, og funnet ut at de fleste av dem er sårbare for utviklende og nye former for dypfalske angrep.

Forskningen utførte deepfake-baserte inntrengninger ved å bruke et tilpasset rammeverk utplassert mot Facial Liveness Verification (FLV)-systemer som vanligvis leveres av store leverandører, og selges som en tjeneste til nedstrømskunder som flyselskaper og forsikringsselskaper.

Fra artikkelen, en oversikt over funksjonen til Facial Liveness Verification (FLV) APIer på tvers av store leverandører. Kilde: https://arxiv.org/pdf/2202.10673.pdf

Fra artikkelen, en oversikt over funksjonen til Facial Liveness Verification (FLV) APIer på tvers av store leverandører. Kilde: https://arxiv.org/pdf/2202.10673.pdf

Facial Liveness er ment å avvise bruk av teknikker som f.eks motstridende bildeangrep, Bruk av masker og forhåndsinnspilt video, såkalt «mesteransikter», og andre former for visuell ID-kloning.

Studien konkluderer med at det begrensede antallet deepfake-deteksjonsmoduler som er distribuert i disse systemene, hvorav mange betjener millioner av kunder, er langt fra ufeilbarlige, og kan ha blitt konfigurert på deepfake-teknikker som nå er utdatert, eller kan være for arkitekturspesifikke .

Forfatterne bemerker:

«[Ulike] deepfake-metoder viser også variasjoner på tvers av ulike leverandører ... Uten tilgang til de tekniske detaljene til de aktuelle FLV-leverandørene, spekulerer vi i at slike variasjoner tilskrives forsvarstiltakene som er iverksatt av ulike leverandører. For eksempel kan visse leverandører iverksette forsvar mot spesifikke deepfake-angrep.»

Og fortsett:

«[De fleste] FLV API-er bruker ikke anti-deepfake-deteksjon. Selv for de med slikt forsvar er effektiviteten bekymringsfull (f.eks. kan den oppdage syntetiserte videoer av høy kvalitet, men ikke oppdage videoer av lav kvalitet).»

Forskerne observerer i denne forbindelse at «autentisitet» er relativt:

«[Selv] om en syntetisert video er uvirkelig for mennesker, kan den fortsatt omgå den nåværende anti-deepfake-deteksjonsmekanismen med en svært høy suksessrate.»

Ovenfor kan du prøve dypfalske bilder som var i stand til å autentisere i forfatternes eksperimenter. Nedenfor, tilsynelatende langt mer realistiske falske bilder som mislyktes med autentisering.

Over, eksempler på deepfake-bilder som kunne autentiseres i forfatternes eksperimenter. Nedenfor, tilsynelatende langt mer realistiske forfalskede bilder som ikke ble autentisert.

Et annet funn var at den nåværende konfigurasjonen av generiske ansiktsverifiseringssystemer er partisk mot hvite menn. Senere ble kvinnelige og ikke-hvite identiteter funnet å være mer effektive i å omgå verifikasjonssystemer, og sette kunder i disse kategoriene i større risiko for brudd via dypfalske-baserte teknikker.

Rapporten finner at hvite mannlige identiteter blir mest strengt og nøyaktig vurdert av de populære API-ene for verifisering av ansiktsliv. I tabellen over ser vi at kvinnelige og ikke-hvite identiteter lettere kan brukes til å omgå systemene.

Rapporten finner at hvite mannlige identiteter blir mest strengt og nøyaktig vurdert av de populære API-ene for verifisering av ansiktsliv. I tabellen over ser vi at kvinnelige og ikke-hvite identiteter lettere kan brukes til å omgå systemene.

Avisen observerer det «Det finnes skjevheter i [Verifisering av ansiktslivlighet], som kan medføre betydelige sikkerhetsrisikoer for en bestemt gruppe mennesker.»

Forfatterne utførte også etiske ansiktsautentiseringsangrep mot en kinesisk regjering, et stort kinesisk flyselskap, et av de største livsforsikringsselskapene i Kina, og R360, en av verdens største enhjørningsinvesteringsgrupper, og rapporterer suksess med å omgå disse organisasjonenes nedstrømsbruk av de studerte API-ene.

I tilfelle en vellykket autentiseringsomgåelse for det kinesiske flyselskapet, krevde nedstrøms-API-et at brukeren «riste på hodet» som bevis mot potensielt deepfake-materiale, men dette viste seg ikke å fungere mot rammeverket utviklet av forskerne, som inkluderer seks deepfake-arkitekturer.

Til tross for flyselskapets vurdering av en brukers hoderysting, klarte deepfake-innhold testen.

Til tross for flyselskapets evaluering av en brukers hoderisting, klarte deepfake-innhold å bestå testen.

Avisen bemerker at forfatterne kontaktet de involverte leverandørene, som angivelig har anerkjent arbeidet.

Forfatterne tilbyr en rekke anbefalinger for forbedringer i dagens FLV-teknologi, inkludert å forlate autentisering med ett bilde («bildebasert FLV»), der autentisering er basert på et enkelt bilde fra en kundes kamerafeed; en mer fleksibel og omfattende oppdatering av deepfake-deteksjonssystemer på tvers av bilde- og stemmedomener; å innføre kravet om at stemmebasert autentisering i brukervideo skal synkroniseres med leppebevegelser (noe de vanligvis ikke er nå); og å kreve at brukere utfører gester og bevegelser som for tiden er vanskelige for deepfake-systemer å reprodusere (for eksempel, Profilvisninger og delvis tilsløring av ansiktet).

Ocuco papir har tittelen Å se er å leve? Tenker på nytt om sikkerheten til ansiktsverifisering i Deepfake-tiden, og kommer fra felles hovedforfattere Changjiang Li og Li Wang, og fem andre forfattere fra Pennsylvania State University, Zhejiang University og Shandong University.

Kjernemålene

Forskerne målrettet seg mot de «seks mest representative» leverandørene av Facial Liveness Verification (FLV), som har blitt anonymisert med kryptonymer i forskningen.

Leverandørene er representert slik: BD og 'TC' representere en konglomeratleverandør med det største antallet ansiktsrelaterte API-kall, og den største andelen av Kinas AI-skytjenester; 'HW' er «en av leverandørene med det største [kinesiske] markedet for offentlig sky»; «CW» har den raskeste vekstraten innen datasyn, og er i ferd med å oppnå en ledende markedsposisjon; 'ST' er blant de største datasynsleverandørene; og «iFT» tall blant de største AI-programvareleverandørene i Kina.

Data og arkitektur

De underliggende dataene som driver prosjektet inkluderer et datasett med 625,537 XNUMX bilder fra det kinesiske initiativet CelebA-spoof, sammen med livevideoer fra Michigan State Universitys 2019 SiW-M datasett.

Alle eksperimentene ble utført på en server med to 2.40 GHz Intel Xeon E5-2640 v4 CPUer som kjører på 256 GB RAM med en 4TB HDD, og ​​fire orkestrerte 1080Ti NVIDIA GPUer, for totalt 44 GB operativ VRAM.

Seks i ett

Rammeverket som forfatterne av artikkelen har utviklet kalles LiveBugger, og inkorporerer seks toppmoderne deepfake-rammeverk som strekker seg mot de fire hovedforsvarene i FLV-systemer.

LiveBugger inneholder forskjellige dypfalske tilnærminger, og fokuserer på de fire viktigste angrepsvektorene i FLV-systemer.

LiveBugger inneholder forskjellige dypfalske tilnærminger, og fokuserer på de fire viktigste angrepsvektorene i FLV-systemer.

De seks deepfake-rammeverkene som er brukt er: Oxford Universitys 2018 X2Face; det amerikanske akademiske samarbeidet ICface; to varianter av det israelske prosjektet i 2019 FSGAN; den italienske Første ordens metodemodell (FOMM), fra tidlig i 2020; og Peking Universitys Microsoft Research-samarbeid FaceShifter (men siden FaceShifter ikke er åpen kildekode, måtte forfatterne rekonstruere den basert på de publiserte arkitekturdetaljene).

Metodene som ble brukt blant disse rammeverkene inkluderte bruk av forhåndsrenderet video der individene i parodivideoen utfører rutinehandlinger som er hentet fra API-autentiseringskravene i en tidligere evalueringsmodul av LiveBugger, og også bruk av effektivt «deepfake-dukketeater», som oversetter livebevegelsene til et individ til en deepfake-strøm som er satt inn i en kooperert webkamerastrøm.

Et eksempel på sistnevnte er DeepFaceLive, Som debuterte i fjor sommer som et tilleggsprogram til det populære DeepFaceLab, for å muliggjøre deepfake-strømming i sanntid, men som ikke er inkludert i forfatternes forskning.

Angripe de fire vektorene

De fire angrepsvektorene i et typisk FLV-system er: bildebasert FLV, som bruker et enkelt brukerlevert bilde som autentiseringstoken mot en ansikts-ID som er registrert i systemet; stillhetsbasert FLV, som krever at brukeren laster opp et videoklipp av seg selv; handlingsbasert FLV, som krever at brukeren utfører handlinger diktert av plattformen; og stemmebasert FLV, som matcher en brukers oppfordrede tale mot systemets databaseoppføring for den brukerens talemønster.

Den første utfordringen for systemet er å fastslå i hvilken grad en API vil avsløre kravene sine, siden de da kan forutses og ivaretas i deepfaking-prosessen. Dette håndteres av Intelligence Engine i LiveBugger, som samler informasjon om krav fra offentlig tilgjengelig API-dokumentasjon og andre kilder.

Siden de publiserte kravene kan være fraværende (av ulike årsaker) fra API-ets faktiske rutiner, inneholder intelligensmotoren en sonde som samler implisitt informasjon basert på resultatene av utforskende API-kall. I forskningsprosjektet ble dette muliggjort av offisielle offline «test»-API-er som ble levert til fordel for utviklere, og også av frivillige som tilbød seg å bruke sine egne live-kontoer til testing.

Intelligence Engine søker etter bevis for om et API for øyeblikket bruker en bestemt tilnærming som kan være nyttig i angrep. Funksjoner av denne typen kan inkludere koherensdeteksjon, som sjekker om rammene i en video er tidsmessig kontinuerlige – et krav som kan etableres ved å sende krypterte videorammer og observere om dette bidrar til autentiseringssvikt.

Modulen søker også etter Deteksjon av leppespråk, der API kan sjekke for å se om lyden i videoen er synkronisert med brukerens leppebevegelser (sjelden tilfelle – se «Resultater» nedenfor).

Resultater

Forfatterne fant at alle de seks evaluerte API-ene ikke brukte koherensdeteksjon på tidspunktet for eksperimentene, noe som tillot deepfaker-motoren i LiveBugger ganske enkelt å sy sammen syntetisert lyd med deepfaked video, basert på bidratt materiale fra frivillige.

Noen nedstrømsapplikasjoner (dvs. kunder av API-rammeverket) ble imidlertid funnet å ha lagt til koherensdeteksjon til prosessen, noe som nødvendiggjorde forhåndsopptak av en video skreddersydd for å omgå dette.

I tillegg er det bare noen få av API-leverandørene som bruker leppespråkdeteksjon; for de fleste av dem analyseres videoen og lyden som separate mengder, og det er ingen funksjonalitet som forsøker å matche leppebevegelsen til den medfølgende lyden.

Ulike resultater som spenner over spekteret av falske teknikker som er tilgjengelige i LiveBugger mot det varierte utvalget av angrepsvektorer i FLV APIer. Høyere tall indikerer at angriperen har penetrert autentisering ved hjelp av dypfalske teknikker. Ikke alle API-er inkluderer alle mulige forsvar for FLV; for eksempel tilbyr flere ikke noe forsvar mot deepfakes, mens andre ikke sjekker at leppebevegelser og lyd stemmer overens i brukerinnsendt video under autentisering.

Ulike resultater som spenner over spekteret av falske teknikker som er tilgjengelige i LiveBugger mot det varierte utvalget av angrepsvektorer i FLV APIer. Høyere tall indikerer en større grad av suksess i å penetrere FLV ved bruk av dypfalske teknikker. Ikke alle API-er inkluderer alle mulige forsvar for FLV; for eksempel tilbyr flere ikke noe forsvar mot deepfakes, mens andre ikke sjekker at leppebevegelser og lyd stemmer overens i brukerinnsendt video under autentisering.

Konklusjon

Artikkelens resultater og indikasjoner for fremtiden til FLV API-er er labyrintiske, og forfatterne har satt dem sammen til en funksjonell «arkitektur av sårbarheter» som kan hjelpe FLV-utviklere med å bedre forstå noen av problemene som er avdekket.

Avisens nettverk av anbefalinger angående eksisterende og potensiell mottakelighet av ansiktsbaserte videoidentifikasjonsrutiner for dypfalske angrep.

Artikkelens nettverk av anbefalinger angående eksisterende og potensiell mottakelighet for ansiktsbaserte videoidentifikasjonsrutiner for deepfake-angrep.

Anbefalingene merker:

«Sikkerhetsrisikoene knyttet til FLV finnes i mange virkelige applikasjoner, og truer dermed sikkerheten til millioner av sluttbrukere.»

Forfatterne bemerker også at bruken av handlingsbasert FLV er «marginal», og at det å øke antallet handlinger som brukerne må utføre «ikke kan gi noen sikkerhetsgevinst».

Videre bemerker forfatterne at det å kombinere stemmegjenkjenning og tidsmessig ansiktsgjenkjenning (i video) er et resultatløst forsvar med mindre API-leverandørene begynner å kreve at leppebevegelser synkroniseres med lyd.

Rapporten kommer i lys av en fersk advarsel fra FBI til næringslivet om farene ved deepfake-svindel, nesten et år etter at de varslet teknologiens bruk i utenlandske påvirkningsoperasjoner, og om generell frykt at live deepfake-teknologi vil legge til rette for en ny kriminalitetsbølge på en offentlighet som fortsatt stoler på sikkerhetsarkitekturer for videoautentisering.

Dette er fortsatt de første dagene med deepfake som en overflate for autentiseringsangrep; i 2020 var 35 millioner dollar uredelig utvunnet fra en bank i De forente arabiske emirater ved bruk av deepfake lydteknologi, og en britisk leder ble likeledes svindlet til å betale ut 243,000 XNUMX dollar i 2019.

 

Først publisert 23. februar 2022.

Forfatter på maskinlæring, domenespesialist i menneskelig bildesyntese. Tidligere leder for forskningsinnhold hos Metaphysic.ai.
Personlig side: martinanderson.ai
Kontakt: [e-postbeskyttet]
Twitter: @manders_ai