Cybersikkerhet
Deteksjon av video-konferanse Deepfakes med en smarttelefons ‘Vibrate’-funksjon

Ny forskning fra Singapore har foreslått en ny metode for å påvise om noen på den andre siden av en smarttelefon video-konferanse-verktøy bruker metoder som DeepFaceLive for å etterligne noen andre.
Tittelen SFake forkaster de passive metoder som de fleste systemer bruker, og får brukerens telefon til å vibrere (ved å bruke samme ‘vibrer’-mekanismer som er vanlig på smarttelefoner), og subtelt uskarpe ansiktet.
Selv om live deepfake-systemer er i stand til å replikere bevegelsesuskarpering, så lenge uskarpet bilde var inkludert i treningsdataene, eller i alle fall i pre-treningsdataene, kan de ikke reagere raskt nok på uventet uskarpering av denne typen, og fortsetter å utgi ikke-uskarpet deler av ansiktet, og avslører eksistensen av en deepfake konferanse.

DeepFaceLive kan ikke reagere raskt nok til å simulere uskarpingen forårsaket av kamera-vibrasjoner. Kilde: https://arxiv.org/pdf/2409.10889v1
Testresultater på forskernes eget kurerte datasett (da ingen datasett med aktive kamera-risting eksisterer) viste at SFake overgikk konkurrerende video-baserte deepfake-oppdaging metoder, selv når de møtte utfordrende omstendigheter, som den naturlige håndbevegelsen som skjer når den andre personen i en video-konferanse holder kameraet med hånden, i stedet for å bruke en statisk telefon-monter.
Det økende behovet for video-basert deepfake-oppdaging
Forskning i video-basert deepfake-oppdaging har økt nylig. I kjølvannet av flere års suksessfulle stemme-baserte deepfake-ran, tidligere i år ble en finansarbeider lurt til å overføre $25 millioner dollar til en svindler som etterliknet en CFO i en deepfaked video-konferanse.
Selv om et system av denne typen krever en høy grad av maskinvare-tilgang, er mange smarttelefon-brukere allerede vant til finansielle og andre typer verifiseringstjenester som ber oss om å spille inn våre ansikts-trekk for ansikt-basert autentisering (i virkeligheten er dette en del av LinkedIn’s verifiseringprosess).
Det ser derfor sannsynlig ut at slike metoder vil bli stadig mer påtvunget for video-konferanse-systemer, ettersom denne typen kriminalitet fortsetter å skape overskrifter.
De fleste løsninger som tar for seg video-konferanse deepfaking antar en svært statisk scenario, der kommunikanten bruker en stasjonær webcam, og ingen bevegelse eller eksessive miljø- eller lys-endringer er forventet. En smarttelefon-samtale tilbyr ingen slik ‘fast’ situasjon.
I stedet bruker SFake en rekke oppdaging metoder for å kompensere for det høye antallet visuelle variasjoner i en hånd-holdt smarttelefon-basert video-konferanse, og ser ut til å være det første forskningsprosjektet som tar for seg problemet ved å bruke standard vibrasjons-utstyr bygget inn i smarttelefoner.
Metode
SFake er designet som en sky-basert tjeneste, der en lokal app sender data til en fjern API-tjeneste for å bli prosessert, og resultater sendes tilbake.
Men dens kun 450mb fotavtrykk og optimerte metodologi tillater at den kan prosessere deepfake-oppdaging helt på enheten selv, i tilfeller der nettverks-tilkobling kan forårsake sendte bilder å bli for komprimert, og påvirke diagnostisk prosess.
Å kjøre ‘all lokal’ på denne måten betyr at systemet ville ha direkte tilgang til brukerens kamera-strøm, uten kodek-forstyrrelser ofte forbundet med video-konferanser.
Gjennomsnittlig analyse-tid krever en fire-sekunders video-eksempel, under hvilken brukeren blir bedt om å forbli stille, og under hvilken SFake sender ‘sonder’ for å forårsake kamera-vibrasjoner å skje, på selektivt tilfeldige intervaller som systemer som DeepFaceLive ikke kan reagere på i tide.
Data og tester
Da ingen passende datasett eksisterte for formålet, utviklet forskerne sin egen:
‘[Vi] bruker 8 forskjellige merker av smarttelefoner for å spille inn 15 deltakere av varierende kjønn og alder for å bygge vår egen datasett. Vi plasserer smarttelefonen på telefon-holderen 20 cm unna deltakeren og zoomer inn to ganger, med fokus på deltakerens ansikt for å omfatte alle hans ansikts-trekk mens vi vibrerer smarttelefonen i forskjellige mønster.
‘For telefoner hvis front-kameraer ikke kan zoome, bruker vi bak-kameraene som erstatning. Vi spiller inn 150 lange videoer, hver 20 sekunder lange. Som standard antar vi at oppdaging-perioden varer 4 sekunder. Vi klipper 10 klipp av 4 sekunder lange fra en lang video ved å tilfeldigisere start-tiden. Derfor får vi en total på 1500 ekte klipp, hver 4 sekunder lange.’
Selv om DeepFaceLive (GitHub-lenke) var det sentrale målet for studien, da det for tiden er det mest brukte åpne kilde live deepfake-system, inkluderte forskerne fire andre metoder for å trene deres base-oppdaging-modell: Hififace; FS-GANV2; RemakerAI; og MobileFaceSwap – den siste av disse en særlig passende valg, gitt mål-miljøet.
1500 forfalskede videoer ble brukt til trening, sammen med det tilsvarende antallet ekte og uberørte videoer.
SFake ble testet mot flere forskjellige klassifiserings-algoritmer, inkludert SBI; FaceAF; CnnDetect; LRNet; DefakeHop varianter; og den gratis online deepfake-oppdagingstjenesten Deepaware. For hver av disse deepfake-metodene ble 1500 fakes og 1500 ekte videoer brukt til trening.
For base-test-klassifiseringen ble en enkel to-lags nevralt nettverk med en ReLU-aktiveringsfunksjon brukt. 1000 ekte og 1000 fakes videoer ble tilfeldig valgt (selv om fakes-videoene eksklusivt var DeepFaceLive-eksempler).
Konklusjon
Et prosjekt som bruker svakhetene til et live deepfake-system mot seg selv er et friskt tilbud i et år hvor deepfake-oppdaging har vært dominert av papirer som har bare rørt opp venerable tilnærminger rundt frekvens-analyse (som er langt ifra immun mot innovasjoner i deepfake-rommet).
Tidligere i år brukte et annet system skjerm-lysstyrke-variasjon som en oppdaging-krok; og i samme år demonstrerte min egen demonstrasjon av DeepFaceLive’s evne til å håndtere harde 90-graders profil-utsikt, fikk en del samfunns-interesse.
DeepFaceLive er det riktige målet for et slikt prosjekt, da det sannsynligvis er fokus for kriminell interesse i forhold til video-konferanse-svindel.
Men jeg har nylig sett noen anekdotiske bevis på at LivePortrait-systemet, som for tiden er svært populært i VFX-samfunnet, håndterer profil-utsikt mye bedre enn DeepFaceLive; det ville ha vært interessant hvis det kunne ha vært inkludert i denne studien.
