Connect with us

Cybersikkerhet

Deteksjon av video-konferanse Deepfakes med en smarttelefons ‘Vibrate’-funksjon

mm
An AI-generated illustration: 'a gorgeous panoramic picture of a man sitting in an office, looking into his smartphone, which he is holding; the man is wearing a Guy Fawkes mask; photorealistic, UHQ' - ChatGPT 3, Tuesday, September 24, 2024 13:27:31

Ny forskning fra Singapore har foreslått en ny metode for å påvise om noen på den andre siden av en smarttelefon video-konferanse-verktøy bruker metoder som DeepFaceLive for å etterligne noen andre.

Tittelen SFake forkaster de passive metoder som de fleste systemer bruker, og får brukerens telefon til å vibrere (ved å bruke samme ‘vibrer’-mekanismer som er vanlig på smarttelefoner), og subtelt uskarpe ansiktet.

Selv om live deepfake-systemer er i stand til å replikere bevegelsesuskarpering, så lenge uskarpet bilde var inkludert i treningsdataene, eller i alle fall i pre-treningsdataene, kan de ikke reagere raskt nok på uventet uskarpering av denne typen, og fortsetter å utgi ikke-uskarpet deler av ansiktet, og avslører eksistensen av en deepfake konferanse.

DeepFaceLive kan ikke reagere raskt nok til å simulere uskarpingen forårsaket av kamera-vibrasjoner. Kilde: https://arxiv.org/pdf/2409.10889v1

DeepFaceLive kan ikke reagere raskt nok til å simulere uskarpingen forårsaket av kamera-vibrasjoner. Kilde: https://arxiv.org/pdf/2409.10889v1

Testresultater på forskernes eget kurerte datasett (da ingen datasett med aktive kamera-risting eksisterer) viste at SFake overgikk konkurrerende video-baserte deepfake-oppdaging metoder, selv når de møtte utfordrende omstendigheter, som den naturlige håndbevegelsen som skjer når den andre personen i en video-konferanse holder kameraet med hånden, i stedet for å bruke en statisk telefon-monter.

Det økende behovet for video-basert deepfake-oppdaging

Forskning i video-basert deepfake-oppdaging har økt nylig. I kjølvannet av flere års suksessfulle stemme-baserte deepfake-ran, tidligere i år ble en finansarbeider lurt til å overføre $25 millioner dollar til en svindler som etterliknet en CFO i en deepfaked video-konferanse.

Selv om et system av denne typen krever en høy grad av maskinvare-tilgang, er mange smarttelefon-brukere allerede vant til finansielle og andre typer verifiseringstjenester som ber oss om å spille inn våre ansikts-trekk for ansikt-basert autentisering (i virkeligheten er dette en del av LinkedIn’s verifiseringprosess).

Det ser derfor sannsynlig ut at slike metoder vil bli stadig mer påtvunget for video-konferanse-systemer, ettersom denne typen kriminalitet fortsetter å skape overskrifter.

De fleste løsninger som tar for seg video-konferanse deepfaking antar en svært statisk scenario, der kommunikanten bruker en stasjonær webcam, og ingen bevegelse eller eksessive miljø- eller lys-endringer er forventet. En smarttelefon-samtale tilbyr ingen slik ‘fast’ situasjon.

I stedet bruker SFake en rekke oppdaging metoder for å kompensere for det høye antallet visuelle variasjoner i en hånd-holdt smarttelefon-basert video-konferanse, og ser ut til å være det første forskningsprosjektet som tar for seg problemet ved å bruke standard vibrasjons-utstyr bygget inn i smarttelefoner.

Metode

SFake er designet som en sky-basert tjeneste, der en lokal app sender data til en fjern API-tjeneste for å bli prosessert, og resultater sendes tilbake.

Men dens kun 450mb fotavtrykk og optimerte metodologi tillater at den kan prosessere deepfake-oppdaging helt på enheten selv, i tilfeller der nettverks-tilkobling kan forårsake sendte bilder å bli for komprimert, og påvirke diagnostisk prosess.

Å kjøre ‘all lokal’ på denne måten betyr at systemet ville ha direkte tilgang til brukerens kamera-strøm, uten kodek-forstyrrelser ofte forbundet med video-konferanser.

Gjennomsnittlig analyse-tid krever en fire-sekunders video-eksempel, under hvilken brukeren blir bedt om å forbli stille, og under hvilken SFake sender ‘sonder’ for å forårsake kamera-vibrasjoner å skje, på selektivt tilfeldige intervaller som systemer som DeepFaceLive ikke kan reagere på i tide.

Data og tester

Da ingen passende datasett eksisterte for formålet, utviklet forskerne sin egen:

‘[Vi] bruker 8 forskjellige merker av smarttelefoner for å spille inn 15 deltakere av varierende kjønn og alder for å bygge vår egen datasett. Vi plasserer smarttelefonen på telefon-holderen 20 cm unna deltakeren og zoomer inn to ganger, med fokus på deltakerens ansikt for å omfatte alle hans ansikts-trekk mens vi vibrerer smarttelefonen i forskjellige mønster.

‘For telefoner hvis front-kameraer ikke kan zoome, bruker vi bak-kameraene som erstatning. Vi spiller inn 150 lange videoer, hver 20 sekunder lange. Som standard antar vi at oppdaging-perioden varer 4 sekunder. Vi klipper 10 klipp av 4 sekunder lange fra en lang video ved å tilfeldigisere start-tiden. Derfor får vi en total på 1500 ekte klipp, hver 4 sekunder lange.’

Selv om DeepFaceLive (GitHub-lenke) var det sentrale målet for studien, da det for tiden er det mest brukte åpne kilde live deepfake-system, inkluderte forskerne fire andre metoder for å trene deres base-oppdaging-modell: Hififace; FS-GANV2; RemakerAI; og MobileFaceSwap – den siste av disse en særlig passende valg, gitt mål-miljøet.

1500 forfalskede videoer ble brukt til trening, sammen med det tilsvarende antallet ekte og uberørte videoer.

SFake ble testet mot flere forskjellige klassifiserings-algoritmer, inkludert SBI; FaceAF; CnnDetect; LRNet; DefakeHop varianter; og den gratis online deepfake-oppdagingstjenesten Deepaware. For hver av disse deepfake-metodene ble 1500 fakes og 1500 ekte videoer brukt til trening.

For base-test-klassifiseringen ble en enkel to-lags nevralt nettverk med en ReLU-aktiveringsfunksjon brukt. 1000 ekte og 1000 fakes videoer ble tilfeldig valgt (selv om fakes-videoene eksklusivt var DeepFaceLive-eksempler).

Konklusjon

Et prosjekt som bruker svakhetene til et live deepfake-system mot seg selv er et friskt tilbud i et år hvor deepfake-oppdaging har vært dominert av papirer som har bare rørt opp venerable tilnærminger rundt frekvens-analyse (som er langt ifra immun mot innovasjoner i deepfake-rommet).

Tidligere i år brukte et annet system skjerm-lysstyrke-variasjon som en oppdaging-krok; og i samme år demonstrerte min egen demonstrasjon av DeepFaceLive’s evne til å håndtere harde 90-graders profil-utsikt, fikk en del samfunns-interesse.

DeepFaceLive er det riktige målet for et slikt prosjekt, da det sannsynligvis er fokus for kriminell interesse i forhold til video-konferanse-svindel.

Men jeg har nylig sett noen anekdotiske bevis på at LivePortrait-systemet, som for tiden er svært populært i VFX-samfunnet, håndterer profil-utsikt mye bedre enn DeepFaceLive; det ville ha vært interessant hvis det kunne ha vært inkludert i denne studien.

Forfatter på maskinlæring, domeneekspert på menneskesynthese. Tidligere leder for forskningsinnhold på Metaphysic.ai.