Cybersikkerhed
Detektering af Video-konference Deepfakes med en Smartphones ‘Vibrate’-funktion

Nyt forskning fra Singapore har foreslået en ny metode til at detektere, om nogen på den anden side af en smartphone-videoconferencing-værktøj bruger metoder som DeepFaceLive til at impersonere nogen andre.
Titled SFake, den nye tilgang forlader de passive metoder, der er anvendt af de fleste systemer, og får brugeren’s telefon til at vibrere (ved hjælp af de samme ‘vibrate’-mekanismer som er almindelige på smartphones), og subtilt blurrer deres ansigt.
Selv om live deepfaking-systemer er i stand til at replikere bevægelses-blur, så længe blot blurret footage var inkluderet i træningsdata eller i det mindste i præ-træningsdata, kan de ikke reagere hurtigt nok på uventet blur af denne type, og fortsætter med at udgive ikke-blurrede dele af ansigter, hvilket afslører eksistensen af en deepfake-konferenceopkald.

DeepFaceLive kan ikke reagere hurtigt nok på at simulere blurren, der skyldes kamera-vibrationer. Kilde: https://arxiv.org/pdf/2409.10889v1
Testresultater på forskernes selv-kuraterede dataset (da der ikke eksisterer nogen datasets, der viser aktiv kamera-rysten) fandt, at SFake overgik konkurrerende video-baserede deepfake-detektionsmetoder, selv når de stod over for udfordrende omstændigheder, såsom den naturlige håndbevægelse, der opstår, når den anden person i en video-konference holder kameraet med hånden, i stedet for at bruge en statisk telefon-montage.
Det voksende behov for video-baseret Deepfake-detektion
Forskning i video-baseret deepfake-detektion er øget for nylig. I kølvandet på flere års succesfulde stemme-baserede deepfake-tyverier, tidligere på året blev en finansarbejder narret til at overføre $25 millioner dollars til en svindler, der brugte en deepfaked video-konference-opkald til at impersonere en CFO.
Selv om et system af denne art kræver en høj grad af hardware-adgang, er mange smartphone-brugere allerede vant til, at finansielle og andre former for verificeringstjenester beder os om at optage vores ansigtskarakteristika til ansigts-baseret autentificering (det er endda en del af LinkedIn’s verificeringsproces).
Det synes derfor sandsynligt, at sådanne metoder vil blive mere og mere gennemført for video-konference-systemer, da denne type kriminalitet fortsætter med at skabe overskrifter.
De fleste løsninger, der adresserer real-time video-konference deepfaking, antager en meget statisk scenario, hvor kommunikanten bruger en stationær webcam, og der ikke forventes nogen bevægelse eller eksessive miljø- eller lysændringer. Et smartphone-opkald tilbyder ingen sådan ‘fast’ situation.
I stedet bruger SFake en række detektionsmetoder til at kompensere for det høje antal visuelle variationer i en hånd-holdt smartphone-baseret video-konference, og synes at være det første forskningsprojekt, der adresserer problemet ved hjælp af standard vibration-udstyr bygget ind i smartphones.
Den artikel er titlen Shaking the Fake: Detecting Deepfake Videos in Real Time via Active Probes, og kommer fra to forskere fra Nanyang Technological University i Singapore.
Metode
SFake er designet som en cloud-baseret tjeneste, hvor en lokal app ville sende data til en fjern API-tjeneste til at blive behandlet, og resultaterne sendes tilbage.
Men dens mere 450mb fodaftryk og optimerede metode tillader, at det kan behandle deepfake-detektion helt på enheden selv, i tilfælde hvor netværksforbindelse kunne få sendte billeder til at blive for komprimeret, hvilket påvirker diagnostiske processen.
At køre ‘all local’ på denne måde betyder, at systemet ville have direkte adgang til brugerens kamera-feed, uden codec-interferens, der ofte er forbundet med video-konferencing.
Gennemsnitlig analyse-tid kræver en fire-sekunders video-eksempel, under hvilken brugeren bedes om at forblive stille, og under hvilken SFake sender ‘probes’ til at forårsage kamera-vibrationer, der sker ved selektivt tilfældige interval, som systemer som DeepFaceLive ikke kan reagere på i tide.
(Det skal genbetones, at enhver angriber, der ikke har inkluderet blurret indhold i trænings-datasettet, er usandsynligt at være i stand til at producere en model, der kan generere blur, selv under langt mere gunstige omstændigheder, og at DeepFaceLive ikke bare kan ’tilføje’ denne funktion til en model, der er trænet på et under-kurateret dataset)
Systemet vælger bestemte områder af ansigtet som områder af potentiel deepfake-indhold, eksklusive øjne og øjenbryn (da blinkning og andre ansigts-bevægelser i dette område er uden for scope af blur-detektion, og ikke er en ideal indikator).

Konceptuel schema for SFake.
Som vi kan se i det konceptuelle schema ovenfor, efter at have valgt passende og ikke-forudsigelige vibration-mønstre, fastsat den bedste fokuseringslængde og udført ansigts-genkendelse (inklusive landmark-detektion via en Dlib-komponent, der estimerer en standard 68 ansigts-landmarks), SFake afleder grader fra input-ansigtet og koncentrerer sig om valgte områder af disse grader.
Variationssekvensen opnås ved sekventielt at analysere hver ramme i den korte klip under studie, indtil den gennemsnitlige eller ‘ideelle’ sekvens er nået, og resten ignoreret.
Dette giver extracted features, der kan bruges som en kvantificator for sandsynligheden for deepfaked-indhold, baseret på det trænede database (hvorfra mere om lidt).
Systemet kræver en billedopløsning på 1920×1080 pixels, samt en minimum 2x zoom-krav for linsen. Artiklen bemærker, at sådanne opløsninger (og endda højere opløsninger) er understøttet i Microsoft Teams, Skype, Zoom og Tencent Meeting.
De fleste smartphones har en forside- og selv-side-kamera, og ofte kun ét af disse har zoom-kapaciteterne, der kræves af SFake; appen ville derfor kræve, at kommunikanten bruger det kamera, der opfylder disse krav.
Formålet her er at få en korrekt proportion af brugerens ansigt ind i video-streamen, som systemet vil analysere. Artiklen observerer, at den gennemsnitlige afstand, som kvinder bruger mobile enheder, er 34,7 cm, og for mænd, 38,2 cm (som rapporteret i Journal of Optometry), og at SFake fungerer meget godt på disse afstande.
Da stabilisering er et problem med hånd-holdt video, og da blurren, der opstår fra hånd-bevægelse, er en hindring for SFake’s funktionsmåde, prøvede forskerne flere metoder til at kompensere. Den mest succesfulde af disse var at beregne den centrale punkt af de estimerede landmarks og bruge dette som en ‘anker’ – effektivt en algoritme-stabiliseringsteknik. Ved denne metode opnåedes en nøjagtighed på 92%.
Data og tests
Da der ikke eksisterede nogen passende datasets til formålet, udviklede forskerne deres eget:
‘[Vi] bruger 8 forskellige mærker af smartphones til at optage 15 deltagere af varierende køn og alder til at bygge vores eget dataset. Vi placerer smartphone’en på telefon-holdere 20 cm væk fra deltageren og zoomer ind to gange, sigtende på deltagerens ansigt for at omfatte alle hans ansigts-træk, mens vi vibrerer smartphone’en i forskellige mønstre.
‘For telefoner, hvis forside-kameraer ikke kan zoome, bruger vi bagside-kameraerne som erstatning. Vi optager 150 lange videoer, hver 20 sekunder i længde. Som standard antager vi, at detektions-perioden varer 4 sekunder. Vi klipper 10 klip af 4 sekunder lange fra en lang video ved at tilfældigt vælge start-tiden. Derfor får vi i alt 1500 rigtige klip, hver 4 sekunder lange.’
Selv om DeepFaceLive (GitHub-link) var det centrale mål for studiet, da det er det mest bredt anvendte open source live deepfaking-system, inkluderede forskerne fire andre metoder til at træne deres basis-detektionsmodel: Hififace; FS-GANV2; RemakerAI; og MobileFaceSwap – sidstnævnte en særligt passende valg, givet mål-miljøet.
1500 fakede videoer blev brugt til træning, sammen med det samme antal rigtige og uændrede videoer.
SFake blev testet mod flere forskellige klassificatorer, herunder SBI; FaceAF; CnnDetect; LRNet; DefakeHop-varianter; og den gratis online deepfake-detektionstjeneste Deepaware. For hver af disse deepfake-metoder blev 1500 fakede og 1500 rigtige videoer trænet.
For den basis-test-klassificator blev en simpel to-lags neural network med en ReLU-aktiveringsfunktion brugt. 1000 rigtige og 1000 fakede videoer blev tilfældigt valgt (dog var de fakede videoer eksklusivt DeepFaceLive-eksempler).
Area Under Receiver Operating Characteristic Curve (AUC/AUROC) og Accuracy (ACC) blev brugt som metrikker.
For træning og inferens blev en NVIDIA RTX 3060 brugt, og testene kørt under Ubuntu. Test-videoerne blev optaget med en Xiaomi Redmi 10x, en Xiaomi Redmi K50, en OPPO Find x6, en Huawei Nova9, en Xiaomi 14 Ultra, en Honor 20, en Google Pixel 6a og en Huawei P60.
For at være i overensstemmelse med eksisterende detektionsmetoder blev testene implementeret i PyTorch. Primære testresultater er illustreret i tabellen nedenfor:

Resultater for SFake mod konkurrerende metoder.
