Cyberbeveiliging

Detecting Video-conference Deepfakes Met Het ‘Vibrate’ Functie Van Een Smartphone

Published September 24, 2024

Updated April 3, 2026

Martin Anderson

An AI-generated illustration: 'a gorgeous panoramic picture of a man sitting in an office, looking into his smartphone, which he is holding; the man is wearing a Guy Fawkes mask; photorealistic, UHQ' - ChatGPT 3, Tuesday, September 24, 2024 13:27:31

Nieuw onderzoek uit Singapore heeft een novate methode voorgesteld om te detecteren of iemand aan de andere kant van een smartphone-videoconferencingtool methoden zoals DeepFaceLive gebruikt om iemand anders na te bootsen.

Genoemd SFake, de nieuwe benadering verlaat de passieve methoden die door de meeste systemen worden gebruikt en laat de telefoon van de gebruiker trillen (met behulp van dezelfde ‘trillen’-mechanismen gemeenschappelijk in smartphones), en vervagt hun gezicht subtiel.

Hoewel live deepfaking-systemen op verschillende manieren in staat zijn om motion blur te repliceren, zolang blurred footage was opgenomen in de trainingsdata, of tenminste in de pre-trainingsdata, kunnen ze niet snel genoeg reageren op onverwachte blur van deze soort, en blijven ze non-blurred secties van gezichten uitvoeren, waardoor de aanwezigheid van een deepfake-conferentiecall wordt onthuld.

DeepFaceLive kan niet snel genoeg reageren om de blur te simuleren die wordt veroorzaakt door de cameratrillingen. Bron: https://arxiv.org/pdf/2409.10889v1

Testresultaten op de door de onderzoekers zelf samengestelde dataset (aangezien er geen datasets bestaan met actieve camerabeweging) toonden aan dat SFake concurrerende video-gebaseerde deepfake-detectiemethoden overtrof, zelfs in uitdagende omstandigheden, zoals de natuurlijke handbeweging die optreedt wanneer de andere persoon in een videoconferentie de camera met zijn hand vasthoudt, in plaats van een statische telefoonbeugel te gebruiken.

De Groeiende Behoefte Aan Video-gebaseerde Deepfake-detectie

Onderzoek naar video-gebaseerde deepfake-detectie is de afgelopen tijd toegenomen. In de nasleep van een aantal jaar succesvolle spraak-gebaseerde deepfake-overvallen, werd eerder dit jaar een financieel medewerker bedrogen door iemand die zich voordeed als een CFO in een deepfaked videoconferentie, waardoor $25 miljoen dollar werd overgemaakt naar een oplichter.

Hoewel een systeem van deze aard een hoog niveau van hardwaretoegang vereist, zijn veel smartphonegebruikers al gewend aan financiële en andere soorten verificatiediensten die ons vragen om onze gezichtskenmerken op te nemen voor gezichtsauthenticatie (in feite is dit zelfs onderdeel van het verificatieproces van LinkedIn).

Het lijkt er dus waarschijnlijk op dat dergelijke methoden steeds vaker zullen worden afgedwongen voor videoconferencing-systemen, naarmate dit soort criminaliteit meer aandacht krijgt.

De meeste oplossingen die real-time videoconferencing deepfaking aanpakken, gaan ervan uit dat er een zeer statische situatie is, waarin de communicant een stationaire webcam gebruikt en er geen beweging of overmatige omgevings- of lichtveranderingen worden verwacht. Een smartphonegesprek biedt geen dergelijke ‘vaste’ situatie.

In plaats daarvan gebruikt SFake een aantal detectiemethoden om te compenseren voor het grote aantal visuele varianten in een handgehouden smartphone-gebaseerde videoconferentie, en lijkt het de eerste onderzoeksproject te zijn dat dit probleem aanpakt met behulp van standaard trilmogelijkheden die zijn ingebouwd in smartphones.

Het artikel heeft de titel Shaking the Fake: Detecting Deepfake Videos in Real Time via Active Probes en komt van twee onderzoekers van de Nanyang Technological University in Singapore.

Methode

SFake is ontworpen als een cloud-gebaseerde dienst, waarbij een lokale app gegevens naar een externe API-service zou verzenden om te worden verwerkt, en de resultaten terug te sturen.

Echter, de kleine omvang van 450mb en de geoptimaliseerde methodologie maken het mogelijk om deepfake-detectie volledig op het apparaat zelf te verwerken, in gevallen waarin een netwerkverbinding kan veroorzaken dat verzonden afbeeldingen te sterk worden gecomprimeerd, waardoor het diagnostische proces wordt beïnvloed.

Het uitvoeren van ‘alles lokaal’ op deze manier betekent dat het systeem rechtstreeks toegang heeft tot de camerastroom van de gebruiker, zonder de codec-interferentie die vaak wordt geassocieerd met videoconferencing.

De gemiddelde analyse tijd vereist een vierseconden videoclip, tijdens welke de gebruiker wordt gevraagd om stil te blijven, en tijdens welke SFake ‘probes’ verstuurt om cameratrillingen te veroorzaken, op selectief willekeurige intervallen die systemen zoals DeepFaceLive niet snel genoeg kunnen reageren.

(Het moet opnieuw worden benadrukt dat elke aanvaller die geen vervagde inhoud in de trainingsdataset heeft opgenomen, het onwaarschijnlijk is dat hij een model kan produceren dat vervaging kan genereren, zelfs onder veel gunstigere omstandigheden, en dat DeepFaceLive deze functionaliteit niet zomaar kan toevoegen aan een model dat is getraind op een onder-curated dataset)

Het systeem kiest selecte gebieden van het gezicht als gebieden met potentieel deepfake-inhoud, met uitzondering van de ogen en wenkbrauwen (aangezien knipperen en andere gezichtsbewegingen in dat gebied buiten het bereik van vervagingsdetectie liggen en geen ideale indicator zijn).

Conceptueel schema voor SFake.

Zoals we kunnen zien in het conceptuele schema hierboven, nadat het systeem geschikte en niet-predictabele trilpatronen heeft gekozen, besloten heeft over de beste brandpuntsafstand en gezichtsherkenning heeft uitgevoerd (inclusief landmarkdetectie via een Dlib-component die een standaard 68 gezichtslandmarks schat), SFake gradiënten afleidt van het invoergezicht en concentreert zich op geselecteerde gebieden van deze gradiënten.

De variantiesequentie wordt verkregen door elk frame in de korte clip onder studie te analyseren, totdat de gemiddelde of ‘ideale’ sequentie is bereikt en de rest wordt genegeerd.

Dit levert geëxtraheerde functies op die kunnen worden gebruikt als een kwantificator voor de waarschijnlijkheid van deepfaked-inhoud, op basis van de getrainde database (waarover straks meer).

Het systeem vereist een beeldresolutie van 1920×1080 pixels, evenals ten minste een 2x zoomvereiste voor de lens. Het artikel merkt op dat dergelijke resoluties (en zelfs hogere resoluties) worden ondersteund in Microsoft Teams, Skype, Zoom en Tencent Meeting.

De meeste smartphones hebben een voor- en zelfcamera, en vaak heeft alleen een van deze camera’s de zoommogelijkheden die SFake vereist; de app zou de communicant dus moeten vragen om de camera te gebruiken die aan deze vereisten voldoet.

Het doel is om een correcte verhouding van het gezicht van de gebruiker in de videostream te krijgen die het systeem zal analyseren. Het artikel merkt op dat de gemiddelde afstand waarop vrouwen mobiele apparaten gebruiken 34,7 cm is, en voor mannen 38,2 cm (zoals gerapporteerd in Journal of Optometry), en dat SFake zeer goed werkt op deze afstanden.

Aangezien stabilisatie een probleem is met handgehouden video, en aangezien de blur die optreedt door handbeweging een belemmering vormt voor de werking van SFake, hebben de onderzoekers verschillende methoden geprobeerd om te compenseren. De meest succesvolle hiervan was het berekenen van het centrale punt van de geschatte landmarks en het gebruik van dit als een ‘anker’ – effectief een algoritmicale stabilisatietechniek. Door deze methode werd een nauwkeurigheid van 92% behaald.

Gegevens En Tests

Aangezien er geen geschikte datasets bestonden voor het doel, hebben de onderzoekers hun eigen dataset ontwikkeld:

‘[We] gebruiken 8 verschillende merken smartphones om 15 deelnemers van verschillende geslachten en leeftijden op te nemen om onze eigen dataset te bouwen. We plaatsen de smartphone op een telefoonhouder 20 cm weg van de deelnemer en zoomen twee keer in, met het doel om alle gezichtskenmerken van de deelnemer te omvatten, terwijl we de smartphone trillen in verschillende patronen.

‘Voor telefoons waarvan de voorcamera’s niet kunnen zoomen, gebruiken we de achtercamera’s als vervanging. We nemen 150 lange video’s op, elk 20 seconden lang. Standaard gaan we ervan uit dat de detectieperiode 4 seconden duurt. We knippen 10 clips van 4 seconden lang uit één lange video door de starttijd te randomiseren. Daardoor krijgen we in totaal 1500 echte clips, elk 4 seconden lang.’

Hoewel DeepFaceLive (GitHub-link) het centrale doelwit van de studie was, omdat het momenteel het meest gebruikte open source live deepfaking-systeem is, hebben de onderzoekers vier andere methoden opgenomen om hun basisdetectiemodel te trainen: Hififace; FS-GANV2; RemakerAI; en MobileFaceSwap – de laatste een bijzonder geschikte keuze, gezien de doelomgeving.

1500 vervalste video’s werden gebruikt voor training, evenals het equivalent aantal echte en ongewijzigde video’s.

SFake werd getest tegen verschillende classificatoren, waaronder SBI; FaceAF; CnnDetect; LRNet; DefakeHop-varianten; en de gratis online deepfake-detectieservice Deepaware. Voor elk van deze deepfake-methoden werden 1500 valse en 1500 echte video’s getraind.

Voor de basistestclassificator werd een eenvoudig tweelaags neuraal netwerk met een ReLU-activatiefunctie gebruikt. 1000 echte en 1000 valse video’s werden willekeurig gekozen (hoewel de valse video’s exclusief DeepFaceLive-exemplaren waren).

Het gebied onder de ontvangeroperatiekarakteristieke curve (AUC/AUROC) en nauwkeurigheid (ACC) werden gebruikt als metrics.

Voor training en inferentie werd een NVIDIA RTX 3060 gebruikt, en de tests werden uitgevoerd onder Ubuntu. De testvideo’s werden opgenomen met een Xiaomi Redmi 10x, een Xiaomi Redmi K50, een OPPO Find x6, een Huawei Nova9, een Xiaomi 14 Ultra, een Honor 20, een Google Pixel 6a en een Huawei P60.

Om in overeenstemming te zijn met bestaande detectiemethoden, werden de tests geïmplementeerd in PyTorch. De primaire testresultaten worden weergegeven in de onderstaande tabel:

Resultaten voor SFake tegen concurrerende methoden.

Unite.AI

Detecting Video-conference Deepfakes Met Het ‘Vibrate’ Functie Van Een Smartphone

De Groeiende Behoefte Aan Video-gebaseerde Deepfake-detectie

Methode

Gegevens En Tests

You may like