Kunstmatige intelligentie
Deepfakes kunnen veel grote gezichts-‘levendigheids’-API’s effectief voor de gek houden

Een nieuwe onderzoeks samenwerking tussen de VS en China heeft de vatbaarheid van enkele van de grootste op gezicht gebaseerde authenticatiesystemen ter wereld onderzocht voor deepfakes, en ontdekte dat de meeste ervan kwetsbaar zijn voor ontwikkelende en opkomende vormen van deepfake-aanvallen.
Het onderzoek voerde deepfake-gebaseerde inbraken uit met een aangepast kader dat werd ingezet tegen Facial Liveness Verification (FLV)-systemen die algemeen worden geleverd door grote leveranciers, en verkocht worden als een service aan downstreamklanten zoals luchtvaartmaatschappijen en verzekeringsmaatschappijen.

Uit het artikel, een overzicht van de werking van Facial Liveness Verification (FLV) API’s bij grote aanbieders. Bron: https://arxiv.org/pdf/2202.10673.pdf
Facial Liveness is bedoeld om het gebruik van technieken zoals adversarial image attacks, het gebruik van maskers en vooraf opgenomen video, zogenaamde ‘master faces’, en andere vormen van visuele ID-kloon tegen te gaan.
Het onderzoek concludeert dat het beperkte aantal deepfake-detectiemodules die in deze systemen worden ingezet, waarvan veel miljoenen klanten bedienen, verre van onfeilbaar zijn, en mogelijk zijn geconfigureerd op deepfake-technieken die nu verouderd zijn, of te architectuurspecifiek kunnen zijn.
De auteurs merken op:
‘[Verschillende] deepfake-methoden laten ook variaties zien bij verschillende leveranciers…Zonder toegang tot de technische details van de doel-FLV-leveranciers, speculeren we dat dergelijke variaties worden toegeschreven aan de verdedigingsmaatregelen die door verschillende leveranciers worden ingezet. Bijvoorbeeld kunnen bepaalde leveranciers verdedigingen tegen specifieke deepfake-aanvallen inzetten.’
En vervolgen:
‘[Meest] FLV-API’s gebruiken geen anti-deepfake-detectie; zelfs voor die met dergelijke verdedigingen, is hun effectiviteit zorgwekkend (bijv. kan het hoge kwaliteit gesynthesiseerde video’s detecteren, maar faalt het bij het detecteren van lage kwaliteit video’s).’
De onderzoekers merken op dat ‘authenticiteit’ relatief is:
‘[Zelfs] als een gesynthesiseerde video onwerkelijk is voor mensen, kan het nog steeds de huidige anti-deepfake-detectiemechanisme met een zeer hoge succesrate omzeilen.’

Boven, voorbeelden van deepfake-afbeeldingen die in de experimenten van de auteurs konden authenticeren. Onder, ogenschijnlijk veel realistischere vervalste afbeeldingen die authenticatie mislukten.
Een andere bevinding was dat de huidige configuratie van generische gezichtsverificatiesystemen zijn gebiaseerd naar witte mannen. Vervolgens werden vrouwelijke en niet-blanke identiteiten gevonden die effectiever waren in het omzeilen van verificatiesystemen, waardoor klanten in die categorieën een groter risico lopen op een inbraak via deepfake-gebaseerde technieken.

Het rapport vindt dat witte mannelijke identiteiten het meest grondig en nauwkeurig worden beoordeeld door de populaire Facial Liveness Verification API’s. In de tabel hierboven zien we dat vrouwelijke en niet-blanke identiteiten gemakkelijker kunnen worden gebruikt om de systemen te omzeilen.
Het artikel merkt op dat ‘er biases in [Facial Liveness Verification] zijn, die aanzienlijke beveiligingsrisico’s kunnen veroorzaken voor een bepaalde groep mensen.’
De auteurs voerden ook ethische gezichtsauthenticatie-aanvallen uit tegen een Chinese regering, een grote Chinese luchtvaartmaatschappij, een van de grootste levensverzekeringsmaatschappijen in China, en R360, een van de grootste eenhoorn-investeerdersgroepen ter wereld, en melden succes bij het omzeilen van de downstream-gebruik van de onderzochte API’s.

In het geval van een succesvolle authenticatie-omzeiling voor de Chinese luchtvaartmaatschappij, vereiste de downstream-API dat de gebruiker zijn hoofd ‘schudde’ als bewijs tegen potentieel deepfake-materiaal, maar dit bleek niet te werken tegen het door de onderzoekers ontwikkelde kader, dat zes deepfake-architecturen omvat.

Ondanks de evaluatie van de luchtvaartmaatschappij van de hoofdbeweging van de gebruiker, kon deepfake-inhoud de test doorstaan.
Het artikel merkt op dat de auteurs contact hebben opgenomen met de betrokken leveranciers, die naar verluidt het werk hebben erkend.
De auteurs bieden een reeks aanbevelingen voor verbeteringen in de huidige stand van zaken in FLV, waaronder het opgeven van single-image-authenticatie (‘Image-based FLV’), waarbij authenticatie is gebaseerd op een enkele frame uit de camerafeed van een klant; een meer flexibele en uitgebreide update van deepfake-detectiesystemen in beeld- en spraakdomeinen; het opleggen van de noodzaak dat spraakgebaseerde authenticatie in gebruikersvideo synchroon loopt met lipbewegingen (wat nu over het algemeen niet het geval is); en het vereisen dat gebruikers gebaren en bewegingen uitvoeren die momenteel moeilijk zijn voor deepfake-systemen om te reproduceren (bijvoorbeeld profielweergaven en gedeeltelijke verhulling van het gezicht).
Het artikel heeft als titel Seeing is Living? Rethinking the Security of Facial Liveness Verification in the Deepfake Era, en komt van de joint lead authors Changjiang Li en Li Wang, en vijf andere auteurs van Pennsylvania State University, Zhejiang University, en Shandong University.
De Core Targets
De onderzoekers richtten zich op de ‘zes meest representatieve’ Facial Liveness Verification (FLV)-leveranciers, die zijn geanonimiseerd met cryptoniemen in het onderzoek.
De leveranciers worden als volgt weergegeven: ‘BD’ en ‘TC’ vertegenwoordigen een conglomeratieleverancier met het grootste aantal face-gerelateerde API-aanroepen, en de grootste aandeel in China’s AI-cloudservices; ‘HW’ is ‘een van de leveranciers met de grootste [Chinese] openbare cloudmarkt’; ‘CW’ heeft de snelste groeisnelheid in computerzicht, en bereikt een leidende marktpositie’; ‘ST’ is een van de grootste computerzichtleveranciers; en ‘iFT’ behoort tot de grootste AI-softwareleveranciers in China.
Data en Architectuur
De onderliggende gegevens die het project aandrijven, omvatten een dataset van 625.537 afbeeldingen uit de Chinese initiatief CelebA-Spoof, samen met live-video’s uit de Michigan State University’s 2019 SiW-M dataset.
Alle experimenten werden uitgevoerd op een server met twin 2,40 GHz Intel Xeon E5-2640 v4 CPU’s die draaien op 256 GB RAM met een 4TB HDD, en vier georkestreerde 1080Ti NVIDIA GPU’s, voor een totaal van 44 GB operationeel VRAM.
Zes in één
Het kader dat door de auteurs van het artikel is ontwikkeld, heet LiveBugger, en omvat zes state-of-the-art deepfake-kaders die zijn gericht tegen de vier belangrijkste verdedigingen in FLV-systemen.

LiveBugger bevat diverse deepfake-benaderingen en richt zich op de vier belangrijkste aanvalsvector in FLV-systemen.
De zes deepfake-kaders die worden gebruikt, zijn: Oxford University’s 2018 X2Face; de Amerikaanse academische samenwerking ICface; twee variaties van het Israëlische project uit 2019 FSGAN; het Italiaanse First Order Method Model (FOMM), uit begin 2020; en Peking University’s Microsoft Research-samenwerking FaceShifter (hoewel FaceShifter niet open source is, moesten de auteurs het op basis van de gepubliceerde architectuurdetails reconstrueren).
Methoden die onder deze kaders worden gebruikt, omvatten het gebruik van vooraf gerenderde video waarin de onderwerpen van de vervalsing video’s rote acties uitvoeren die zijn geëxtraheerd uit de API-authenticatievereisten in een eerdere evaluatiemodule van LiveBugger, en ook het gebruik van effectieve ‘deepfake-poppenkast’, die de live-bewegingen van een individu vertaalt in een deepfake-stroom die is geïntegreerd in een gecoöpteerde webcamstroom.
Een voorbeeld hiervan is DeepFaceLive, die vorige zomer debuteerde als een adjunctprogramma voor het populaire DeepFaceLab, om real-time deepfake-streaming mogelijk te maken, maar die niet is opgenomen in het onderzoek van de auteurs.
Attacking the Four Vectors
De vier aanvalsvector in een typisch FLV-systeem zijn: image-based FLV, die een enkele gebruikersfoto gebruikt als authenticatietoken tegen een gezichts-ID die is geregistreerd in het systeem; silence-based FLV, die vereist dat de gebruiker een videoclip van zichzelf uploadt; action-based FLV, die vereist dat de gebruiker acties uitvoert die zijn voorgeschreven door het platform; en voice-based FLV, die de gesproken stem van de gebruiker afstemt op de systeemdatabase voor de gebruikersspraakpatroon.
De eerste uitdaging voor het systeem is het vaststellen van de mate waarin een API zijn vereisten zal onthullen, aangezien deze dan kunnen worden voorzien en aangepast in het deepfake-proces. Dit wordt afgehandeld door de Intelligence Engine in LiveBugger, die informatie verzamelt over vereisten uit openbaar beschikbare API-documentatie en andere bronnen.
Aangezien de gepubliceerde vereisten afwezig kunnen zijn (om verschillende redenen) in de API-routines, omvat de Intelligence Engine een sonde die impliciete informatie verzamelt op basis van de resultaten van exploratoire API-aanroepen. In het onderzoeksproject werd dit gefaciliteerd door officiële offline ‘test’-API’s die voor ontwikkelaars beschikbaar zijn, en ook door vrijwilligers die hun eigen live-accounts aanboden voor testen.
De Intelligence Engine zoekt naar bewijs met betrekking tot of een API momenteel een bepaalde benadering gebruikt die nuttig kan zijn in aanvallen. Kenmerken van deze soort kunnen coherentedetectie omvatten, die controleert of de frames in een video tijdelijk continu zijn – een vereiste die kan worden vastgesteld door verwarde videoframes te verzenden en te observeren of dit bijdraagt aan authenticatiefouten.
De module zoekt ook naar Lip Language Detection, waar de API kan controleren of het geluid in de video synchroon is met de lipbewegingen van de gebruiker (zelden het geval – zie ‘Resultaten’ hieronder).
Resultaten
De auteurs ontdekten dat alle zes geëvalueerde API’s geen coherentiedetectie gebruikten op het moment van de experimenten, waardoor de deepfaker-engine in LiveBugger eenvoudig gesynthesiseerde audio kon combineren met deepfaked video, op basis van materiaal van vrijwilligers.
Echter, sommige downstream-toepassingen (d.w.z. klanten van de API-kaders) werden gevonden om coherentiedetectie toe te voegen aan het proces, waardoor de vooraf opgenomen video moest worden aangepast om dit te omzeilen.
Bovendien gebruikten slechts enkele van de API-leveranciers lip language detection; voor de meeste van hen worden de video en audio geanalyseerd als afzonderlijke hoeveelheden, en is er geen functionaliteit die probeert de lipbeweging te matchen met de verstrekte audio.

Uiteenlopende resultaten die de reeks van valse technieken in LiveBugger tegen de gevarieerde reeks aanvalsvector in FLV-API’s bestrijken. Hogere nummers geven aan dat de aanvaller met succes de authenticatie heeft doorbroken met deepfake-technieken. Niet alle API’s omvatten alle mogelijke verdedigingen voor FLV; bijvoorbeeld, enkele bieden geen verdediging tegen deepfakes, terwijl anderen geen controle uitvoeren of lipbeweging en audio overeenkomen in gebruikersvideo tijdens authenticatie.
Conclusie
De resultaten en indicaties van het artikel voor de toekomst van FLV-API’s zijn labyrinthine, en de auteurs hebben deze samengevoegd in een functionele ‘architectuur van kwetsbaarheden’ die FLV-ontwikkelaars kan helpen enkele van de problemen die zijn ontdekt beter te begrijpen

Het netwerk van aanbevelingen van het artikel met betrekking tot de bestaande en potentiële kwetsbaarheid van op gezicht gebaseerde video-identificatieroutines voor deepfake-aanvallen.
De aanbevelingen merken op:
‘De beveiligingsrisico’s van FLV bestaan op grote schaal in veel echte toepassingen en bedreigen daardoor de beveiliging van miljoenen eindgebruikers’
De auteurs merken ook op dat het gebruik van action-based FLV ‘marginaal’ is, en dat het verhogen van het aantal acties dat gebruikers moeten uitvoeren ‘geen enkele beveiligingswinst kan opleveren’.
Verder merken de auteurs op dat het combineren van spraakherkenning en tijdelijke gezichtsherkenning (in video) een vruchteloze verdediging is, tenzij de API-leveranciers beginnen te eisen dat lipbewegingen synchroon lopen met audio.
Het artikel verschijnt in het licht van een recente FBI-waarschuwing aan bedrijven over de gevaren van deepfake-fraude, bijna een jaar na hun voorspelling van het gebruik van de technologie in buitenlandse invloedsoperaties, en van algemene angsten dat live deepfake-technologie een nieuwe crimewave kan faciliteren tegen een publiek dat nog steeds vertrouwt op video-authenticatiebeveiligingsarchitecturen.
Dit zijn nog steeds de vroege dagen van deepfake als een authenticatie-aanvalsoppervlak; in 2020 werd $35 miljoen dollar frauduleus onttrokken aan een bank in de VAE met behulp van deepfake-audiotechnologie, en een Britse directeur werd eveneens opgelicht tot het uitbetalen van $243.000 in 2019.
Origineel gepubliceerd op 23 februari 2022.












