Verbind je met ons

Artificial Intelligence

Deepfakes kunnen veel belangrijke API's voor 'levendigheid' op het gezicht voor de gek houden

mm
Van DeepFace Live - Arnold Schwarzenegger 224 3.03 miljoen iteraties | RTX A6000 - https://www.youtube.com/watch?v=9tr35y-yQRY
Van 'DeepFace Live - Arnold Schwarzenegger 224 3.03M Iteraties | RTX A6000' - https://www.youtube.com/watch?v=9tr35y-yQRY

Een nieuwe onderzoekssamenwerking tussen de VS en China heeft de gevoeligheid voor deepfakes van enkele van de grootste op gezichten gebaseerde authenticatiesystemen ter wereld onderzocht en vastgesteld dat de meeste daarvan kwetsbaar zijn voor zich ontwikkelende en opkomende vormen van deepfake-aanvallen.

Het onderzoek voerde op deepfake gebaseerde inbraken uit met behulp van een aangepast raamwerk dat werd ingezet tegen Facial Liveness Verification (FLV) -systemen die gewoonlijk worden geleverd door grote leveranciers en als een service worden verkocht aan downstream-klanten zoals luchtvaartmaatschappijen en verzekeringsmaatschappijen.

Uit de paper een overzicht van de werking van Facial Liveness Verification (FLV) API's bij grote providers. Bron: https://arxiv.org/pdf/2202.10673.pdf

Uit de paper een overzicht van de werking van Facial Liveness Verification (FLV) API's bij grote providers. Bron: https://arxiv.org/pdf/2202.10673.pdf

Facial Liveness is bedoeld om het gebruik van technieken zoals vijandige imago-aanvallen, het gebruik van maskers en vooraf opgenomen video, de zogenaamde 'meestergezichten'en andere vormen van visuele ID klonen.

De studie concludeert dat het beperkte aantal deepfake-detectiemodules dat in deze systemen wordt ingezet, waarvan er vele miljoenen klanten bedienen, verre van onfeilbaar is en mogelijk is geconfigureerd op deepfake-technieken die nu achterhaald zijn, of mogelijk te architectuurspecifiek zijn. .

De auteurs merken op:

'[Verschillende] deepfake-methoden vertonen ook verschillen tussen verschillende leveranciers... Zonder toegang tot de technische details van de beoogde FLV-leveranciers, vermoeden we dat dergelijke verschillen te wijten zijn aan de verdedigingsmaatregelen die door verschillende leveranciers worden ingezet. Zo kunnen bepaalde leveranciers bijvoorbeeld verdedigingen inzetten tegen specifieke deepfake-aanvallen.'

En doorgaan:

'De [meeste] FLV API's maken geen gebruik van anti-deepfake-detectie. Zelfs voor API's die wel over een dergelijke verdediging beschikken, is de effectiviteit ervan zorgwekkend (zo detecteert de API bijvoorbeeld wel synthetische video's van hoge kwaliteit, maar niet van video's van lage kwaliteit).'

De onderzoekers merken in dit verband op dat 'authenticiteit' relatief is:

'[Zelfs] als een gesynthetiseerde video voor mensen onwerkelijk lijkt, kan deze nog steeds het huidige detectiemechanisme voor anti-deepfake omzeilen met een zeer hoog succespercentage.'

Hierboven voorbeelden van deepfake-afbeeldingen die konden worden geverifieerd in de experimenten van de auteurs. Hieronder, blijkbaar veel realistischere vervalste afbeeldingen die niet konden worden geverifieerd.

Hierboven ziet u voorbeelden van deepfake-afbeeldingen die in de experimenten van de auteurs konden worden geverifieerd. Hieronder ziet u ogenschijnlijk veel realistischere vervalste afbeeldingen die de verificatie niet konden doorstaan.

Een andere bevinding was dat de huidige configuratie van generieke gezichtsverificatiesystemen gericht is op blanke mannen. Vervolgens bleken vrouwelijke en niet-blanke identiteiten effectiever te zijn in het omzeilen van verificatiesystemen, waardoor klanten in die categorieën een groter risico liepen op inbreuk via op deepfake gebaseerde technieken.

Het rapport constateert dat blanke mannelijke identiteiten het meest rigoureus en nauwkeurig worden beoordeeld door de populaire API's voor het verifiëren van de levendigheid van het gezicht. In de bovenstaande tabel zien we dat vrouwelijke en niet-blanke identiteiten gemakkelijker kunnen worden gebruikt om de systemen te omzeilen.

Het rapport constateert dat blanke mannelijke identiteiten het meest rigoureus en nauwkeurig worden beoordeeld door de populaire API's voor het verifiëren van de levendigheid van het gezicht. In de bovenstaande tabel zien we dat vrouwelijke en niet-blanke identiteiten gemakkelijker kunnen worden gebruikt om de systemen te omzeilen.

De krant constateert dat 'er zijn vooroordelen bij [het verifiëren van de levendigheid van gezichten], die aanzienlijke veiligheidsrisico's voor een bepaalde groep mensen met zich mee kunnen brengen.'

De auteurs voerden ook ethische gezichtsauthenticatie-aanvallen uit tegen een Chinese overheid, een grote Chinese luchtvaartmaatschappij, een van de grootste levensverzekeringsmaatschappijen in China, en R360, een van de grootste unicorn-investeringsgroepen ter wereld, en melden succes bij het omzeilen van het downstreamgebruik van de bestudeerde API's door deze organisaties.

Bij de Chinese luchtvaartmaatschappij lukte het om de authenticatie te omzeilen. De downstream API vereiste dat de gebruiker 'zijn hoofd schudde' als bewijs tegen mogelijk deepfake-materiaal. Dit bleek echter niet te werken tegen het door de onderzoekers ontwikkelde raamwerk, dat zes deepfake-architecturen omvat.

Ondanks de evaluatie door de luchtvaartmaatschappij van het hoofdschudden van een gebruiker, kon deepfake-inhoud de test doorstaan.

Ondanks de evaluatie door de luchtvaartmaatschappij van het hoofdschudden van een gebruiker, slaagde deepfake-content er wel in.

De krant merkt op dat de auteurs contact hebben opgenomen met de betrokken leveranciers, die naar verluidt het werk hebben erkend.

De auteurs doen een reeks aanbevelingen voor verbeteringen in de huidige stand van zaken op het gebied van FLV, waaronder het afschaffen van authenticatie op basis van één afbeelding ('Image-based FLV'), waarbij authenticatie is gebaseerd op één frame van de camerafeed van een klant; een flexibelere en uitgebreidere update van systemen voor het detecteren van deepfakes op het gebied van afbeeldingen en spraak; het opleggen van de noodzaak dat spraakgebaseerde authenticatie in gebruikersvideo's wordt gesynchroniseerd met lipbewegingen (wat nu over het algemeen niet het geval is); en het vereisen dat gebruikers gebaren en bewegingen uitvoeren die momenteel moeilijk te reproduceren zijn voor deepfake-systemen (bijvoorbeeld profielweergaven en gedeeltelijke vertroebeling van het gezicht).

Ocuco's Medewerkers papier is getiteld Zien is leven? Een nieuwe kijk op de beveiliging van verificatie van gezichtslevendheid in het deepfake-tijdperk, en is afkomstig van de gezamenlijke hoofdauteurs Changjiang Li en Li Wang, en vijf andere auteurs van Pennsylvania State University, Zhejiang University en Shandong University.

De kerndoelen

De onderzoekers richtten zich op de 'zes meest representatieve' leveranciers van Facial Liveness Verification (FLV). Deze zijn in het onderzoek geanonimiseerd met behulp van cryptoniemen.

De verkopers worden als volgt weergegeven: 'BD' en 'TC' een conglomeraatleverancier vertegenwoordigen met het grootste aantal gezichtsgerelateerde API-aanroepen en het grootste aandeel in China's AI-clouddiensten; 'HW' is 'een van de leveranciers met de grootste [Chinese] publieke cloudmarkt'; 'CW' heeft de snelste groeicijfers in computer vision en verwerft een leidende marktpositie; 'ST' is een van de grootste leveranciers van computervisie; En 'iFT' behoort tot de grootste leveranciers van AI-software in China.

Gegevens en architectuur

De onderliggende gegevens die het project aandrijven, omvatten een dataset van 625,537 afbeeldingen van het Chinese initiatief CelebA-spoof, samen met live video's van de Michigan State University 2019 SiW-M gegevensset.

Alle experimenten werden uitgevoerd op een server met dubbele 2.40 GHz Intel Xeon E5-2640 v4 CPU's die draaien op 256 GB RAM met een harde schijf van 4 TB, en vier georkestreerde 1080Ti NVIDIA GPU's, voor een totaal van 44 GB aan operationeel VRAM.

Zes in één

Het raamwerk dat door de auteurs van het artikel is bedacht, heet LiveBugger, en bevat zes ultramoderne deepfake-frameworks die zich uitstrekken tegen de vier belangrijkste verdedigingen in FLV-systemen.

LiveBugger bevat verschillende deepfake-benaderingen en concentreert zich op de vier belangrijkste aanvalsvectoren in FLV-systemen.

LiveBugger bevat verschillende deepfake-benaderingen en concentreert zich op de vier belangrijkste aanvalsvectoren in FLV-systemen.

De zes gebruikte deepfake-frameworks zijn: Oxford University's 2018 X2Gezicht; de Amerikaanse academische samenwerking ICgezicht; twee varianten van het Israëlische project uit 2019 FSGAN; de Italiaan Methodemodel van de eerste orde (FOMM), vanaf begin 2020; en de samenwerking met Microsoft Research van de Universiteit van Peking FaceShifter (hoewel FaceShifter geen open source is, moesten de auteurs het reconstrueren op basis van de gepubliceerde architectuurdetails).

Methoden die binnen deze frameworks werden gebruikt, waren onder andere het gebruik van vooraf gerenderde video's waarin de onderwerpen van de nepvideo routinematige handelingen uitvoeren die zijn afgeleid uit de API-authenticatievereisten in een eerdere evaluatiemodule van LiveBugger, en ook het gebruik van effectief 'deepfake-poppenspel', dat de live-bewegingen van een individu vertaalt naar een deepfake-stream die is ingevoegd in een overgenomen webcamstream.

Een voorbeeld van dat laatste is DeepFaceLive, welke debuteerde afgelopen zomer als een aanvullend programma bij het populaire DeepFaceLab, om realtime deepfake-streaming mogelijk te maken, maar dit is niet opgenomen in het onderzoek van de auteurs.

De vier vectoren aanvallen

De vier aanvalsvectoren binnen een typisch FLV-systeem zijn: op afbeeldingen gebaseerde FLVwaarbij één enkele, door de gebruiker verstrekte foto wordt gebruikt als authenticatiemiddel tegen een gezichts-ID die in het systeem is geregistreerd; op stilte gebaseerde FLV, waarvoor de gebruiker een videoclip van zichzelf moet uploaden; op actie gebaseerde FLV, waarvoor de gebruiker acties moet uitvoeren die door het platform worden voorgeschreven; En op spraak gebaseerde FLV, die de spraakopdracht van een gebruiker vergelijkt met de database-invoer van het systeem voor het spraakpatroon van die gebruiker.

De eerste uitdaging voor het systeem is het vaststellen van de mate waarin een API zijn vereisten zal onthullen, aangezien daarop kan worden geanticipeerd en kan worden ingespeeld in het deepfaking-proces. Dit wordt afgehandeld door de Intelligence Engine in LiveBugger, die informatie over vereisten verzamelt uit openbaar beschikbare API-documentatie en andere bronnen.

Omdat de gepubliceerde vereisten (om verschillende redenen) mogelijk ontbreken in de daadwerkelijke routines van de API, bevat de Intelligence Engine een probe die impliciete informatie verzamelt op basis van de resultaten van verkennende API-aanroepen. In het onderzoeksproject werd dit mogelijk gemaakt door officiële offline 'test'-API's die ter beschikking werden gesteld aan ontwikkelaars, en door vrijwilligers die hun eigen live-accounts aanboden om te testen.

De Intelligence Engine zoekt naar bewijs of een API momenteel een bepaalde benadering gebruikt die nuttig zou kunnen zijn bij aanvallen. Kenmerken van dit type kunnen zijn coherentie detectie, die controleert of de frames in een video tijdelijk continu zijn - een vereiste die kan worden vastgesteld door gecodeerde videoframes te verzenden en te observeren of dit bijdraagt ​​aan authenticatiefouten.

De module zoekt ook naar Lippentaal Detectie, waar de API kan controleren of het geluid in de video is gesynchroniseerd met de lipbewegingen van de gebruiker (zelden het geval – zie 'Resultaten' hieronder).

Resultaten

De auteurs ontdekten dat alle zes geëvalueerde API's geen coherentiedetectie gebruikten op het moment van de experimenten, waardoor de deepfaker-engine in LiveBugger eenvoudig gesynthetiseerde audio met deepfaked video kon samenvoegen, op basis van bijgedragen materiaal van vrijwilligers.

Sommige downstream-applicaties (dwz klanten van de API-frameworks) bleken echter coherentiedetectie aan het proces te hebben toegevoegd, waardoor het vooraf opnemen van een op maat gemaakte video noodzakelijk was om dit te omzeilen.

Bovendien gebruiken slechts enkele API-leveranciers liptaaldetectie; voor de meeste van hen worden de video en audio als afzonderlijke hoeveelheden geanalyseerd en is er geen functionaliteit die probeert de lipbeweging af te stemmen op de geleverde audio.

Diverse resultaten uit de reeks neptechnieken die beschikbaar zijn in LiveBugger tegen de gevarieerde reeks aanvalsvectoren in FLV API's. Hogere cijfers geven aan dat de aanvaller met succes authenticatie is binnengedrongen met behulp van deepfake-technieken. Niet alle API's bevatten alle mogelijke verdedigingen voor FLV; verschillende bieden bijvoorbeeld geen enkele bescherming tegen deepfakes, terwijl andere niet controleren of lipbeweging en audio overeenkomen in door gebruikers ingezonden video tijdens authenticatie.

Diverse resultaten uit de reeks neptechnieken die beschikbaar zijn in LiveBugger tegen de gevarieerde reeks aanvalsvectoren in FLV API's. Hogere cijfers duiden op een groter succespercentage bij het penetreren van FLV met behulp van deepfake-technieken. Niet alle API's bevatten alle mogelijke verdedigingen voor FLV; verschillende bieden bijvoorbeeld geen enkele bescherming tegen deepfakes, terwijl andere tijdens authenticatie niet controleren of lipbeweging en audio overeenkomen in door de gebruiker ingezonden video.

Conclusie

De resultaten van het artikel en de aanwijzingen voor de toekomst van FLV API's zijn doolhofachtig, en de auteurs hebben ze samengevoegd tot een functionele 'architectuur van kwetsbaarheden' die FLV-ontwikkelaars kan helpen om een ​​aantal van de ontdekte problemen beter te begrijpen.

Het netwerk van aanbevelingen van de krant met betrekking tot de bestaande en potentiële gevoeligheid van op gezichten gebaseerde video-identificatieroutines voor deepfake-aanvallen.

Het rapport bevat een netwerk van aanbevelingen met betrekking tot de bestaande en potentiële kwetsbaarheid van gezichtsgebaseerde video-identificatieroutines voor deepfake-aanvallen.

De aanbevelingen noteren:

'De veiligheidsrisico's van FLV bestaan ​​in veel praktische toepassingen en vormen daarmee een bedreiging voor de veiligheid van miljoenen eindgebruikers'

De auteurs merken ook op dat het gebruik van actiegebaseerde FLV 'marginaal' is en dat het verhogen van het aantal acties dat gebruikers moeten uitvoeren 'geen enkele verbetering in de beveiliging kan opleveren'.

Verder merken de auteurs op dat het combineren van spraakherkenning en tijdelijke gezichtsherkenning (in video) een vruchteloze verdediging is, tenzij de API-providers beginnen te eisen dat lipbewegingen worden gesynchroniseerd met audio.

Het artikel komt in het licht van een recente waarschuwing van de FBI aan het bedrijfsleven over de gevaren van deepfake-fraude, bijna een jaar nadat ze het gebruik van de technologie bij buitenlandse beïnvloedingsoperaties hadden aangekondigd, en van algemene angsten dat live deepfake-technologie een nieuwe misdaadgolf zal vergemakkelijken bij een publiek dat nog steeds vertrouwt op beveiligingsarchitecturen voor video-authenticatie.

Dit zijn nog de begindagen van deepfake als authenticatie-aanvalsoppervlak; in 2020 was $ 35 miljoen dollar op frauduleuze wijze geëxtraheerd van een bank in de VAE met behulp van deepfake-audiotechnologie, en een Britse directeur werd eveneens opgelicht om $ 243,000 uit te betalen in 2019.

 

Voor het eerst gepubliceerd op 23 februari 2022.

Schrijver over machine learning, domeinspecialist in menselijke beeldsynthese. Voormalig hoofd van onderzoeksinhoud bij Metaphysic.ai.
Persoonlijke site: martinanderson.ai
Contact: [e-mail beveiligd]
Twitter: @manders_ai