stomp Deepfakes kunnen effectief veel belangrijke gezichts-'levendigheid'-API's voor de gek houden - Unite.AI
Verbind je met ons

Artificial Intelligence

Deepfakes kunnen veel belangrijke API's voor 'levendigheid' op het gezicht voor de gek houden

mm
Bijgewerkt on
Van DeepFace Live - Arnold Schwarzenegger 224 3.03 miljoen iteraties | RTX A6000 - https://www.youtube.com/watch?v=9tr35y-yQRY
Van 'DeepFace Live - Arnold Schwarzenegger 224 3.03M Iteraties | RTX A6000' - https://www.youtube.com/watch?v=9tr35y-yQRY

Een nieuwe onderzoekssamenwerking tussen de VS en China heeft de gevoeligheid voor deepfakes van enkele van de grootste op gezichten gebaseerde authenticatiesystemen ter wereld onderzocht en vastgesteld dat de meeste daarvan kwetsbaar zijn voor zich ontwikkelende en opkomende vormen van deepfake-aanvallen.

Het onderzoek voerde op deepfake gebaseerde inbraken uit met behulp van een aangepast raamwerk dat werd ingezet tegen Facial Liveness Verification (FLV) -systemen die gewoonlijk worden geleverd door grote leveranciers en als een service worden verkocht aan downstream-klanten zoals luchtvaartmaatschappijen en verzekeringsmaatschappijen.

Uit de paper een overzicht van de werking van Facial Liveness Verification (FLV) API's bij grote providers. Bron: https://arxiv.org/pdf/2202.10673.pdf

Uit de paper een overzicht van de werking van Facial Liveness Verification (FLV) API's bij grote providers. Bron: https://arxiv.org/pdf/2202.10673.pdf

Facial Liveness is bedoeld om het gebruik van technieken zoals vijandige imago-aanvallen, het gebruik van maskers en vooraf opgenomen video, de zogenaamde 'meester gezichten'en andere vormen van visuele ID klonen.

De studie concludeert dat het beperkte aantal deepfake-detectiemodules dat in deze systemen wordt ingezet, waarvan er vele miljoenen klanten bedienen, verre van onfeilbaar is en mogelijk is geconfigureerd op deepfake-technieken die nu achterhaald zijn, of mogelijk te architectuurspecifiek zijn. .

De auteurs merken op:

'[Verschillende] deepfake-methoden laten ook variaties zien tussen verschillende leveranciers... Zonder toegang tot de technische details van de beoogde FLV-leveranciers, speculeren we dat dergelijke variaties worden toegeschreven aan de verdedigingsmaatregelen die door verschillende leveranciers zijn ingezet. Bepaalde leveranciers kunnen bijvoorbeeld verdedigingen inzetten tegen specifieke deepfake-aanvallen.'

En doorgaan:

'[De meeste] FLV-API's gebruiken geen anti-deepfake-detectie; zelfs voor degenen met een dergelijke verdediging is hun effectiviteit zorgwekkend (het kan bijvoorbeeld gesynthetiseerde video's van hoge kwaliteit detecteren, maar geen video's van lage kwaliteit).'

De onderzoekers constateren daarbij dat 'authenticiteit' relatief is:

'[Zelfs] als een gesynthetiseerde video onwerkelijk is voor mensen, kan deze nog steeds het huidige anti-deepfake-detectiemechanisme omzeilen met een zeer hoog slagingspercentage.'

Hierboven voorbeelden van deepfake-afbeeldingen die konden worden geverifieerd in de experimenten van de auteurs. Hieronder, blijkbaar veel realistischere vervalste afbeeldingen die niet konden worden geverifieerd.

Hierboven voorbeelden van deepfake-afbeeldingen die konden worden geverifieerd in de experimenten van de auteurs. Hieronder, blijkbaar veel realistischere vervalste afbeeldingen die niet konden worden geverifieerd.

Een andere bevinding was dat de huidige configuratie van generieke gezichtsverificatiesystemen gericht is op blanke mannen. Vervolgens bleken vrouwelijke en niet-blanke identiteiten effectiever te zijn in het omzeilen van verificatiesystemen, waardoor klanten in die categorieën een groter risico liepen op inbreuk via op deepfake gebaseerde technieken.

Het rapport constateert dat blanke mannelijke identiteiten het meest rigoureus en nauwkeurig worden beoordeeld door de populaire API's voor het verifiëren van de levendigheid van het gezicht. In de bovenstaande tabel zien we dat vrouwelijke en niet-blanke identiteiten gemakkelijker kunnen worden gebruikt om de systemen te omzeilen.

Het rapport constateert dat blanke mannelijke identiteiten het meest rigoureus en nauwkeurig worden beoordeeld door de populaire API's voor het verifiëren van de levendigheid van het gezicht. In de bovenstaande tabel zien we dat vrouwelijke en niet-blanke identiteiten gemakkelijker kunnen worden gebruikt om de systemen te omzeilen.

De krant constateert dat 'er zijn vooroordelen in [Facial Liveness Verification], die aanzienlijke veiligheidsrisico's kunnen opleveren voor een bepaalde groep mensen.'

De auteurs voerden ook ethische gezichtsauthenticatie-aanvallen uit tegen een Chinese overheid, een grote Chinese luchtvaartmaatschappij, een van de grootste levensverzekeringsmaatschappijen in China, en R360, een van de grootste eenhoorn-investeringsgroepen ter wereld, en melden succes bij het omzeilen van het downstreamgebruik van deze organisaties van de bestudeerde API's.

In het geval van een succesvolle authenticatie-bypass voor de Chinese luchtvaartmaatschappij, vereiste de downstream-API dat de gebruiker 'het hoofd schudde' als bewijs tegen mogelijk deepfake-materiaal, maar dit bleek niet te werken tegen het door de onderzoekers bedachte raamwerk, dat zes deepfake architecturen.

Ondanks de evaluatie door de luchtvaartmaatschappij van het hoofdschudden van een gebruiker, kon deepfake-inhoud de test doorstaan.

Ondanks de evaluatie door de luchtvaartmaatschappij van het hoofdschudden van een gebruiker, kon deepfake-inhoud de test doorstaan.

De krant merkt op dat de auteurs contact hebben opgenomen met de betrokken leveranciers, die naar verluidt het werk hebben erkend.

De auteurs doen een reeks aanbevelingen voor verbeteringen in de huidige stand van de techniek in FLV, waaronder het afschaffen van single-image authenticatie ('Image-based FLV'), waarbij authenticatie is gebaseerd op een enkel frame uit de camerafeed van een klant; een flexibelere en uitgebreidere update van deepfake-detectiesystemen in beeld- en spraakdomeinen; de noodzaak opleggen dat op spraak gebaseerde authenticatie in gebruikersvideo wordt gesynchroniseerd met lipbewegingen (wat ze nu over het algemeen niet zijn); en van gebruikers eisen dat ze gebaren en bewegingen uitvoeren die momenteel moeilijk te reproduceren zijn door deepfake-systemen (bijvoorbeeld profielweergaven en gedeeltelijke vertroebeling van het gezicht).

De papier is getiteld Zien is leven? Een nieuwe kijk op de beveiliging van verificatie van gezichtslevendheid in het deepfake-tijdperk, en is afkomstig van de gezamenlijke hoofdauteurs Changjiang Li en Li Wang, en vijf andere auteurs van Pennsylvania State University, Zhejiang University en Shandong University.

De kerndoelen

De onderzoekers richtten zich op de 'zes meest representatieve' verkopers van Facial Liveness Verification (FLV), die in het onderzoek zijn geanonimiseerd met cryptoniemen.

De verkopers worden als volgt weergegeven: 'BD' en 'TC' een conglomeraatleverancier vertegenwoordigen met het grootste aantal gezichtsgerelateerde API-oproepen en het grootste aandeel van China's AI-cloudservices; 'HW' is 'een van de leveranciers met de grootste [Chinese] markt voor openbare cloud'; 'CW' heeft de snelste groei op het gebied van computervisie en verwerft een leidende marktpositie'; 'ST' is een van de grootste leveranciers van computervisie; En 'iFT' behoort tot de grootste leveranciers van AI-software in China.

Gegevens en architectuur

De onderliggende gegevens die het project aandrijven, omvatten een dataset van 625,537 afbeeldingen van het Chinese initiatief CelebA-spoof, samen met live video's van Michigan State University's 2019 SiW-M gegevensset.

Alle experimenten werden uitgevoerd op een server met dubbele 2.40 GHz Intel Xeon E5-2640 v4 CPU's die draaien op 256 GB RAM met een harde schijf van 4 TB, en vier georkestreerde 1080Ti NVIDIA GPU's, voor een totaal van 44 GB aan operationeel VRAM.

Zes in één

Het raamwerk dat door de auteurs van het artikel is bedacht, wordt genoemd LiveBugger, en bevat zes ultramoderne deepfake-frameworks die zich uitstrekken tegen de vier belangrijkste verdedigingen in FLV-systemen.

LiveBugger bevat verschillende deepfake-benaderingen en concentreert zich op de vier belangrijkste aanvalsvectoren in FLV-systemen.

LiveBugger bevat verschillende deepfake-benaderingen en concentreert zich op de vier belangrijkste aanvalsvectoren in FLV-systemen.

De zes gebruikte deepfake-frameworks zijn: Oxford University's 2018 X2Gezicht; de Amerikaanse academische samenwerking ICgezicht; twee varianten van het Israëlische project uit 2019 FSGAN; de Italiaan Methodemodel van de eerste orde (FOMM), vanaf begin 2020; en de Microsoft Research-samenwerking van Peking University FaceShifter (hoewel FaceShifter geen open source is, moesten de auteurs het reconstrueren op basis van de gepubliceerde architectuurdetails).

Methoden die bij deze frameworks werden gebruikt, waren onder meer het gebruik van vooraf gegenereerde video waarin de onderwerpen van de spoofvideo hoofdacties uitvoeren die zijn geëxtraheerd uit de API-authenticatievereisten in een eerdere evaluatiemodule van LiveBugger, en ook het gebruik van effectieve 'deepfake poppenspel'. ', dat de live bewegingen van een individu vertaalt in een deepfaked stream die is ingevoegd in een gecoöpteerde webcamstream.

Een voorbeeld van dat laatste is DeepFaceLive, welke debuteerde afgelopen zomer als een aanvullend programma bij het populaire DeepFaceLab, om real-time deepfake streaming mogelijk te maken, maar dat is niet opgenomen in het onderzoek van de auteurs.

De vier vectoren aanvallen

De vier aanvalsvectoren binnen een typisch FLV-systeem zijn: op afbeeldingen gebaseerde FLV, waarbij een enkele door de gebruiker verstrekte foto wordt gebruikt als authenticatietoken voor een gezichts-ID die in het systeem is geregistreerd; op stilte gebaseerde FLV, waarvoor de gebruiker een videoclip van zichzelf moet uploaden; op actie gebaseerde FLV, waarvoor de gebruiker acties moet uitvoeren die door het platform worden voorgeschreven; En op spraak gebaseerde FLV, die de gevraagde spraak van een gebruiker vergelijkt met de database-invoer van het systeem voor het spraakpatroon van die gebruiker.

De eerste uitdaging voor het systeem is het vaststellen van de mate waarin een API zijn vereisten zal onthullen, aangezien daarop kan worden geanticipeerd en kan worden ingespeeld in het deepfaking-proces. Dit wordt afgehandeld door de Intelligence Engine in LiveBugger, die informatie over vereisten verzamelt uit openbaar beschikbare API-documentatie en andere bronnen.

Aangezien de gepubliceerde vereisten mogelijk afwezig zijn (om verschillende redenen) in de feitelijke routines van de API, bevat de Intelligence Engine een sonde die impliciete informatie verzamelt op basis van de resultaten van verkennende API-aanroepen. In het onderzoeksproject werd dit mogelijk gemaakt door officiële offline 'test'-API's die werden aangeboden ten behoeve van ontwikkelaars, en ook door vrijwilligers die aanboden om hun eigen live-accounts te gebruiken om te testen.

De Intelligence Engine zoekt naar bewijs of een API momenteel een bepaalde benadering gebruikt die nuttig zou kunnen zijn bij aanvallen. Kenmerken van dit type kunnen zijn coherentie detectie, die controleert of de frames in een video tijdelijk continu zijn - een vereiste die kan worden vastgesteld door gecodeerde videoframes te verzenden en te observeren of dit bijdraagt ​​aan authenticatiefouten.

De module zoekt ook naar Lippentaal Detectie, waar de API kan controleren of het geluid in de video is gesynchroniseerd met de lipbewegingen van de gebruiker (zelden het geval – zie 'Resultaten' hieronder).

Resultaten

De auteurs ontdekten dat alle zes geëvalueerde API's geen coherentiedetectie gebruikten op het moment van de experimenten, waardoor de deepfaker-engine in LiveBugger eenvoudig gesynthetiseerde audio met deepfaked video kon samenvoegen, op basis van bijgedragen materiaal van vrijwilligers.

Sommige downstream-applicaties (dwz klanten van de API-frameworks) bleken echter coherentiedetectie aan het proces te hebben toegevoegd, waardoor het vooraf opnemen van een op maat gemaakte video noodzakelijk was om dit te omzeilen.

Bovendien gebruiken slechts enkele API-leveranciers liptaaldetectie; voor de meeste van hen worden de video en audio als afzonderlijke hoeveelheden geanalyseerd en is er geen functionaliteit die probeert de lipbeweging af te stemmen op de geleverde audio.

Diverse resultaten uit de reeks neptechnieken die beschikbaar zijn in LiveBugger tegen de gevarieerde reeks aanvalsvectoren in FLV API's. Hogere cijfers geven aan dat de aanvaller met succes authenticatie is binnengedrongen met behulp van deepfake-technieken. Niet alle API's bevatten alle mogelijke verdedigingen voor FLV; verschillende bieden bijvoorbeeld geen enkele bescherming tegen deepfakes, terwijl andere niet controleren of lipbeweging en audio overeenkomen in door gebruikers ingezonden video tijdens authenticatie.

Diverse resultaten uit de reeks neptechnieken die beschikbaar zijn in LiveBugger tegen de gevarieerde reeks aanvalsvectoren in FLV API's. Hogere cijfers duiden op een groter succespercentage bij het penetreren van FLV met behulp van deepfake-technieken. Niet alle API's bevatten alle mogelijke verdedigingen voor FLV; verschillende bieden bijvoorbeeld geen enkele bescherming tegen deepfakes, terwijl andere tijdens authenticatie niet controleren of lipbeweging en audio overeenkomen in door de gebruiker ingezonden video.

Conclusie

De resultaten van het artikel en indicaties voor de toekomst van FLV API's zijn labyrintisch, en de auteurs hebben ze samengevoegd tot een functionele 'architectuur van kwetsbaarheden' die FLV-ontwikkelaars zou kunnen helpen een aantal van de ontdekte problemen beter te begrijpen.”

Het netwerk van aanbevelingen van de krant met betrekking tot de bestaande en potentiële gevoeligheid van op gezichten gebaseerde video-identificatieroutines voor deepfake-aanvallen.

Het netwerk van aanbevelingen van de krant met betrekking tot de bestaande en potentiële gevoeligheid van op gezichten gebaseerde video-identificatieroutines voor deepfake-aanvallen.

De aanbevelingen noteren:

'De beveiligingsrisico's van FLV komen wijdverbreid voor in veel real-world applicaties en vormen zo een bedreiging voor de veiligheid van miljoenen eindgebruikers'

De auteurs merken ook op dat het gebruik van op actie gebaseerde FLV 'marginaal' is en dat het verhogen van het aantal acties dat gebruikers moeten uitvoeren 'geen veiligheidswinst kan opleveren'.

Verder merken de auteurs op dat het combineren van spraakherkenning en tijdelijke gezichtsherkenning (in video) een vruchteloze verdediging is, tenzij de API-providers beginnen te eisen dat lipbewegingen worden gesynchroniseerd met audio.

Het papier komt in het licht van een recente FBI-waarschuwing voor het bedrijfsleven van de gevaren van deepfake-fraude, bijna een jaar na hun voorteken van de technologie gebruik bij operaties met buitenlandse invloeden, En algemene angsten dat live deepfake-technologie een nieuwe misdaadgolf zal vergemakkelijken bij een publiek dat nog steeds vertrouwt op beveiligingsarchitecturen voor video-authenticatie.

Dit zijn nog de begindagen van deepfake als authenticatie-aanvalsoppervlak; in 2020 was $ 35 miljoen dollar op frauduleuze wijze geëxtraheerd van een bank in de VAE met behulp van deepfake-audiotechnologie, en een Britse directeur werd eveneens opgelicht om $ 243,000 uit te betalen in 2019.

 

Voor het eerst gepubliceerd op 23 februari 2022.