Kunstig intelligens

Deepfakes kan effektivt lure mange større ansikts-‘liveness’-APIer

Published February 23, 2022

Updated April 28, 2026

Martin Anderson

From DeepFace Live - Arnold Schwarzenegger 224 3.03M Iterations | RTX A6000 - https://www.youtube.com/watch?v=9tr35y-yQRY

Et nytt forskningssamarbeid mellom USA og Kina har undersøkt sårbarheten for deepfakes hos noen av de største ansiktsbaserte autentiseringssystemene i verden, og funnet ut at de fleste av dem er sårbare for utvikling og fremvoksende former for deepfake-angrep.

Forskningen gjennomførte deepfake-baserte innbrudd ved hjelp av et tilpasset rammeverk som ble deployert mot Facial Liveness Verification (FLV)-systemer som vanligvis leveres av større leverandører, og solgt som en tjeneste til nedstrømskunder som flyselskaper og forsikringsselskaper.

Fra papiret, en oversikt over funksjonen til Facial Liveness Verification (FLV) APIer hos større leverandører. Kilde: https://arxiv.org/pdf/2202.10673.pdf

Ansiktsliveness er ment å avvise bruk av teknikker som adversarial image attacks, bruk av masker og forhåndsinnspilt video, såkalte ‘master faces’, og andre former for visuell ID-kloning.

Studien konkluderer med at det begrensede antallet deepfake-oppdaggingsmoduler i disse systemene, mange av dem som betjener millioner av kunder, er langt ifra feilfrie, og kan ha blitt konfigurert for deepfake-teknikker som nå er foreldet, eller kan være for arkitektur-spesifik.

Forfatterne bemerker:

‘[Forskjellige] deepfake-metoder viser variasjoner over forskjellige leverandører…Uten tilgang til de tekniske detaljene til mål-FLV-leverandørene, spekulerer vi på at slike variasjoner skyldes forsvarstiltakene som er deployert av forskjellige leverandører. For eksempel kan visse leverandører deployere forsvar mot bestemte deepfake-angrep.’

Og fortsetter:

‘[De fleste] FLV-APIer bruker ikke anti-deepfake-oppdaging; selv for de som har slike forsvar, er effektiviteten bekymringsverdig (for eksempel kan den oppdage høykvalitets-syntetiserte videoer, men mislykkes i å oppdage lavkvalitets-videoer).’

Forskerne observerer, i denne sammenhengen, at ‘autentisitet’ er relativ:

‘[Selv] hvis en syntetisk video er ureal for mennesker, kan den likevel omgå den nåværende anti-deepfake-oppdaging-mekanismen med en svært høy suksessrate.’

Ovenfor, eksempler på deepfake-bilder som kunne autentisere i forfatternes eksperimenter. Nedenfor, åpenbart mye mer realistiske fekte bilder som mislyktes i å autentisere.

En annen funn var at den nåværende konfigurasjonen av generiske ansiktsverifiseringssystemer er skjev mot hvite menn. Deretter ble det funnet at kvinnelige og ikke-hvite identiteter var mer effektive i å omgå verifiseringssystemer, og satte kundene i disse kategoriene i større risiko for brudd via deepfake-baserte teknikker.

Rapporten finner at hvite mann-identiteter er mest rigorøst og nøyaktig vurdert av de populære ansiktsliveness-verifisering-APIene. I tabellen ovenfor ser vi at kvinnelige og ikke-hvite identiteter kan være mer lett å omgå systemene.

Papiret observerer at ‘det finnes biases i [Facial Liveness Verification], som kan bringe betydelige sikkerhetsrisiko til en bestemt gruppe mennesker.’

Forfatterne har også gjennomført etiske ansiktsautentisering-angrep mot en kinesisk regjering, et stort kinesisk flyselskap, ett av de største livsforsikringsselskapene i Kina, og R360, ett av de største enhjørning-investeringsselskapene i verden, og rapporterer suksess i å omgå disse organisasjonenes nedstrøms bruk av de studerte API-ene.

I tilfelle av en vellykket autentisering-omgåelse for det kinesiske flyselskapet, krevde den nedstrøms API at brukeren skulle ‘ryste på hodet’ som en bekreftelse mot potensiell deepfake-materiale, men dette viste seg ikke å fungere mot rammeverket som forskerne hadde utviklet, som inkorporerer seks deepfake-arkitekturer.

Til tross for flyselskapets vurdering av en brukers hode-rystelse, kunne deepfake-innhold omgå testen.

Papiret bemerker at forfatterne har kontaktet leverandørene involvert, som har rapportert å ha erkjent arbeidet.

Forfatterne tilbyr en rekke anbefalinger for forbedringer i den nåværende tilstanden av FLV, inkludert å forkaste enkelt-bildeautentisering (‘Image-based FLV’), hvor autentisering baseres på ett enkelt bilde fra en kundes kamerafeed; en mer fleksibel og omfattende oppdatering av deepfake-oppdagingssystemer over bildedomener; å påtvinge behovet for at stemme-basert autentisering i bruker-video skal være synkronisert med leppebevegelser (hvilket de ikke er nå, generelt); og å kreve at brukerne utfører gestus og bevegelser som er vanskelige for deepfake-systemer å gjenskape (for eksempel, profil-visninger og delvis skjuling av ansiktet).

Papiret papiret har tittelen Seeing is Living? Rethinking the Security of Facial Liveness Verification in the Deepfake Era, og kommer fra felles hovedforfattere Changjiang Li og Li Wang, og fem andre forfattere fra Pennsylvania State University, Zhejiang University og Shandong University.

De viktigste målene

Forskerne rettet seg mot de ‘seks mest representative’ Facial Liveness Verification (FLV)-leverandører, som har blitt anonymisert med kryptonymer i forskningen.

Leverandørene er representert slik: ‘BD’ og ‘TC’ representerer en konsern-leverandør med det største antallet ansikts-relaterte API-kall, og den største andelen av Kinas AI-tjenester; ‘HW’ er ‘en av leverandørene med den største [kinesiske] offentlige skytjenesten’; ‘CW’ har den raskeste veksten i datavisning, og oppnår en ledende markedsposisjon’; ‘ST’ er blant de største datavisnings-leverandørene; og ‘iFT’ teller blant de største AI-programvare-leverandørene i Kina.

Data og arkitektur

De underliggende dataene som driver prosjektet inkluderer en datasett på 625 537 bilder fra den kinesiske initiativet CelebA-Spoof, sammen med live-videoer fra Michigan State Universitys 2019 SiW-M-datasett.

Alle eksperimentene ble gjennomført på en server med dobbel 2,40 GHz Intel Xeon E5-2640 v4-prosessorer som kjører på 256 GB RAM med en 4TB HDD, og fire orkestrerte 1080Ti NVIDIA-GPUer, for en total på 44 GB operative VRAM.

Seks i én

Rammeverket som er utviklet av papirets forfattere, kalles LiveBugger, og inkorporerer seks state-of-the-art deepfake-rammeverk rettet mot de fire hovedforsvar i FLV-systemer.

LiveBugger inneholder diverse deepfake-tilnærminger, og sentrerer seg på de fire hovedangrepsvektorene i FLV-systemer.

De seks deepfake-rammeverkene som er brukt, er: Oxford Universitets 2018 X2Face; det amerikanske akademiske samarbeidet ICface; to varianter av det israelske prosjektet FSGAN fra 2019; det italienske First Order Method Model (FOMM) fra tidlig 2020; og Peking Universitets Microsoft Research-samarbeid FaceShifter (selv om FaceShifter ikke er åpen kilde, måtte forfatterne rekonstruere det basert på den publiserte arkitektur-detallet).

Metodene som er brukt blant disse rammeverkene, inkluderer bruk av forhåndsrendret video hvor subjektene i spoof-videoen utfører rutinehandlinger som er trukket ut fra API-autentiseringskravene i en tidligere evalueringmodul av LiveBugger, og også bruk av effektiv ‘deepfake-puppetry’, som oversetter live-bevegelser fra en person inn i en deepfaket strøm som er satt inn i en ko-optert webcam-strøm.

Et eksempel på det siste er DeepFaceLive, som debuterte sommeren 2021 som et tillegg til det populære DeepFaceLab, for å muliggjøre sanntids deepfake-strømming, men som ikke er inkludert i forfatternes forskning.

Angrep mot de fire vektorene

De fire angrepsvektorene i et typisk FLV-system er: bilde-basert FLV, som bruker ett enkelt bruker-tilbudt foto som en autentiseringstoken mot et ansikts-ID som er på rekord med systemet; stille-basert FLV, som krever at brukeren laster opp en video-klipp av seg selv; handling-basert FLV, som krever at brukeren utfører handlinger diktert av plattformen; og stemme-basert FLV, som matcher en brukers prompted tale mot systemets database-innlegg for den brukers tale-mønster.

Det første utfordringen for systemet er å etablere omfanget av hva en API vil avsløre sine krav, siden de kan bli forventet og tilpasset i deepfake-prosessen. Dette håndteres av Intelligence Engine i LiveBugger, som samler informasjon om krav fra offentlig tilgjengelige API-dokumentasjon og andre kilder.

Ettersom de publiserte kravene kan være fraværende (av forskjellige årsaker) fra API-ens faktiske rutiner, inkorporerer Intelligence Engine en sonde som samler implicit informasjon basert på resultater fra utforskende API-kall. I forskningsprosjektet ble dette fasilitert av offisielle offline ‘test’-APIer som er gitt for utvikleres skyld, og også av frivillige som tilbød å bruke sine egne live-kontoer for testing.

Intelligence Engine søker etter bevis på om en API for tiden bruker en bestemt tilnærming som kan være nyttig i angrep. Trekk av denne typen kan inkludere koherens-deteksjon, som sjekker om rammer i en video er temporelt kontinuerlige – et krav som kan etableres ved å sende forvirrede video-rammer og observere om dette bidrar til autentisering-feil.

Modulen søker også etter Lip Language Detection, hvor API-en kan sjekke om lyden i videoen er synkronisert til brukerens leppebevegelser (sjelden tilfelle – se ‘Resultater’ nedenfor).

Resultater

Forfatterne fant ut at alle seks evaluerte API-er ikke brukte koherens-deteksjon på tidspunktet for eksperimentene, og tillot deepfaker-motoren i LiveBugger å enkelt sy sammen syntetisert audio med deepfaket video, basert på bidrag fra frivillige.

Men noen nedstrøms-applikasjoner (dvs. kunder av API-rammeverkene) ble funnet å ha lagt til koherens-deteksjon i prosessen, og nødvendiggjorde forhåndsinnspilling av en video tilpasset å omgå dette.

I tillegg brukte bare noen av API-leverandørene lip language-deteksjon; for de fleste av dem ble videoen og audioen analysert som separate mengder, og det var ingen funksjonalitet som forsøkte å matche leppebevegelsen til den tilbudte audioen.

Forskjellige resultater som spenner over rekken av fake-teknikker tilgjengelig i LiveBugger mot den varierte rekken av angrepsvektorer i FLV-APIer. Høyere tall indikerer en høyere rate av suksess i å penetrere FLV ved hjelp av deepfake-teknikker. Ikke alle API-er inkluderer alle mulige forsvar for FLV; for eksempel inkluderer noen ikke noen forsvar mot deepfakes, mens andre ikke sjekker om leppebevegelse og audio matcher opp i bruker-tilbudt video under autentisering.

Konklusjon

Papirets resultater og indikasjoner for fremtiden av FLV-API-er er labyrintiske, og forfatterne har kombinerert dem i en fungerende ‘arkitektur av sårbarheter’ som kan hjelpe FLV-utviklere å bedre forstå noen av problemene som er avdekket.

Papirets nettverk av anbefalinger med hensyn til den eksisterende og potensielle sårbarheten av ansikts-basert video-identifikasjon-rutiner til deepfake-angrep.

Anbefalingene bemerker:

‘Sikkerhetsrisikoen for FLV eksisterer bredt i mange virkelige applikasjoner, og truer dermed sikkerheten til millioner av sluttbrukere’

Forfatterne observerer også at bruk av handling-basert FLV er ‘marginale’, og at å øke antallet handlinger som brukerne må utføre ‘kan ikke bringe noen sikkerhetsgevinst’.

Videre bemerker forfatterne at kombinasjon av stemme-gjenkjenning og temporell ansikts-gjenkjenning (i video) er et fruktløst forsvar, med mindre API-leverandørene begynner å kreve at leppebevegelser er synkronisert med audioen.

Papiret kommer i lys av en nylig FBI-advarsel til bedrifter om faren for deepfake-svindel, nesten ett år etter deres varsling om teknologiens bruk i utenlandske påvirkningsoperasjoner, og av generelle frykter at sanntids deepfake-teknologi vil muliggjøre en nytt krimbølge på en offentlighet som fortsatt stoler på video-autentisering-sikkerhetsarkitekturer.

Dette er fortsatt de tidlige dagene av deepfake som en autentisering-angrepsflate; i 2020 ble $35 millioner dollar svindlet fra en bank i UAE ved hjelp av deepfake-lydteknologi, og en britisk direktør ble likeledes svindlet til å disburse $243 000 i 2019.

Først publisert 23. februar 2022.