Kunstig intelligens
Detektion af Deepfake Videoopkald gennem Monitorbelysning

Et nyt samarbejde mellem en forsker fra USA’s National Security Agency (NSA) og University of California at Berkeley tilbyder en ny metode til at detektere deepfake-indhold i en live video-kontekst – ved at observere effekten af monitorbelysning på udseendet af personen i den anden ende af videoopkaldet.

Popular DeepFaceLive-bruger Druuzil Tech & Games prøver sin egen Christian Bale DeepFaceLab-model i en live-session med sine følgere, mens lyskilderne ændrer sig. Kilde: https://www.youtube.com/watch?v=XPQLDnogLKA
Systemet virker ved at placere et grafisk element på brugerens skærm, der ændrer en smal række af sin farve hurtigere, end en typisk deepfake-system kan reagere – selv hvis det, som real-time deepfake-streaming-implementation DeepFaceLive (vist ovenfor), har nogen evne til at vedligeholde live farveoverførsel og kompensere for omgivelsesbelysning.
Den uniforme farvebillede, der vises på monitoreren hos personen i den anden ende (dvs. den potentielle deepfake-svindler), cyklere gennem en begrænset variation af farveændringer, der er designet til ikke at aktivere en webkameraets automatisk hvidbalance og andre ad hoc-belysningskompensationsystemer, som ville kompromittere metoden.

Fra artiklen, en illustration af ændring i belysningsforhold fra monitoreren foran en bruger, som effektivt fungerer som en diffus ‘area light’. Kilde: https://farid.berkeley.edu/downloads/publications/cvpr22a.pdf
Teorien bag tilgangen er, at live-deepfake-systemer ikke kan reagere i tide på de ændringer, der vises i skærmbilledet, hvilket øger ‘forsinkelsen’ af deepfake-effekten i visse dele af farvespektret, og afslører dets tilstedeværelse.
For at kunne måle den reflekterede monitorlys nøjagtigt, kræver systemet at kompensere for og derefter fravige effekten af generel miljøbelysning, der ikke er relateret til lys fra monitoreren. Derefter kan det skelne mellem mangler i målingen af den aktive belysning og den faciale farve af brugere, som repræsenterer en tidsmæssig forskud på 1-4 frames’ forskel mellem hver:

Ved at begrænse farvevariationerne i skærmbilledet ‘detektor’-grafikken og sikre, at brugerens webkamera ikke bliver promptet til at auto-justere sine indstillinger på grund af ændringer i niveauet af monitorbelysning, har forskerne kunnet skelne en karakteristisk forsinkelse i deepfake-systemets tilpasning til belysningsændringerne.
Artiklen slutter:
‘Fordi vi har en rimelig tillid til live-videoopkald, og den voksende udbredelse af videoopkald i vores personlige og professionelle liv, foreslår vi, at teknikker til at autentificere video (og lyd) opkald vil blive endnu vigtigere.’
Studiet er titlen Detecting Real-Time Deep-Fake Videos Using Active Illumination, og kommer fra Candice R. Gerstner, en anvendt forskningsmatematiker ved US Department of Defense, og professor Hany Farid fra Berkeley.
Erosion of Trust
Anti-deepfake-forsknings scenariet har ændret sig betydeligt i de sidste seks måneder, væk fra generel deepfake-detektion (dvs. målrettet forudindspillede videoer og pornografisk indhold) og mod ‘liveness’-detektion, som svar på en voksende bølge af tilfælde af deepfake-brug i video-konferenceopkald og til FBI’s nylige advarsel om den voksende brug af sådanne teknologier i ansøgninger om fjernarbejde.
Selv hvor et videoopkald ikke viser sig at være deepfaked, er de øgede muligheder for AI-drevne video-imitatorer begyndt at generere paranoia.
Den nye artikel siger:
‘Oprettelsen af real-time deep fakes [repræsenterer] unikke trusler på grund af den generelle fornemmelse af tillid omkring en live-video eller telefonopkald, og udfordringen ved at detektere deep fakes i realtid, mens opkaldet udvikler sig.’
Forskningsmiljøet har længe sat sig selv målet at finde ufejlbarlige tegn på deepfake-indhold, der ikke let kan kompenseres for. Selv om medierne typisk har karakteriseret dette som en teknologisk krig mellem sikkerhedsforskere og deepfake-udviklere, er de fleste afværgelser af tidlige tilgange (såsom øjenblinkanalyse, hovedstilling og adfærdsanalyse) sket, fordi udviklerne og brugerne forsøgte at gøre mere realistiske deepfakes generelt, snarere end specifikt at imødegå den seneste ‘tell’ identificeret af sikkerhedsfællesskabet.
Throwing Light on Live Deepfake Video
Detektion af deepfakes i live-video-miljøer indebærer byrden af at tage hensyn til dårlige video-forbindelser, som er meget almindelige i video-konference-scenarier. Selv uden en indgribende deepfake-lag, kan video-indhold være underlagt NASA-stil forsinkelse, rendering-artefakter og andre typer af forringelse i lyd og video. Disse kan tjene til at skjule de ru kanter i en live deepfaking-arkitektur, både i video og lyd-deepfakes.
Forfatternes nye system forbedrer resultaterne og metoderne, der er beskrevet i en 2020-udgivelse fra Center for Networked Computing ved Temple University i Philadelphia.

Fra 2020-artiklen kan vi observere ændringen i ‘in-filled’ ansigtsbelysning, når indholdet af brugerens skærm ændrer sig. Kilde: https://cis.temple.edu/~jiewu/research/publications/Publication_files/FakeFace__ICDCS_2020.pdf
Forskellen i det nye arbejde er, at det tager hensyn til, hvordan webkameraer reagerer på belysningsændringer. Forfatterne forklarer:
‘Fordi alle moderne webkameraer udfører auto-eksponering, er den type højintensiv aktiv belysning [brugt i det tidligere arbejde] sandsynligvis til at udløse kameraets auto-eksponering, som igen vil forvirre den optagede ansigtsudseende. For at undgå dette anvender vi en aktiv belysning bestående af en isoluminant ændring i farve.
‘Selv om dette undgår kameraets auto-eksponering, kunne det udløse kameraets hvidbalance, som igen ville forvirre den optagede ansigtsudseende. For at undgå dette opererer vi i en farveområde, som vi empirisk har fastlagt ikke udløser hvidbalance.’
Til dette initiativ overvejede forfatterne også lignende tidligere forsøg, såsom LiveScreen, som tvinger en usynlig lysmønster på slutbrugerens monitor i et forsøg på at afsløre deepfake-indhold.
Selv om dette system opnåede en nøjagtighed på 94,8%, konkluderer forskerne, at subtiliteten af lysmønstrene ville gøre en sådan skjult tilgang svær at implementere i lysende miljøer, og foreslår i stedet, at deres eget system, eller et system, der ligner det, kunne integreres offentligt og som standard i populære video-konference-software:
‘Vores foreslåede intervention kunne enten realiseres af en opkaldsdeltager, der blot deler sin skærm og viser det tidsmæssigt varierende mønster, eller, ideelt, kunne det integreres direkte i video-opkaldsklienten.’
Tests
Forfatterne anvendte en blanding af syntetiske og virkelige emner til at teste deres Dlib-drevne deepfake-detektor. Til det syntetiske scenario anvendte de Mitsuba, en fremad- og bagudvendt renderer fra det Schweiziske Teknisk Institut i Lausanne.

Eksempler fra det simulerede miljøtest, med varierende hudtone, lyskilde-størrelse, omgivelsesbelysningsintensitet og afstand til kamera.
Scenen viser en parametrisk CGI-hoved, der er fanget fra en virtuel kamera med en 90° synsvinkel. Hovederne har Lambertisk refleksion og neutralt hudtone, og er placeret 2 fod foran den virtuelle kamera.
For at teste rammeværket på tværs af en række mulige hudtoner og opsætninger, udførte forskerne en række tests, hvor de ændrede diverse aspekter sekventielt. Aspekterne, der ændredes, omfattede hudtone, afstand og belysningslys-størrelse.
Forfatterne kommenterer:
‘I simulation, med vores forskellige antagelser opfyldt, er vores foreslåede teknik meget robust over for en bred vifte af billedindstillinger.’
For det virkelige scenario anvendte forskerne 15 frivillige med en række af hudtoner, i diverse miljøer. Hver blev udsat for to cykler af den begrænsede farvevariation, under betingelser, hvor en 30Hz skærmopdateringshastighed var synkroniseret med webkameraet, hvilket betyder, at den aktive belysning kun ville vare i én sekund ad gangen. Resultaterne var bredt sammenlignelige med de syntetiske tests, selv om korrelationerne øgede betydeligt med større belysningsværdier.
Future Directions
Systemet, som forskerne indrømmer, tager ikke hensyn til typiske ansigts-ocklusioner, såsom pandehår, briller eller skæg. Men de bemærker, at maskering af denne type kan tilføjes til senere systemer (gennem mærkning og efterfølgende semantisk segmentering), som kunne trænes til at tage værdier eksklusivt fra opfattede hudområder i målpersonen.
Forfatterne foreslår også, at en lignende paradigme kunne anvendes til at detektere deepfakede lydopkald, og at den nødvendige lyd kunne afspilles i en frekvens uden for det normale menneskelige hørefelt.
Måske mest interessant er, at forskerne også foreslår, at udvidelsen af evalueringen ud over ansigtet i et rigere optagelsesrammeværk kunne betydeligt forbedre muligheden for deepfake-detektion*:
‘En mere avanceret 3-D estimation af belysning ville sandsynligvis give en rigere udseendemodel, som ville være endnu sværere for en forfalsker at omgå. Selv om vi kun fokuserede på ansigtet, belyster computer-skærmen også halsen, overkroppen og omgivelsesbaggrunden, hvorfra lignende målinger kunne udføres.
‘Disse yderligere målinger ville tvinge forfalskeren til at overveje hele den 3-D-scene, ikke kun ansigtet.’
* Min konvertering af forfatternes inline-citationer til hyperlinks.
Først udgivet 6. juli 2022.












