Connect with us

Kunstig intelligens

Deteksjon av Deepfake Videoopptak gjennom Monitorbelysning

mm

Et nytt samarbeid mellom en forsker fra USAs National Security Agency (NSA) og University of California i Berkeley tilbyr en ny metode for å detektere deepfake-innhold i en live video-kontekst – ved å observere effekten av monitorbelysning på utseendet til personen på den andre enden av videoopptaket.

Popular DeepFaceLive-bruker Druuzil Tech & Games prøver ut sin egen Christian Bale DeepFaceLab-modell i en live-sesjon med følgere, mens lyskilder endres. Kilde: https://www.youtube.com/watch?v=XPQLDnogLKA

Popular DeepFaceLive-bruker Druuzil Tech & Games prøver ut sin egen Christian Bale DeepFaceLab-modell i en live-sesjon med følgere, mens lyskilder endres. Kilde: https://www.youtube.com/watch?v=XPQLDnogLKA

Systemet fungerer ved å plassere et grafisk element på brukerens skjerm som endrer en smal rekke av farger raskere enn et typisk deepfake-system kan respondere – selv om det, som realtids deepfake-strømming implementering DeepFaceLive (avbildet ovenfor), har noen evne til å opprettholde live fargeoverføring og kompensere for omgivelsesbelysning.

Det uniforme fargebildet som vises på monitor-en til personen på den andre enden (dvs. den potensielle deepfake-svindleren) sykler gjennom en begrenset variasjon av hue-endringer som er designet for ikke å aktivere en webkamera automatisk hvitbalanse og andre ad hoc-belysningskompensasjonssystemer, som ville kompromittere metoden.

Fra papiret, en illustrasjon av endring i belysningsforhold fra monitor-en foran en bruker, som effektivt fungerer som en diffus 'area light'. Kilde: https://farid.berkeley.edu/downloads/publications/cvpr22a.pdf

Fra papiret, en illustrasjon av endring i belysningsforhold fra monitor-en foran en bruker, som effektivt fungerer som en diffus ‘area light’. Kilde: https://farid.berkeley.edu/downloads/publications/cvpr22a.pdf

Teorien bak tilnærmingen er at live deepfake-systemer ikke kan respondere i tide til endringene avbildet i skjermgrafikken, øker ‘forsinkelsen’ av deepfake-effekten i visse deler av fargespekteret, og avslører deres tilstedeværelse.

For å kunne måle den reflekterte monitor-lysen nøyaktig, må systemet ta hensyn til og deretter diskontere effekten av generell miljøbelysning som ikke er relatert til lys fra monitor-en. Det er deretter i stand til å skille mellom mangler i målingen av aktiv-belysningens hue og den ansiktslige hue hos brukerne, som representerer en tidsforskyvning på 1-4 rammeforskjell mellom hver:

Ved å begrense hue-variasjonene i skjermgrafikken, og sikre at brukerens webkamera ikke utløser auto-justering av innstillinger på grunn av overflødig endring i monitorbelysning, har forskerne kunnet påvise en karakteristisk forsinkelse i deepfake-systemets tilpasning til belysningsendringene.

Ved å begrense hue-variasjonene i skjermgrafikken, og sikre at brukerens webkamera ikke utløser auto-justering av innstillinger på grunn av overflødig endring i nivåer av monitorbelysning, har forskerne kunnet påvise en karakteristisk forsinkelse i deepfake-systemets tilpasning til belysningsendringene.

Papiret konkluderer:

‘Fordi vi stoler rimelig på live video-opptak, og den økende ubenyttelsen av video-opptak i våre personlige og profesjonelle liv, foreslår vi at teknikker for å autentisere video (og lyd) opptak vil bare øke i betydning.’

Studien studien heter Detecting Real-Time Deep-Fake Videos Using Active Illumination, og kommer fra Candice R. Gerstner, en anvendt forskningsmatematiker ved USAs forsvar, og professor Hany Farid ved Berkeley.

Erosjon av tillit

Anti-deepfake-forskningsfeltet har svingt betydelig de siste seks månedene, bort fra generell deepfake-deteksjon (dvs. målrettede forhåndsinnspilte videoer og pornografisk innhold) og mot ‘liveness’-deteksjon, som en reaksjon på en voksende bølge av hendelser med deepfake-bruk i video-konferansesamtaler, og til FBIs nylige advarsel om den økende bruken av slike teknologier i søknader om fjernarbeid.

Selv der en video-samtale ikke viser seg å ha blitt deepfaket, begynner de økte mulighetene for AI-drevne video-imitatorer å skape paranoia.

Den nye studien sier:

‘Skapingen av realtids deep fakes [utgjør] unike trusler på grunn av den generelle følelsen av tillit omkring en live video eller telefon-samtale, og utfordringen med å detektere deep fakes i sanntid, mens samtalen utvikler seg.’

Forskningsmiljøet har lenge satt seg målet å finne ufeilbarlige tegn på deepfake-innhold som ikke lett kan kompenseres for. Selv om media vanligvis har karakterisert dette som en teknologisk krig mellom sikkerhetsforskere og deepfake-utviklere, har de fleste negasjonene av tidlige tilnærminger (slik som øye-blink-analyse, hode-holdnings-skjønn og atferds-analyse) skjedd bare fordi utviklerne og brukerne prøvde å lage mer realistiske deepfakes generelt, snarere enn å spesifikt adresse den siste ‘tell’ identifisert av sikkerhetsmiljøet.

Kast lys over live Deepfake Video

Deteksjon av deepfakes i live video-miljøer bærer byrden av å ta hensyn til dårlige video-tilkoblinger, som er svært vanlige i video-konferansescenarier. Selv uten en intervenende deepfake-lag, kan video-innhold være underlagt NASA-liknende forsinkelse, rendering-arter, og andre typer degradering i audio og video. Disse kan tjene til å skjule de ruvende kantene i en live deepfaking-arkitektur, både i video og audio deepfakes.

Forfatternes nye system forbedrer resultater og metoder som presenteres i en 2020-publikasjon fra Center for Networked Computing ved Temple University i Philadelphia.

Fra 2020-papiret, kan vi observere endringen i 'in-filled' ansiktsbelysning når innholdet på brukerens skjerm endres. Kilde: https://cis.temple.edu/~jiewu/research/publications/Publication_files/FakeFace__ICDCS_2020.pdf

Fra 2020-papiret, kan vi observere endringen i ‘in-filled’ ansiktsbelysning når innholdet på brukerens skjerm endres. Kilde: https://cis.temple.edu/~jiewu/research/publications/Publication_files/FakeFace__ICDCS_2020.pdf

Forskjellen i det nye arbeidet er at det tar hensyn til måten webkameraer responderer på lysendringer. Forfatterne forklarer:

‘Fordi alle moderne webkameraer utfører auto-eksponering, er typen høyintensiv aktiv belysning [brukt i tidligere arbeid] sannsynligvis å utløse kameraets auto-eksponering, som igjen vil forvirre det registrerte ansiktsutseendet. For å unngå dette, bruker vi en aktiv belysning bestående av en isoluminant endring i hue.

‘Selv om dette unngår kameraets auto-eksponering, kunne det utløse kameraets hvitbalansering, som igjen ville forvirre det registrerte ansiktsutseendet. For å unngå dette, opererer vi i en hue-rekke som vi empirisk har bestemt ikke utløser hvitbalansering.’

For dette initiativet vurderte forfatterne også lignende tidligere forsøk, som LiveScreen, som tvinger en uoppmerksom lysmønster på sluttbasisens monitor i et forsøk på å avsløre deepfake-innhold.

Selv om dette systemet oppnådde en nøyaktighetsrate på 94,8%, konkluderer forskerne med at subtiliteten av lysmønstrene ville gjøre en slik skjult tilnærming vanskelig å implementere i sterkt belyste miljøer, og foreslår i stedet at deres eget system, eller et system som ligner på lignende måter, kunne innføres offentlig og som standard i populær video-konferansesoftware:

‘Vår foreslåtte inngripen kunne enten realiseres av en samtale-deltager som enkelt deler skjermen og viser det tidsvarierte mønsteret, eller, ideelt, kunne det integreres direkte i video-klienten.’

Tester

Forfatterne brukte en blanding av syntetiske og virkelige subjekter for å teste deres Dlib-drevne deepfake-detektor. For det syntetiske scenariet brukte de Mitsuba, en fremover- og bakover-renderer fra det sveitsiske føderale teknologi-instituttet i Lausanne.

Eksempler fra det simuleringsdatsettet, med varierende hudtone, lyskilde-størrelse, omgivelsesbelysning-intensitet og nærhet til kamera.

Eksempler fra det simuleringsdatsettet, med varierende hudtone, lyskilde-størrelse, omgivelsesbelysning-intensitet og nærhet til kamera.

Scenen avbildet inkluderer et parametrisk CGI-hode fanget fra en virtuell kamera med en 90° synsfelt. Hodene har Lambertisk refleksjon og nøytrale hudtoner, og er plassert 2 fot foran den virtuelle kameraet.

For å teste rammeverket over en rekke mulige hudtoner og oppsett, kjørte forskerne en rekke tester, og varierte diverse aspekter sekvensielt. Aspektene som ble endret inkluderte hudtone, nærhet og belysningslys-størrelse.

Forfatterne kommenterer:

‘I simulering, med våre forskjellige antakelser oppfylt, er vår foreslåtte teknikk svært robust til en bred rekke av bildekonfigurasjoner.’

For det virkelige scenariet brukte forskerne 15 frivillige med en rekke hudtoner, i diverse miljøer. Hver ble utsatt for to sykluser av den begrensede hue-variasjonen, under betingelser der en 30Hz skjermoppdateringshastighet var synkronisert med webkameraet, noe som betød at den aktive belysningen bare ville vare i én sekund om gangen. Resultatene var bredt sammenlignbare med de syntetiske testene, selv om korrelasjonene økte betydelig med større belysningsverdier.

Fremtidige retninger

Systemet, som forskerne innrømmer, tar ikke hensyn til typiske ansikts-occlusjoner, som panneben, briller eller fjes. Likevel bemerker de at slik masking kan legges til i senere systemer (gjennom labeling og påfølgende semantisk segmentering), som kunne trenes til å ta verdier eksklusivt fra oppfattede hudområder i målobjektet.

Forfatterne foreslår også at en lignende paradigme kunne bli brukt til å detektere deepfakede lydopptak, og at detekteringslyden nødvendig kunne spilles i en frekvens utenfor det normale menneskelige hørselsområdet.

Kanskje mest interessant er at forskerne også foreslår at utvidelse av evalueringen utover ansiktet i et rikere fangst-rammeverk kunne betydelig forbedre muligheten for deepfake-deteksjon*:

‘En mer sofistikert 3-D estimering av belysning ville sannsynligvis gi en rikere utseendemodell som ville være enda mer vanskelig for en forfalsker å omgå. Mens vi kun fokuserte på ansiktet, belyser skjermen også halsen, overkroppen og omgivelsesbakgrunnen, fra hvilken lignende målinger kunne gjøres.

‘Disse ekstra målingene ville tvinge forfalskeren til å vurdere hele 3-D-scenen, ikke bare ansiktet.’

 

* Min konvertering av forfatternes inline-citater til hyperlenker.

Først publisert 6. juli 2022.

Forfatter på maskinlæring, domeneekspert på menneskesynthese. Tidligere leder for forskningsinnhold på Metaphysic.ai.