Connect with us

UpptÀcka Deepfake-videoutsikt genom monitorbelysning

Artificiell intelligens

UpptÀcka Deepfake-videoutsikt genom monitorbelysning

mm

Ett nytt samarbete mellan en forskare från USA:s nationella säkerhetsbyrå (NSA) och University of California i Berkeley erbjuder en ny metod för att upptäcka deepfake-innehåll i en live-videokontext – genom att observera effekten av monitorbelysning på utseendet hos personen i andra änden av videoutsikten.

Popular DeepFaceLive-användare Druuzil Tech & Games testar sin egen Christian Bale DeepFaceLab-modell i en livesession med sina följare, medan ljuskällor ändras. Källa: https://www.youtube.com/watch?v=XPQLDnogLKA

Popular DeepFaceLive-användare Druuzil Tech & Games testar sin egen Christian Bale DeepFaceLab-modell i en livesession med sina följare, medan ljuskällor ändras. Källa: https://www.youtube.com/watch?v=XPQLDnogLKA

Systemet fungerar genom att placera ett grafiskt element på användarens skärm som ändrar en smal färgområde snabbare än ett typiskt deepfake-system kan svara – även om det, som realtids-deepfake-strömningsexekvering DeepFaceLive (avbildad ovan), har viss förmåga att upprätthålla livefärgöverföring och kompensera för omgivande belysning.

Den enhetliga färgbilden som visas på monitorn hos personen i andra änden (dvs. den potentiella deepfake-bedragaren) cyklar genom en begränsad variation av färgförändringar som är utformade för att inte aktivera en webbkamera automatisk vitbalans och andra ad hoc-belysningskompenseringssystem, som skulle kompromettera metoden.

FrÄn artikeln, en illustration av förÀndring i belysningsförhÄllanden frÄn monitorn framför en anvÀndare, som i princip fungerar som en diffus 'area light'. KÀlla: https://farid.berkeley.edu/downloads/publications/cvpr22a.pdf

Från artikeln, en illustration av förändring i belysningsförhållanden från monitorn framför en användare, som i princip fungerar som en diffus ‘area light’. Källa: https://farid.berkeley.edu/downloads/publications/cvpr22a.pdf

Teorin bakom tillvägagångssättet är att live-deepfake-system inte kan svara i tid till de förändringar som avbildas i skärmbilden, vilket ökar ‘fördröjningen’ av deepfake-effekten i vissa delar av färgspektrumet, vilket avslöjar dess närvaro.

För att kunna mäta den reflekterade monitorljuset noggrant behöver systemet ta hänsyn till och sedan diskontera effekten av allmän miljöbelysning som inte är relaterad till ljus från monitorn. Det kan sedan skilja på brister i mätningen av den aktiva belysningens färg och den ansiktsfärg som användarna har, vilket representerar en tidsförskjutning på 1-4 bildrutor mellan varje:

Genom att begrÀnsa fÀrgvariationerna i skÀrmbilden och sÀkerstÀlla att anvÀndarens webbkamera inte.promptas att autojustera sina instÀllningar pÄ grund av förÀndringar i monitorbelysning, har forskarna kunnat urskilja en avslöjande fördröjning i deepfake-systemets anpassning till belysningsförÀndringarna.

Genom att begränsa färgvariationerna i skärmbilden och säkerställa att användarens webbkamera inte.promptas att autojustera sina inställningar på grund av förändringar i nivåer av monitorbelysning, har forskarna kunnat urskilja en avslöjande fördröjning i deepfake-systemets anpassning till belysningsförändringarna.

Artikeln sluts:

‘På grund av det rimliga förtroende vi har för live-videoutsikt och den växande allmänheten för videoutsikt i våra personliga och professionella liv, föreslår vi att tekniker för att autentisera video (och ljud) kommer att öka i betydelse.’

Studien är titel Upptäcka Real-Time Deep-Fake-videor med Active Belysning, och kommer från Candice R. Gerstner, en tillämpad forskningsmatematiker vid USA:s försvarsdepartement, och professor Hany Farid vid Berkeley.

Erosion av Förtroende

Den anti-deepfake-forskningsarenan har förändrats betydligt under de senaste sex månaderna, från allmän deepfake-identifiering (dvs. inriktad på förinspelade videor och pornografiskt innehåll) till ‘liveness’-identifiering, som svar på en växande våg av incidenter med deepfake-användning i videokonferenssamtal och till FBI:s nyliga varning om den växande användningen av sådana teknologier i ansökningar för distansarbete.

Även om ett videoutsikt inte visar sig vara deepfake, börjar de ökade möjligheterna för AI-drivna video-imitatorer att generera paranoia.

Den nya artikeln påstår:

‘Skapandet av realtids-deepfakes [utgör] unika hot på grund av det allmänna förtroendet för en live-video eller telefonsamtal, och utmaningen att upptäcka deepfakes i realtid, medan samtalet pågår.’

Forskningsgemenskapen har länge haft som mål att hitta ofelbara tecken på deepfake-innehåll som inte kan kompenseras för lätt. Även om media vanligtvis har karakteriserat detta som en teknologisk krig mellan säkerhetsforskare och deepfake-utvecklare, har de flesta av de tidigare tillvägagångssätten (såsom ögonblinkanalys, huvudpose-discernment och beteendeanalys) inträffat enbart för att utvecklarna och användarna försökte skapa mer realistiska deepfakes i allmänhet, snarare än att specifikt bemöta den senaste ‘berättelsen’ identifierad av säkerhetsgemenskapen.

Kasta Ljus på Live Deepfake Video

Att upptäcka deepfakes i live-videomiljöer bär bördan av att ta hänsyn till dåliga videoförbindelser, som är mycket vanliga i videokonferensscenarier. Även utan en ingripande deepfake-lager kan videoinnehåll vara föremål för NASA-liknande fördröjning, renderingartefakter och andra typer av försämring av ljud och video. Dessa kan tjäna till att dölja de grova kanterna i en live-deepfaking-arkitektur, både i termer av video och ljud-deepfakes.

Författarnas nya system förbättrar resultaten och metoderna som presenteras i en 2020-publication från Center for Networked Computing vid Temple University i Philadelphia.

FrÄn 2020-artikeln, kan vi observera förÀndringen i 'in-filled' ansiktsbelysning nÀr innehÄllet i anvÀndarens skÀrm Àndras. KÀlla: https://cis.temple.edu/~jiewu/research/publications/Publication_files/FakeFace__ICDCS_2020.pdf

Från 2020-artikeln, kan vi observera förändringen i ‘in-filled’ ansiktsbelysning när innehållet i användarens skärm ändras. Källa: https://cis.temple.edu/~jiewu/research/publications/Publication_files/FakeFace__ICDCS_2020.pdf

Skillnaden i det nya arbetet är att det tar hänsyn till hur webbkameror svarar på belysningsförändringar. Författarna förklarar:

‘Eftersom alla moderna webbkameror utför autoexponering, är den typ av högintensiv aktiv belysning [använd i det tidigare arbetet] sannolikt att utlösa kamerans autoexponering, vilket i sin tur kommer att förväxla den inspelade ansiktsutseendet. För att undvika detta, använder vi en aktiv belysning som består av en isoluminant förändring av färg.

‘Medan detta undviker kamerans autoexponering, kan det utlösa kamerans vitbalansering, vilket igen kommer att förväxla den inspelade ansiktsutseendet. För att undvika detta, opererar vi inom en färgområde som vi empiriskt har bestämt inte utlöser vitbalansering.’

För detta initiativ övervägde författarna också liknande tidigare företag, såsom LiveScreen, som tvingar en oansenlig belysningsmönster på slutanvändarens monitor i ett försök att avslöja deepfake-innehåll.

Även om det systemet uppnådde en 94,8-procentig noggrannhetsgrad, drar forskarna slutsatsen att subtiliteten hos ljusmönstren skulle göra en sådan dold tillvägagångssätt svår att implementera i väl upplysta miljöer, och föreslår istället att deras eget system, eller ett system som följer liknande linjer, kunde införlivas offentligt och som standard i populära videokonferensprogram:

‘Vår föreslagna ingrepp kunde antingen förverkligas av en deltagare i samtalet som enkelt delar sin skärm och visar den tidsvariabla mönster, eller, idealiskt, kunde det direkt integreras i videoklienten.’

Tester

Författarna använde en blandning av syntetiska och verkliga ämnen för att testa sin Dlib-driven deepfake-detektor. För det syntetiska scenariot använde de Mitsuba, en framåt och invers renderare från det schweiziska federala tekniska universitetet i Lausanne.

Exempel frÄn den simulerade datamÀngden, med varierande hudton, ljuskÀllstorlek, omgivande ljusintensitet och avstÄnd till kamera.

Exempel från den simulerade miljötesten, med varierande hudton, ljuskällstorlek, omgivande ljusintensitet och avstånd till kamera.

Scenen som avbildas innehåller ett parametriskt CGI-huvud som fångas från en virtuell kamera med en 90° synfält. Huvudena har Lambertisk reflektion och neutrala hudtoner, och är placerade 2 fot framför den virtuella kameran.

För att testa ramverket över ett brett spektrum av möjliga hudtoner och konfigurationer, körde forskarna en serie tester, varierande olika aspekter sekventiellt. Aspekterna som ändrades inkluderade hudton, avstånd och belysningsljusstorlek.

Författarna kommenterar:

‘I simulation, med våra olika antaganden uppfyllda, är vår föreslagna teknik högt robust mot en bred variation av avbildningskonfigurationer.’

För det verkliga scenariot använde forskarna 15 frivilliga med en variation av hudtoner, i olika miljöer. Var och en utsattes för två cykler av den begränsade färgvariationen, under förhållanden där en 30Hz-skärmuppdateringsfrekvens synkroniserades med webbkameran, vilket innebar att den aktiva belysningen endast skulle vara aktiv i en sekund åt gången. Resultaten var i allmänhet jämförbara med de syntetiska testerna, även om korrelationerna ökade betydligt med ökande belysningsvärden.

Framtida Riktningar

Systemet, som forskarna medger, tar inte hänsyn till typiska ansiktsdöljningar, såsom bangs, glasögon eller skägg. Men de noterar att maskering av detta slag kan läggas till i senare system (genom märkning och efterföljande semantisk segmentering), som kunde tränas för att ta värden uteslutande från uppfattade hudområden i målsubjektet.

Författarna föreslår också att en liknande paradigm kunde användas för att upptäcka deepfake-ljudsamtal, och att det upptäckta ljudet som behövs kunde spelas i en frekvens utanför den normala mänskliga hörselområdet.

Kanske mest intressant är att forskarna också föreslår att utvidgningen av utvärderingsområdet bortom ansiktet i ett rikare ramverk kunde betydligt förbättra möjligheten till deepfake-upptäckt*:

‘En mer avancerad 3-D estimering av belysning skulle troligen ge en rikare utseendemodell som skulle vara ännu svårare för en förfalskare att kringgå. Medan vi fokuserade endast på ansiktet, belyser datorskärmen också halsen, överkroppen och omgivande bakgrund, från vilken liknande mätningar kunde göras.

‘Dessa ytterligare mätningar skulle tvinga förfalskaren att överväga hela 3-D-scenen, inte bara ansiktet.’

 

* Min omvandling av författarnas inline-citat till hyperlänkar.

Publicerad första gången 6 juli 2022.

Författare pÄ maskinlÀrande, domÀnspecialist inom mÀnsklig bildsyntes. Före detta chef för forskningsinnehÄll pÄ Metaphysic.ai.