Connect with us

Detectie van Deepfake-videoconferenties via Beeldschermverlichting

Kunstmatige intelligentie

Detectie van Deepfake-videoconferenties via Beeldschermverlichting

mm

Een nieuwe samenwerking tussen een onderzoeker van de National Security Agency (NSA) van de Verenigde Staten en de University of California at Berkeley biedt een novate methode voor het detecteren van deepfake-inhoud in een live-videocontext – door het effect van beeldschermverlichting op het uiterlijk van de persoon aan de andere kant van de videoconferentie te observeren.

Populaire DeepFaceLive-gebruiker Druuzil Tech & Games probeert zijn eigen Christian Bale DeepFaceLab-model uit in een live-sessie met zijn volgers, terwijl lichtbronnen veranderen. Bron: https://www.youtube.com/watch?v=XPQLDnogLKA

Populaire DeepFaceLive-gebruiker Druuzil Tech & Games probeert zijn eigen Christian Bale DeepFaceLab-model uit in een live-sessie met zijn volgers, terwijl lichtbronnen veranderen. Bron: https://www.youtube.com/watch?v=XPQLDnogLKA

Het systeem werkt door een grafisch element op het scherm van de gebruiker te plaatsen dat een smalle range van zijn kleur sneller verandert dan een typisch deepfake-systeem kan reageren – zelfs als het, zoals de real-time deepfake-streamingimplementatie DeepFaceLive (hierboven afgebeeld), enige mogelijkheid heeft om live-kleuroverdracht te behouden en rekening te houden met omgevingslicht.

De uniforme kleurafbeelding die op het beeldscherm van de persoon aan de andere kant (d.w.z. de potentiële deepfake-fraudeur) wordt weergegeven, cyclust door een beperkte variatie van kleurveranderingen die zijn ontworpen om de automatische witbalans van een webcam en andere ad hoc-verlichtingscompensatiesystemen niet te activeren, wat de methode zou compromitteren.

Uit het paper, een illustratie van verandering in verlichtingsomstandigheden van het beeldscherm voor een gebruiker, dat effectief werkt als een diffuse 'area light'. Bron: https://farid.berkeley.edu/downloads/publications/cvpr22a.pdf

Uit het paper, een illustratie van verandering in verlichtingsomstandigheden van het beeldscherm voor een gebruiker, dat effectief werkt als een diffuse ‘area light’. Bron: https://farid.berkeley.edu/downloads/publications/cvpr22a.pdf

De theorie achter de aanpak is dat live deepfake-systemen niet snel genoeg kunnen reageren op de veranderingen die in de grafische weergave op het scherm worden weergegeven, waardoor de ‘lag’ van het deepfake-effect in bepaalde delen van het kleurespectrum toeneemt, waardoor het aanwezig is.

Om de gereflecteerde beeldschermverlichting nauwkeurig te meten, moet het systeem rekening houden met en vervolgens de invloed van algemene omgevingsverlichting die niet gerelateerd is aan licht van het beeldscherm, en kan het dan onderscheid maken tussen tekortkomingen in de meting van de actieve verlichtingskleur en de gezichtskleur van gebruikers, wat een tijdelijke verschuiving van 1-4 frames verschil tussen elk:

Door de kleurvariaties in de grafische 'detector'-weergave te beperken en ervoor te zorgen dat de webcam van de gebruiker niet wordt geprompt om zijn opname-instellingen automatisch aan te passen door een overmatige verandering in beeldschermverlichting, zijn de onderzoekers in staat geweest om een kenmerkende vertraging in de aanpassing van het deepfake-systeem aan de verlichtingsveranderingen te ontdekken.

Door de kleurvariaties in de grafische ‘detector’-weergave te beperken en ervoor te zorgen dat de webcam van de gebruiker niet wordt geprompt om zijn opname-instellingen automatisch aan te passen door een overmatige verandering in beeldschermverlichting, zijn de onderzoekers in staat geweest om een kenmerkende vertraging in de aanpassing van het deepfake-systeem aan de verlichtingsveranderingen te ontdekken.

Het paper concludeert:

‘Omdat we redelijkerwijs vertrouwen op live-videoconferenties en de groeiende alomtegenwoordigheid van videoconferenties in ons persoonlijke en professionele leven, stellen we voor dat technieken voor het valideren van video (en audio) conferenties alleen maar in belang zullen toenemen.’

De studie heeft als titel Detectie van real-time deepfake-video’s met behulp van actieve verlichting en komt van Candice R. Gerstner, een toegepast onderzoekswiskundige bij het Amerikaanse ministerie van Defensie, en professor Hany Farid van Berkeley.

Erosie van vertrouwen

Het anti-deepfake-onderzoeksgebied heeft de afgelopen zes maanden een opvallende verschuiving ondergaan, van algemene deepfake-detectie (d.w.z. gericht op vooraf opgenomen video’s en pornografische inhoud) naar ‘levendigheidsdetectie’, als reactie op een groeiende golf van incidenten met deepfake-gebruik in videoconferenties en op de recente waarschuwing van de FBI met betrekking tot het groeiende gebruik van dergelijke technologieën in aanvragen voor thuiswerken.

Zelfs als een videoconferentie niet blijkt te zijn gedeepfaked, beginnen de toegenomen mogelijkheden voor AI-gestuurde video-impersonators paranoia te genereren.

Het nieuwe paper zegt:

‘De creatie van real-time deepfakes [vormt] unieke bedreigingen vanwege het algemene gevoel van vertrouwen dat omgeeft een live-video- of telefoongesprek, en de uitdaging om deepfakes in real-time te detecteren, terwijl het gesprek plaatsvindt.’

De onderzoekscommunity heeft zichzelf het doel gesteld om onfeilbare tekenen van deepfake-inhoud te vinden die niet gemakkelijk kunnen worden gecompenseerd. Hoewel de media dit typisch heeft gekarakteriseerd in termen van een technologische oorlog tussen beveiligingsonderzoekers en deepfake-ontwikkelaars, zijn de meeste negaties van eerdere benaderingen (zoals oogknipperanalyse, hoofdpose-onderscheid en gedragsanalyse) simpelweg plaatsgevonden omdat de ontwikkelaars en gebruikers probeerden om realistischere deepfakes te maken in het algemeen, in plaats van specifiek te reageren op de laatste ‘teken’ geïdentificeerd door de beveiligingscommunity.

Licht werpen op live deepfake-video

Het detecteren van deepfakes in live-video-omgevingen draagt de last van het verdisconteren van slechte videoverbindingen, die zeer gewoon zijn in videoconferenties. Zelfs zonder een tussenliggende deepfake-laag kan video-inhoud onderhevig zijn aan NASA-stijl vertraging, weergave-artefacten en andere soorten degradatie in audio en video. Deze kunnen dienen om de ruwe randen in een live deepfaking-architectuur te verhullen, zowel in termen van video als audio-deepfakes.

De auteurs van het nieuwe systeem verbeteren de resultaten en methoden die worden gepresenteerd in een publicatie uit 2020 van het Center for Networked Computing van de Temple University in Philadelphia.

Uit het paper uit 2020, kunnen we de verandering in 'in-filled' gezichtsverlichting observeren terwijl de inhoud van het scherm van de gebruiker verandert. Bron: https://cis.temple.edu/~jiewu/research/publications/Publication_files/FakeFace__ICDCS_2020.pdf

Uit het paper uit 2020, kunnen we de verandering in ‘in-filled’ gezichtsverlichting observeren terwijl de inhoud van het scherm van de gebruiker verandert. Bron: https://cis.temple.edu/~jiewu/research/publications/Publication_files/FakeFace__ICDCS_2020.pdf

Het verschil in het nieuwe werk is dat het rekening houdt met de manier waarop webcams reageren op verlichtingsveranderingen. De auteurs leggen uit:

‘Omdat alle moderne webcams automatische belichting uitvoeren, is de soort hoge intensiteit actieve verlichting [gebruikt in het vorige werk] waarschijnlijk om de camera’s automatische belichting te activeren, wat op zijn beurt de geregistreerde gezichtsweergave verstoort. Om dit te vermijden, gebruiken we een actieve verlichting bestaande uit een isoluminante verandering in kleur.

‘Terwijl dit de camera’s automatische belichting vermeidt, kan het de camera’s witbalans activeren, wat opnieuw de geregistreerde gezichtsweergave verstoort. Om dit te vermijden, werken we in een kleurrange die we empirisch hebben vastgesteld en die de witbalans niet activeert.’

Voor dit initiatief hebben de auteurs ook soortgelijke eerdere inspanningen overwogen, zoals LiveScreen, die een onopvallend verlichtingspatroon op het beeldscherm van de eindgebruiker forceert in een poging om deepfake-inhoud te onthullen.

Hoewel dat systeem een nauwkeurigheid van 94,8% behaalde, concluderen de onderzoekers dat de subtiliteit van de lichtpatronen het moeilijk zou maken om een dergelijke clandestiene benadering te implementeren in fel verlichte omgevingen, en stellen ze voor dat hun eigen systeem, of een systeem dat op soortgelijke wijze is gemodelleerd, openbaar en standaard in populaire videoconferencing-software kan worden geïntegreerd:

‘Onze voorgestelde interventie kan worden gerealiseerd door een deelnemer aan een gesprek die eenvoudigweg zijn scherm deelt en het tijdelijk variërende patroon weergeeft, of, ideaal, kan het rechtstreeks in de videoconferencing-client worden geïntegreerd.’

Tests

De auteurs gebruikten een mengsel van synthetische en werkelijke onderwerpen om hun Dlib-geactiveerde deepfake-detector te testen. Voor het synthetische scenario gebruikten ze Mitsuba, een forward en inverse renderer van de Zwitserse Federale Technische Hochschule in Lausanne.

Voorbeelden uit de gesimuleerde dataset, met variërende huidskleur, lichtbron grootte, omgevingslichtintensiteit en afstand tot de camera.

Voorbeelden uit de gesimuleerde omgevingstests, met variërende huidskleur, lichtbron grootte, omgevingslichtintensiteit en afstand tot de camera.

De scène toont een parametrische CGI-hoofd dat is vastgelegd door een virtuele camera met een 90° gezichtsveld. De hoofden hebben Lambertiaanse reflectie en neutrale huidtinten, en zijn geplaatst op 2 voet voor de virtuele camera.

Om het kader over een reeks mogelijke huidtinten en instellingen te testen, voerden de onderzoekers een reeks tests uit, waarbij diverse facetten opeenvolgend werden gewijzigd. De aspecten die werden gewijzigd, omvatten huidskleur, afstand en verlichtingslichtgrootte.

De auteurs merken op:

‘In simulatie, met onze verschillende aannamen vervuld, is onze voorgestelde techniek zeer robuust voor een breed scala aan beeldvormingsconfiguraties.’

Voor het werkelijke scenario gebruikten de onderzoekers 15 vrijwilligers met een reeks huidtinten, in diverse omgevingen. Elk werd onderworpen aan twee cycli van de beperkte kleurvariatie, onder omstandigheden waarin een 30Hz-beeldscherminstellichtsynchronisatie met de webcam werd gesynchroniseerd, wat betekent dat de actieve verlichting slechts één seconde zou duren. De resultaten waren breed vergelijkbaar met de synthetische tests, hoewel de correlaties aanzienlijk toenamen met grotere verlichtingswaarden.

Toekomstige richtingen

Het systeem, zo geven de onderzoekers toe, houdt geen rekening met typische gezichtsbedekkingen, zoals pony’s, brillen of baard. Echter, ze merken op dat een dergelijke maskering kan worden toegevoegd aan latere systemen (door labeling en vervolgens semantische segmentatie), die kunnen worden getraind om waarden exclusief te nemen vanuit waargenomen huidgebieden in het doelwit.
De auteurs suggereren ook dat een soortgelijk paradigma kan worden gebruikt om deepfake-audioconferenties te detecteren, en dat het noodzakelijke geluid kan worden afgespeeld in een frequentie buiten het normale menselijke gehoorbereik.

Misschien wel het meest interessant is dat de onderzoekers ook suggereren dat het uitbreiden van de evaluatiegebied buiten het gezicht in een rijker capture-kader aanzienlijk de mogelijkheid van deepfake-detectie kan verbeteren*:

‘Een meer geavanceerde 3-D schatting van verlichting zou waarschijnlijk een rijker verschijningsmodel bieden dat nog moeilijker voor een vervalser zou zijn om te omzeilen. Terwijl we ons alleen op het gezicht richtten, verlicht het computerscherm ook de hals, bovenlichaam en omliggende achtergrond, waaruit soortgelijke metingen kunnen worden gedaan.

‘Deze aanvullende metingen zouden de vervalser dwingen om de hele 3-D-scène te overwegen, niet alleen het gezicht.’

 

* Mijn conversie van de inline-citaten van de auteurs naar hyperlinks.

Eerst gepubliceerd op 6 juli 2022.

Schrijver over machine learning, domeinspecialist in menselijke beeldsynthese. Voormalig hoofd onderzoekscontent bij Metaphysic.ai.