Umělá inteligence

Detekce Deepfake videohovorů prostřednictvím osvětlení monitoru

Published July 6, 2022

Updated April 28, 2026

Martin Anderson

Nová spolupráce mezi výzkumníkem z Národní bezpečnostní agentury (NSA) Spojených států a University of California v Berkeley nabízí novou metodu pro detekci deepfake obsahu v živém video kontextu – pozorováním efektu osvětlení monitoru na vzhled osoby na druhém konci videohovoru.

Popularní uživatel DeepFaceLive Druuzil Tech & Games vyzkouší svůj vlastní model Christiana Balea DeepFaceLab v živé relaci se svými粉丝y, zatímco se mění zdroje světla. Source: https://www.youtube.com/watch?v=XPQLDnogLKA

Systém funguje tak, že na uživatelskou obrazovku umístí grafický prvek, který mění úzký rozsah své barvy rychleji, než je schopno reagovat typické deepfake systémy – dokonce i když, jako je tomu u reálného deepfake streamování implementace DeepFaceLive (zobrazeno výše), má some schopnost udržet živou barevnou transfer a kompenzaci ambientního osvětlení.

Jednotná barevná obrazovka zobrazená na monitoru osoby na druhém konci (tj. potenciálního deepfake podvodníka) prochází omezenou variací barevných změn, které jsou navrženy tak, aby neaktivovaly automatickou bílou rovnováhu webové kamery a další ad hoc osvětlovací kompenzační systémy, které by ohrozily metodu.

Z dokumentu, ilustrace změny osvětlení z monitoru před uživatelem, který účinně funguje jako difuzní ‘area light’. Source: https://farid.berkeley.edu/downloads/publications/cvpr22a.pdf

Teorie za tímto přístupem je, že živé deepfake systémy nemohou reagovat včas na změny zobrazené v grafickém prvku, což zvyšuje ‘lag’ deepfake efektu v určitých částech barevného spektra, odhalující jeho přítomnost.

Aby bylo možné přesně měřit odražené osvětlení monitoru, systém potřebuje zohlednit a poté odečíst efekt obecného environmentálního osvětlení, které není související se světlem z monitoru. Pak je schopen rozlišit nedostatky v měření aktivního osvětlení a barev obličeje uživatelů, reprezentující časový posun 1-4 snímků mezi nimi:

Omezující barevné variace v grafickém ‘detektoru’ a zajišťující, že webová kamera uživatele není podněcena k automatickému přizpůsobení svých nastavení kvůli nadměrné změně osvětlení monitoru, výzkumníci byli schopni rozlišit zřetelný ‘lag’ v deepfake systému při přizpůsobení se změnám osvětlení.

Dokument končí:

‘Protože máme rozumnou důvěru v živé videohovory a rostoucí všudypřítomnost videohovorů v našich osobních a profesních životech, navrhujeme, že techniky pro autentizaci video (a audio) hovorů budou pouze růst v důležitosti.’

Studie je nazvána Detecting Real-Time Deep-Fake Videos Using Active Illumination a pochází od Candice R. Gerstner, aplikovaného výzkumného matematika na ministerstvu obrany USA, a profesora Hany Farida z Berkeley.

Eroze důvěry

Anti-deepfake výzkumná scéna se v posledních šesti měsících významně posunula od obecné detekce deepfake (tj. zaměřené na předem nahraná videa a pornografický obsah) směrem k detekci ‘živosti’, jako reakce na rostoucí vlnu incidentů deepfake použití ve video konferenčních hovorech a na nedávné varování FBI týkající se rostoucího používání těchto technologií v aplikacích pro vzdálenou práci.

I když videohovor neproběhne jako deepfake, rostoucí příležitosti pro AI-driven video impostory začínají generovat paranoiu.

Nový dokument uvádí:

‘Vytvoření reálných deep fakes [klade] jedinečné hrozby kvůli obecnému pocitu důvěry surrounding živé video nebo telefonní hovor, a výzvu detekovat deep fakes v reálném čase, zatímco hovor probíhá.’

Výzkumná komunita si již dlouho stanovila cíl najít nezvratné známky deepfake obsahu, které nelze snadno kompenzovat. Ačkoli média typicky charakterizují tento cíl jako technologickou válku mezi bezpečnostními výzkumníky a deepfake vývojáři, většina negací raných přístupů (jako analýza mrknutí očí, rozlišení polohy hlavy a analýza chování) nastala jednoduše proto, že vývojáři a uživatelé se snažili vytvořit více realistických deepfakes obecně, spíše než specificky řešit poslední ‘tell’ identifikovaný bezpečnostní komunitou.

Vhodnění světla na živé Deepfake video

Detekce deepfakes v živém video prostředí nese břemeno zohlednění špatných video připojení, které jsou velmi časté ve video konferenčních scénářích. I bez zásahu deepfake vrstvy může video obsah podléhat NASA-stylu lag, renderovacím artefaktům a jiným typům degradace audio a video. Tyto mohou sloužit k ukrytí hrubých hran deepfake architektury, både ve video a audio deepfakes.

Autoři nového systému vylepšili výsledky a metody, které jsou součástí publikace z roku 2020 z Centra pro síťové výpočty na Temple University v Philadelphii.

Z dokumentu z roku 2020, můžeme pozorovat změnu ‘in-filled’ obličejového osvětlení, zatímco se mění obsah uživatelské obrazovky. Source: https://cis.temple.edu/~jiewu/research/publications/Publication_files/FakeFace__ICDCS_2020.pdf

Rozdíl v novém díle spočívá v tom, že zohledňuje, jak webové kamery reagují na změny osvětlení. Autoři vysvětlují:

‘Protože všechny moderní webové kamery provádějí automatickou expozici, typ vysoké intenzity aktivního osvětlení [použité v předchozích pracích] je pravděpodobně spouští kameru automatickou expozicí, která následně ruší zaznamenanou obličejovou podobu. Abychom tomu zabránili, používáme aktivní osvětlení, které se skládá z izoluminální změny barev.

‘Zatímco toto zabrání kamerové automatické expozici, mohlo by to spustit kameru bílou rovnováhu, která by opět rušila zaznamenanou obličejovou podobu. Abychom tomu zabránili, pracujeme v barevném rozsahu, který jsme empiricky určili, že nezpůsobuje bílou rovnováhu.’

Pro tuto iniciativu autoři také zvažovali podobné předchozí úsilí, jako je LiveScreen, který nutí nenápadný osvětlovací vzor na uživatelskou obrazovku v pokusu odhalit deepfake obsah.

Ačkoli tento systém dosáhl 94,8% přesnosti, výzkumníci uzavírají, že subtilita světelných vzorů by činila takový skrytý přístup obtížným pro implementaci v jasně osvětlených prostředích, a místo toho navrhují, že jejich vlastní systém, nebo jeden podobný, mohl by být začleněn veřejně a výchozím způsobem do populárního video konferenčního softwaru:

‘Naše navrhovaná intervence by mohla být realizována účastníkem hovoru, který jednoduše sdílí svou obrazovku a zobrazuje časově se měnící vzor, nebo, ideálně, mohla by být přímo integrována do video hovorového klienta.’

Testy

Autoři použili směs syntetických a reálných subjektů pro testování svého Dlib-driven deepfake detektoru. Pro syntetický scénář použili Mitsuba, forward a inverse renderer ze Švýcarského federálního technologického institutu v Lausanne.

Vzorky ze simulačního datového souboru, zobrazující různé odstíny pleti, velikost zdroje světla, intenzitu ambientního světla a vzdálenost od kamery.

Scéna zobrazuje parametrickou CGI hlavu zachycenou z virtuální kamery s 90° úhlem pohledu. Hlavy mají Lambertian reflectance a neutrální odstíny pleti, a jsou umístěny 2 stopy před virtuální kamerou.

Aby otestovali rámec napříč širokým rozsahem možných odstínů pleti a nastavení, výzkumníci provedli řadu testů, měnících různé aspekty po sobě. Aspekty, které se změnily, zahrnovaly odstín pleti, vzdálenost a velikost osvětlovacího zdroje.

Autoři komentují:

‘V simulaci, s našimi různými předpoklady splněnými, je naše navrhovaná technika vysoce robustní vůči širokému rozsahu konfigurací obrazového zpracování.’

Pro reálný scénář výzkumníci použili 15 dobrovolníků se širokým rozsahem odstínů pleti, v různých prostředích. Každý byl podroben dvěma cyklům omezené barevné variace, za podmínek, kdy 30Hz obnovovací frekvence displeje byla synchronizována s webovou kamerou, což znamenalo, že aktivní osvětlení bude trvat pouze jednu sekundu najednou. Výsledky byly obecně srovnatelné se syntetickými testy, i když korelace vzrostly výrazně s vyššími hodnotami osvětlení.

Budoucí směry

Systém, který výzkumníci uznávají, nebere v úvahu typické obličeje zakrytí, jako jsou čelní vlasy, brýle nebo vousy. Nicméně, oni poznamenávají, že takové maskování může být přidáno do pozdějších systémů (prostřednictvím označování a následné sémantické segmentace), které by mohly být trénovány pro přijímání hodnot výlučně z vnímaných oblastí pleti v cílovém subjektu.

Autoři také navrhují, že podobný paradigm mohl by být použit pro detekci deepfaked audio hovorů, a že detekční zvuk by mohl být přehrává v frekvenci mimo normální lidský sluchový rozsah.

Možná nejzajímavěji, výzkumníci také navrhují, že rozšíření hodnocení oblasti za hranice obličeje v bohatším frameworku by mohlo výrazně zlepšit možnost detekce deepfakes*:

‘Více sofistikovaná 3-D odhad osvětlení by pravděpodobně poskytl bohatší vzhledový model, který by byl ještě obtížnější pro podvodníka obejít. Zatímco jsme se zaměřili pouze na obličej, počítačový displej také osvětlí krk, horní část těla a okolní pozadí, ze kterých by mohly být provedeny podobné měření.

‘Tato další měření by donutila podvodníka zohlednit celý 3-D scénář, ne jen obličej.’

* Mé převody autorů inline citací na hypertextové odkazy.

Poprvé zveřejněno 6. července 2022.

Related Topics:cybersecurity DeepFakes research security

Martin Anderson

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai

Unite.AI

Detekce Deepfake videohovorů prostřednictvím osvětlení monitoru

Eroze důvěry

Vhodnění světla na živé Deepfake video

Testy

Budoucí směry

You may like