Kybernetická bezpečnost
Detekce deepfake videokonferencí pomocí funkce ‘vibrate’ chytrého telefonu

Nová výzkum z Singapuru navrhl novou metodu detekce, zda někdo na druhém konci chytrého telefonu používá metody, jako je DeepFaceLive, k napodobení někoho jiného.
Nazvaný SFake, nový přístup opouští pasivní metody používané většinou systémů a způsobuje, že telefon uživatele vibruje (pomocí stejných ‘vibrate’ mechanismů common napříč chytrými telefony), a jemně rozmazává jeho obličej.
Ačkoli systémy live deepfaking jsou různě schopny replikovat motion blur, pokud byl rozmazaný záznam zahrnut do tréninkových dat, nebo alespoň do před-tréninkových dat, nemohou reagovat dostatečně rychle na neočekávaný rozmaz, a pokračují ve výstupu ne-rozmazaných částí obličeje, odhalující existenci deepfake konferenčního hovoru.

DeepFaceLive nemůže reagovat dostatečně rychle, aby simuloval rozmaz způsobený kamerovými vibracemi. Source: https://arxiv.org/pdf/2409.10889v1
Výsledky testů na vlastním datasetu výzkumníků (jelikož neexistují žádné datasety s aktivním kamerovým pohybem) ukázaly, že SFake překonal soutěžící video-založené metody detekce deepfake, dokonce i v případě náročných okolností, jako je přirozený pohyb ruky, který se vyskytuje, když osoba na druhém konci videokonference drží kameru v ruce, místo použití statického telefonního držáku.
Rostoucí potřeba video-založené detekce deepfake
Výzkum do video-založené detekce deepfake se zvýšil nedávno. V důsledku několika let úspěšných voice-založených deepfake loupeží, na počátku tohoto roku byl finanční pracovník oklamán a přinucen převést 25 milionů dolarů na podvodníka, který napodoboval CFO v deepfaked videokonferenčním hovoru.
Ačkoli systém této povahy vyžaduje vysokou úroveň hardwarového přístupu, mnoho uživatelů chytrých telefonů je již zvyklých na finanční a jiné typy ověřovacích služeb, které nás žádají, abychom nahráli naše obličejové rysy pro face-založené ověření (skutečně, toto je součástí ověřovacího procesu LinkedIn).
Je proto pravděpodobné, že takové metody budou stále více vynucovány pro video-konferenční systémy, protože tento typ zločinu bude pokračovat ve vytváření titulních stránek.
Většina řešení, která řeší deepfaking v reálném čase, předpokládá velmi statickou scénu, kde komunikant používá stacionární webovou kameru, a žádný pohyb nebo nadměrné environmentální nebo osvětlovací změny nejsou očekávány. Chytrý telefonní hovor nenabízí žádnou ‘pevnou’ situaci.
Místo toho SFake používá řadu detekčních metod, aby kompenzoval vysoký počet vizuálních variant v ručně držené chytré telefonní video-konferenci, a zdá se, že je prvním výzkumným projektem, který řeší tento problém pomocí standardního vibrace zařízení vestavěného do chytrých telefonů.
<paper
je nazvaný Shaking the Fake: Detecting Deepfake Videos in Real Time via Active Probes, a pochází od dvou výzkumníků z Nanyang Technological University v Singapuru.
Metoda
SFake je navržen jako cloud-založená služba, kde lokální aplikace by poslala data do vzdáleného API služby ke zpracování, a výsledky by byly vráceny.
Nicméně, jeho pouhých 450mb stopa a optimalizovaná metodika umožňuje, aby detekce deepfake zpracovala zcela na zařízení samotném, v případech, kdy síťové připojení by mohlo způsobit, že odeslané obrázky se stanou příliš komprimovanými, ovlivňující diagnostický proces.
Během ‘vše lokálně’ v tomto způsobem znamená, že systém by měl přímý přístup k uživatelskému kamerovému toku, bez codec interference často spojené s video-konferencemi.
Průměrný čas analýzy vyžaduje čtyřsekundový video vzorek, během kterého je uživatel požádán, aby zůstal nehybný, a během kterého SFake posílá ‘probes’ k vyvolání kamerových vibrací, ve vybraných náhodných intervalech, které systémy, jako je DeepFaceLive, nemohou reagovat včas.
(Mělo by být znovu zdůrazněno, že jakýkoli útočník, který nezahrnul rozmazaný obsah do tréninkového datasetu, je nepravděpodobné, že bude schopen produkovat model, který může generovat rozmaz, i za mnohem příznivějších okolností, a že DeepFaceLive nemůže jednoduše ‘přidat’ tuto funkčnost do modelu trénovaného na pod-kurátorském datasetu)
Systém vybírá vybrané oblasti obličeje jako oblasti potenciálního deepfake obsahu, vylučuje oči a obočí (protože blikání a jiná obličejová motility v této oblasti je mimo rozsah rozmazové detekce, a není ideálním ukazatelem).

Konceptuální schéma pro SFake.
Jak můžeme vidět v konceptuálním schématu výše, po výběru vhodných a nepředpověditelných vibrace vzorců, stanovení nejlepší ohniskové vzdálenosti a provedení obličejové rozpoznávání (včetně detekce označení obličeje pomocí Dlib komponenty, která odhaduje standardních 68 obličejových označení), SFake odvozuje gradienty z vstupního obličeje a soustředí se na vybrané oblasti těchto gradientů.
Sekvence variance je získána sekvenční analýzou každého snímku v krátkém klipu pod studiem, dokud není dosaženo průměrné nebo ‘ideální’ sekvence, a zbytek je zanedbán.
To poskytuje extrahované funkce, které lze použít jako kvantifikátor pro pravděpodobnost deepfaked obsahu, založený na tréninkovém datasetu (o kterém více okamžikem).
Systém vyžaduje obrazovou rozlišení 1920×1080 pixelů, stejně jako minimálně 2x zoom požadavku pro čočku. Paper poznamenává, že takové rozlišení (a dokonce vyšší rozlišení) jsou podporována v Microsoft Teams, Skype, Zoom a Tencent Meeting.
Většina chytrých telefonů má přední a zadní kameru, a často pouze jedna z nich má zoomové schopnosti požadované SFake; aplikace by tedy vyžadovala, aby komunikant používal kteroukoli z kamer, která splňuje tyto požadavky.
Cílem je získat správný poměr uživatelského obličeje do video toku, který systém bude analyzovat. Paper pozoruje, že průměrná vzdálenost, ve které ženy používají mobilní zařízení, je 34,7 cm, a pro muže, 38,2 cm (jak hlášeno v Journal of Optometry), a že SFake funguje velmi dobře na těchto vzdálenostech.
Jelikož stabilizace je problémem u ručně držených videí, a jelikož rozmaz, který se vyskytuje z pohybu ruky, je překážkou fungování SFake, výzkumníci vyzkoušeli několik metod, aby kompenzovali. Nejúspěšnější z nich bylo vypočítání centrálního bodu odhadnutých označení a použití jej jako ‘anchor’ – efektivní algoritmická stabilizační technika. Touto metodou byla dosažena přesnost 92%.
Data a testy
Jelikož neexistovaly žádné vhodné datasety pro tento účel, výzkumníci vyvinuli své vlastní:
‘[My] používáme 8 různých značek chytrých telefonů k nahrání 15 účastníků různých pohlaví a věku, abychom vytvořili náš vlastní dataset. Položíme chytrý telefon na telefonní držák 20 cm daleko od účastníka a přiblížíme se dvakrát, zaměřujeme se na obličej účastníka, abychom zahrnuli všechny jeho obličejové rysy, zatímco vibrujeme chytrý telefon v různých vzorcích.
‘Pro telefony, jejichž přední kamery nemohou přiblížit, používáme zadní kamery jako náhradu. Nahráváme 150 dlouhých videí, každé 20 sekund dlouhé. Ve výchozím nastavení předpokládáme, že detekční období trvá 4 sekundy. Řezáme 10 klipů po 4 sekundách z jednoho dlouhého videa náhodným výběrem startovacího času. Proto získáme celkem 1500 skutečných klipů, každý 4 sekundy dlouhý.’
Ačkoli DeepFaceLive (GitHub link) byl centrálním cílem studie, protože je目前 nejvíce široce používaný open source live deepfaking systém, výzkumníci zahrnuli čtyři další metody, aby trénovali svou základní detekční model: Hififace; FS-GANV2; RemakerAI; a MobileFaceSwap – poslední z nich je zvláště vhodný výběr, vzhledem k cílovému prostředí.
1500 falešných videí bylo použito pro trénink, spolu s ekvivalentním počtem skutečných a neupravených videí.
SFake byl testován proti několika různým klasifikátorům, včetně SBI; FaceAF; CnnDetect; LRNet; DefakeHop varianty; a free online deepfake detekční služba Deepaware. Pro každou z těchto deepfake metod, 1500 falešných a 1500 skutečných videí bylo trénováno.
Pro základní testovací klasifikátor, byl použit jednoduchý dvouvrstvý neuronový síť s ReLU aktivací funkcí. 1000 skutečných a 1000 falešných videí bylo náhodně vybráno (ačkoli falešná videa byla výhradně DeepFaceLive příklady).
Plocha pod přijímací operativní charakteristikou (AUC/AUROC) a Přesnost (ACC) byly použity jako metriky.
Pro trénink a inference, byl použit NVIDIA RTX 3060, a testy byly spuštěny pod Ubuntu. Testovací videa byla nahrána pomocí Xiaomi Redmi 10x, Xiaomi Redmi K50, OPPO Find x6, Huawei Nova9, Xiaomi 14 Ultra, Honor 20, Google Pixel 6a, a Huawei P60.
Aby se shodovaly s existujícími detekčními metodami, testy byly implementovány v PyTorch. Primární testovací výsledky jsou znázorněny v tabulce níže:

Výsledky pro SFake proti soutěžícím metodám.
Zde autoři komentují:
‘Ve všech případech přesáhla detekční přesnost SFake 95%. Mezi pěti deepfake algoritmy, kromě Hififace, SFake funguje lépe proti ostatním deepfake algoritmům než ostatní šest detekčních metod. Jako náš klasifikátor je trénován pomocí falešných obrazů generovaných DeepFaceLive, dosahuje nejvyšší přesnost 98,8%, když detekuje DeepFaceLive.
‘Když čelíme falešným obličejům generovaným RemakerAI, ostatní detekční metody fungují špatně. Spekuluje se, že to může být způsobeno automatickým komprimováním videí při stahování z internetu, což vede ke ztrátě obrazových detailů a tím snížení detekční přesnosti. Nicméně, to neovlivňuje detekci SFake, která dosahuje přesnosti 96,8% při detekci proti RemakerAI.’
Autoři dále poznamenávají, že SFake je nejvýkonnějším systémem v scénáři 2x přiblížení aplikovaného na čočku, protože to zdůrazňuje pohyb, a je neobyčejně náročným úkolem. I v této situaci SFake dosáhl rozpoznávací přesnosti 84% a 83%, resp. pro 2,5 a 3 násobné faktory.
Závěr
Projekt, který využívá slabosti živého deepfake systému proti sobě, je osvěžující nabídka v roce, kdy detekce deepfake byla dominována papíry, které pouze promíchaly venerabilní přístupy kolem frekvenční analýzy (která je daleko od imunity vůči inovacím v deepfake prostoru).
Na konci roku 2022, jiný systém používal monitor brightness variance jako detektor hook; a ve stejném roce, má vlastní demonstrace DeepFaceLive’s neschopnosti zvládnout tvrdé 90stupňové profilové pohledy získala一些 komunitní zájem.
DeepFaceLive je správným cílem pro takový projekt, protože je téměř jistě zaměřením kriminálního zájmu ve vztahu k video-konferenčnímu podvodu.
Nicméně, nedávno jsem viděl některé anekdotické důkazy, že LivePortrait systém, který je aktuálně velmi populární ve VFX komunitě, zvládá profilové pohledy mnohem lépe než DeepFaceLive; bylo by zajímavé, kdyby mohl být zahrnut do této studie.
Poprvé zveřejněno úterý, září 24, 2024
