Kybernetická bezpečnost
Detekce Deepfakes videokonference pomocí funkce „Vibrace“ smartphonu

Nový výzkum ze Singapuru navrhl novou metodu zjišťování, zda někdo na druhém konci chytrého videokonferenčního nástroje používá metody jako např. DeepFaceLive vydávat se za někoho jiného.
Titulovaný FAke, nový přístup opouští pasivní metody používané většinou systémů a způsobuje telefon uživatele vibrovat (pomocí stejných „vibračních“ mechanismů společný přes chytré telefony) a jemně rozostřují jejich obličej.
Ačkoli živé systémy deepfaking jsou různě schopné replikovat rozostření pohybu, pokud byl rozmazaný záznam zahrnut v trénovacích datech nebo alespoň v datech před tréninkem, nemohou dostatečně rychle reagovat na neočekávané rozmazání tohoto druhu a pokračovat ve výstupu nerozmazané části tváří, odhalující existenci hluboce falešného konferenčního hovoru.

DeepFaceLive nemůže reagovat dostatečně rychle, aby simulovalo rozmazání způsobené vibracemi fotoaparátu. Zdroj: https://arxiv.org/pdf/2409.10889v1
Výsledky testů na sadě dat, kterou si výzkumníci sami spravovali (protože neexistují žádné datové sady s aktivním chvěním kamery), zjistily, že SFake překonala konkurenční metody detekce hlubokého falšování založené na videu, i když čelí náročným okolnostem, jako je přirozený pohyb ruky osoba na videokonferenci drží kameru rukou namísto použití statického držáku telefonu.
Rostoucí potřeba detekce deepfake na základě videa
Výzkum v oblasti detekce deepfake založených na videu v poslední době vzrostl. V návaznosti na několik let úspěšných hlasových deepfake loupeže, začátkem tohoto roku byl finanční pracovník Podvedeno do převodu 25 milionů dolarů podvodníkovi, který se vydával za finančního ředitele v falešném videokonferenčním hovoru.
Přestože systém této povahy vyžaduje vysokou úroveň hardwarového přístupu, mnoho uživatelů chytrých telefonů je již zvyklých na finanční a jiné typy ověřovacích služeb, které po nás žádají, abychom zaznamenali naše obličejové charakteristiky pro autentizaci založenou na obličeji (ve skutečnosti je to dokonce součást ověřování LinkedIn proces).
Zdá se tedy pravděpodobné, že se tyto metody budou stále více prosazovat pro systémy videokonferencí, protože tento typ trestné činnosti se stále dostává do novin.
Většina řešení, která řeší deepfaking videokonference v reálném čase, předpokládá velmi statický scénář, kdy komunikant používá stacionární webovou kameru a neočekává se žádný pohyb nebo nadměrné změny prostředí nebo osvětlení. Hovor ze smartphonu žádnou takovou „pevnou“ situaci nenabízí.
Místo toho používá SFake řadu detekčních metod ke kompenzaci vysokého počtu vizuálních variant v ruční videokonferenci založené na smartphonu a zdá se, že je prvním výzkumným projektem, který řeší tento problém pomocí standardního vibračního zařízení zabudovaného do smartphonů.
Jedno papír je s názvem Shaking the Fake: Detekce Deepfake videí v reálném čase pomocí aktivních sonda pochází od dvou výzkumníků z Technologické univerzity Nanyang v Singapuru.
Metoda
SFake je navržena jako cloudová služba, kde místní aplikace posílá data do vzdálené služby API ke zpracování a výsledky odesílá zpět.
Jeho pouhá velikost 450 MB a optimalizovaná metodika však umožňuje, aby mohl zpracovávat detekci deepfake zcela na samotném zařízení v případech, kdy by síťové připojení mohlo způsobit nadměrnou kompresi odeslaných obrázků, což by ovlivnilo diagnostický proces.
Spuštění „all local“ tímto způsobem znamená, že systém by měl přímý přístup ke zdroji kamery uživatele, bez kodek rušení často spojené s videokonferencí.
Průměrná doba analýzy vyžaduje čtyřsekundový vzorek videa, během kterého je uživatel požádán, aby zůstal v klidu, a během kterého SFake vysílá „sondy“, aby způsobily vibrace kamery, v selektivně náhodných intervalech, na které systémy jako DeepFaceLive nemohou včas reagovat. .
(Je třeba znovu zdůraznit, že jakýkoli útočník, který nezahrnul rozmazaný obsah do trénovací datové sady, pravděpodobně nebude schopen vytvořit model, který dokáže generovat rozostření i za mnohem příznivějších okolností, a že DeepFaceLive nemůže tuto funkci jen „přidat“. na model trénovaný na nedostatečně upravené datové sadě)
Systém vybírá vybrané oblasti obličeje jako oblasti s potenciálním hluboce falešným obsahem, s výjimkou očí a obočí (protože mrkání a jiná pohyblivost obličeje v této oblasti je mimo rozsah detekce rozmazání a není to ideální indikátor).

Koncepční schéma pro SFake.
Jak můžeme vidět na koncepčním schématu výše, po výběru vhodných a nepředvídatelných vzorců vibrací, nastavení nejlepší ohniskové vzdálenosti a provedení rozpoznání obličeje (včetně detekce orientačních bodů pomocí Dlib komponenta, která odhaduje standardních 68 orientačních bodů obličeje), SFake odvozuje přechody ze vstupního obličeje a soustředí se na vybrané oblasti těchto přechodů.
Sekvence rozptylu se získá sekvenční analýzou každého snímku ve zkoumaném krátkém klipu, dokud se nedosáhne průměrné nebo „ideální“ sekvence a zbytek se nebere v úvahu.
To poskytuje extrahované funkce které lze použít jako kvantifikátor pravděpodobnosti hluboce zfalšovaného obsahu na základě trénované databáze (z toho dočasně).
Systém vyžaduje rozlišení obrazu 1920×1080 pixelů a také požadavek na minimálně 2x zoom objektivu. Dokument uvádí, že taková rozlišení (a ještě vyšší rozlišení) jsou podporována v Microsoft Teams, Skype, Zoom a Tencent Meeting.
Většina smartphonů má přední a samoobslužný fotoaparát a často pouze jeden z nich má funkce zoomu požadované SFake; aplikace by proto vyžadovala, aby komunikant použil kteroukoli ze dvou kamer, která tyto požadavky splňuje.
Cílem je zde získat a správný poměr z tváře uživatele do video streamu, který bude systém analyzovat. Dokument uvádí, že průměrná vzdálenost, na kterou ženy používají mobilní zařízení, je 34.7 cm a u mužů 38.2 cm (např. hlášeny in Journal of Optometry), a že SFake funguje na tyto vzdálenosti velmi dobře.
Vzhledem k tomu, že stabilizace je problém s videem drženým z ruky, a protože rozmazání, ke kterému dochází pohybem ruky, je překážkou fungování SFake, výzkumníci vyzkoušeli několik metod kompenzace. Nejúspěšnějším z nich byl výpočet centrálního bodu odhadovaných orientačních bodů a jeho použití jako „kotvy“ – v podstatě algoritmické stabilizační techniky. Touto metodou bylo dosaženo přesnosti 92 %.
Data a testy
Protože pro tento účel neexistovaly žádné vhodné datové sady, výzkumníci vyvinuli vlastní:
„[Používáme] 8 různých značek chytrých telefonů k záznamu 15 účastníků různého pohlaví a věku, abychom vytvořili vlastní datovou sadu. Chytrý telefon položíme na držák telefonu 20 cm od účastníka a dvakrát přiblížíme, přičemž zamíříme na obličej účastníka, abychom obsáhli všechny rysy jeho obličeje, přičemž smartphonem vibrujeme v různých vzorech.
„U telefonů, jejichž přední fotoaparáty nedokážou zoomovat, používáme jako náhradu zadní fotoaparáty. Nahráváme 150 dlouhých videí, každé o délce 20 sekund. Ve výchozím nastavení předpokládáme, že doba detekce trvá 4 sekundy. Z jednoho dlouhého videa seřízneme 10 klipů o délce 4 sekund náhodným výběrem času zahájení. Dostáváme tedy celkem 1500 skutečných klipů, každý o délce 4 sekund.“
Ačkoli DeepFaceLive (odkaz GitHub) byl ústředním cílem studie, protože se v současnosti jedná o nejrozšířenější open source live deepfaking systém, výzkumníci zahrnuli čtyři další metody k trénování jejich základního detekčního modelu: Hififace; FS-GANV2; RemakerAIA MobileFaceSwap – poslední z nich je zvláště vhodnou volbou vzhledem k cílovému prostředí.
Pro školení bylo použito 1500 falešných videí spolu s ekvivalentním počtem skutečných a nezměněných videí.
SFake byl testován proti několika různým klasifikátorům, včetně SBI; FaceAF; CnnDetect; LRNet; DefakeHop varianty; a bezplatnou online službu detekce deepfake Deepaware. Pro každou z těchto deepfake metod bylo natrénováno 1500 falešných a 1500 skutečných videí.
Pro klasifikátor základního testu jednoduchý dvouvrstvý nervová síť s Funkce aktivace ReLU byl použit. Náhodně bylo vybráno 1000 1000 skutečných a XNUMX XNUMX falešných videí (ačkoli falešná videa byla výhradně příklady DeepFaceLive).
Oblast pod provozní charakteristikou přijímače (AUC/AUROC) a přesnost (ACC) byly použity jako metriky.
Pro školení a vyvozování byla použita NVIDIA RTX 3060 a testy běží pod Ubuntu. Testovací videa byla natočena pomocí Xiaomi Redmi 10x, Xiaomi Redmi K50, OPPO Find x6, Huawei Nova9, Xiaomi 14 Ultra, Honor 20, Google Pixel 6a a Huawei P60.
V souladu se stávajícími detekčními metodami byly testy implementovány v PyTorch. Výsledky primárního testu jsou uvedeny v tabulce níže:

Výsledky pro SFake proti konkurenčním metodám.
Zde komentují autoři:
„Ve všech případech přesnost detekce SFake přesáhla 95 %. Mezi pěti deepfake algoritmy, kromě Hififace, si SFake vede lépe proti jiným deepfake algoritmům než ostatních šest detekčních metod. Protože je náš klasifikátor trénován pomocí falešných obrázků generovaných DeepFaceLive, dosahuje při detekci DeepFaceLive nejvyšší přesnosti 98.8 %.
„Když čelíme falešným obličejům generovaným RemakerAI, ostatní metody detekce fungují špatně. Domníváme se, že to může být způsobeno automatickou kompresí videí při stahování z internetu, což má za následek ztrátu detailů obrazu a tím snížení přesnosti detekce. To však neovlivňuje detekci pomocí SFake, která dosahuje přesnosti 96.8% v detekci proti RemakerAI.'
Autoři dále poznamenávají, že SFake je nejvýkonnější systém ve scénáři 2x zoomu aplikovaného na snímací čočku, protože to přehání pohyb a je to neuvěřitelně náročná vyhlídka. I v této situaci byl SFake schopen dosáhnout přesnosti rozpoznání 84 % a 83 % pro 2.5 a 3 faktory zvětšení.
Proč investovat do čističky vzduchu?
Projekt, který proti sobě využívá slabiny živého deepfake systému, je osvěžující nabídkou v roce, kdy detekci deepfake dominovaly papíry, které jen rozvířily ctihodný přístupy kolem frekvenční analýzy (která není ani zdaleka imunní vůči inovacím v deepfake prostoru).
Na konci roku 2022 byl použit jiný systém rozptyl jasu monitoru jako detektorový hák; a ve stejném roce, moje vlastní demonstrace o neschopnosti DeepFaceLive zvládnout tvrdá 90stupňová zobrazení profilu nějaké získala komunitní zájem.
DeepFaceLive je tím správným cílem pro takový projekt, protože je téměř jistě středem zájmu zločinců v souvislosti s podvody při videokonferencích.
Nedávno jsem však viděl nějaké neoficiální důkazy, že Živý portrét systém, v současnosti velmi populární ve VFX komunitě, zvládá zobrazení profilu mnohem lépe než DeepFaceLive; bylo by zajímavé, kdyby to mohlo být zahrnuto do této studie.
Poprvé zveřejněno v úterý 24. září 2024