výhonek Hloubkové informace mohou odhalit Deepfakes v reálném čase - Unite.AI
Spojte se s námi

Umělá inteligence

Hloubkové informace mohou odhalit Deepfakes v reálném čase

mm
aktualizováno on

Nový výzkum z Itálie zjistil, že informace o hloubce získané z obrázků mohou být užitečným nástrojem k odhalování deepfakes – a to i v reálném čase.

Zatímco většina výzkumu detekce deepfake za posledních pět let se soustředila na identifikaci artefaktu (což může být zmírněno vylepšenými technikami nebo zaměněno za špatnou kompresi video kodeku), okolního osvětlení, biometrické vlastnosti, časové narušení, A to i lidský instinktNová studie je první, která naznačuje, že hloubkové informace by mohly být cennou šifrou pro hluboce falešný obsah.

Příklady odvozených hloubkových map a rozdíl v informacích o hloubce vnímání mezi skutečnými a falešnými obrázky. Zdroj: https://arxiv.org/pdf/2208.11074.pdf

Příklady odvozených hloubkových map a rozdíl v informacích o hloubce vnímání mezi skutečnými a falešnými obrázky. Zdroj: https://arxiv.org/pdf/2208.11074.pdf

Je důležité, že detekční rámce vyvinuté pro novou studii fungují velmi dobře na odlehčené síti, jako je např Xceptiona přijatelně dobře na MobileNeta nový dokument uznává, že nízká latence vyvozování nabízená prostřednictvím takových sítí může umožnit detekci deepfake v reálném čase proti novému trendu směrem k živému deepfake podvodu, jehož příkladem jsou nedávné útok na Binance.

Větší hospodárnosti v inferenčním čase lze dosáhnout, protože systém nepotřebuje plnobarevné obrázky k určení rozdílu mezi falešnými a skutečnými hloubkovými mapami, ale může pracovat překvapivě efektivně pouze na snímcích s informacemi o hloubce ve stupních šedi.

Autoři uvádějí: "Tento výsledek naznačuje, že hloubka v tomto případě přidává relevantnější příspěvek ke klasifikaci než barevné artefakty."

Zjištění představují součást nové vlny výzkumu detekce deepfake zaměřeného proti systémům syntézy obličeje v reálném čase, jako je např DeepFaceLive – těžiště úsilí, které se v posledních 3–4 měsících výrazně zrychlilo v důsledku zásahu FBI varování v březnu o riziku hlubokého falšování videa a zvuku v reálném čase.

Projekt papír je s názvem DepthFake: hloubková strategie pro detekci Deepfake videí, a pochází od pěti výzkumníků z univerzity Sapienza v Římě.

Okrajové pouzdra

Během tréninku upřednostňují deepfake modely založené na automatickém kodéru vnitřní oblasti obličeje, jako jsou oči, nos a ústa. Ve většině případů napříč open source distribucemi jako např DeepFaceLab a Výměna tváře (obě rozvětvené z originálu 2017 Reddit kód před jeho vymazáním) se vnější linie obličeje dobře definují až ve velmi pozdní fázi tréninku a je nepravděpodobné, že by odpovídaly kvalitě syntézy ve vnitřní oblasti obličeje.

Z předchozí studie vidíme vizualizaci „map výběžků“ obličeje. Zdroj: https://arxiv.org/pdf/2203.01318.pdf

Z předchozí studie vidíme vizualizaci „map výběžků“ obličeje. Zdroj: https://arxiv.org/pdf/2203.01318.pdf

Normálně to není důležité, protože naše tendence soustředit se nejprve na oči a upřednostňovat, „ven“ při klesající úrovni pozornosti, znamená, že je nepravděpodobné, že bychom byli těmito poklesy periferní kvality vyrušeni – zvláště pokud mluvíme živě s osoba, která předstírá jinou identitu, což vyvolává společenské konvence a omezení zpracování není přítomen, když hodnotíme „renderovaný“ hluboce falešný záznam.

Nedostatek detailů nebo přesnosti v postižených okrajových oblastech hluboce zfalšované tváře však lze detekovat algoritmicky. V březnu byl systém, který klíčuje na periferní ploše oznámila,. Protože však vyžaduje nadprůměrné množství trénovacích dat, je určen pouze pro celebrity, které pravděpodobně figurují v oblíbených souborech obličejových dat (jako je ImageNet), které mají původ v současných technikách počítačového vidění a detekce deepfake.

Místo toho nový systém s názvem DepthFake, může fungovat obecně i na nejasných nebo neznámých identitách tím, že rozlišuje kvalitu informací o odhadované hloubkové mapě ve skutečném a falešném videoobsahu.

Jít do hloubky

Informace o hloubce se stále více zapékají do chytrých telefonů, včetně Stereo implementace s pomocí AI které jsou zvláště užitečné pro studium počítačového vidění. V nové studii autoři použili model FaceDepth National University of Ireland, konvoluční síť kodéru/dekodéru, která dokáže efektivně odhadnout hloubkové mapy z obrázků z jednoho zdroje.

Model FaceDepth v akci. Zdroj: https://tinyurl.com/3ctcazma

Model FaceDepth v akci. Zdroj: https://tinyurl.com/3ctcazma

Dále potrubí pro nový rámec italských vědců extrahuje 224×224 pixelů na obličeji subjektu jak z původního RGB obrázku, tak z odvozené hloubkové mapy. Důležité je, že to procesu umožňuje kopírovat základní obsah bez změny jeho velikosti; to je důležité, protože algoritmy pro změnu velikosti podle standardu velikosti nepříznivě ovlivní kvalitu cílových oblastí.

Pomocí těchto informací ze skutečných i hluboce falešných zdrojů pak výzkumníci trénovali konvoluční neuronovou síť (CNN) schopnou rozlišit skutečné případy od falešných na základě rozdílů mezi kvalitou vnímání příslušných hloubkových map.

Koncepční potrubí pro DepthFake.

Koncepční potrubí pro DepthFake.

Model FaceDepth je trénován na realistických a syntetických datech pomocí hybridní funkce, která nabízí větší detaily na vnějších okrajích obličeje, takže se dobře hodí pro DepthFake. Používá instanci MobileNet jako extraktor funkcí a byl trénován se vstupními obrázky 480 × 640 s výstupem hloubkových map 240 × 320. Každá hloubková mapa představuje čtvrtinu ze čtyř vstupních kanálů použitých v diskriminátoru nového projektu.

Hloubková mapa se automaticky vloží do původního RGB obrazu, aby poskytla ten druh RGBD obrazu, který je plný informací o hloubce, který mohou mít moderní fotoaparáty smartphonů.

Trénink

Model byl trénován na síti Xception již předtrénované na ImageNet, ačkoli architektura potřebovala určitou úpravu, aby se přizpůsobila dalším informacím o hloubce a zároveň zachovala správnou inicializaci vah.

Kromě toho, nesoulad v hodnotách se pohybuje mezi informacemi o hloubce a tím, co síť očekává, si vyžádalo, aby výzkumníci normalizovali hodnoty na 0-255.

Při tréninku se uplatňovalo pouze překlápění a rotace. V mnoha případech by modelu byly předloženy různé další vizuální poruchy, aby bylo možné vytvořit robustní závěr, ale nutnost zachovat omezené a velmi křehké informace o hloubce okrajů ve zdrojových fotografiích přiměla výzkumníky k přijetí režimu snížení.

Systém byl navíc trénován na jednoduchých 2kanálových stupních šedi, aby bylo možné určit, jak složité musí být zdrojové obrázky, aby bylo možné získat funkční algoritmus.

Školení probíhalo přes TensorFlow API na NVIDIA GTX 1080 s 8GB VRAM, s použitím optimalizátoru ADAMAX, po 25 epoch, při velikosti dávky 32. Vstupní rozlišení bylo při ořezávání fixováno na 224×224 a detekce a extrakce obličeje byla dokončeno s dlib Knihovna C++.

výsledky

Přesnost výsledků byla testována proti Deepfake, face2face, FaceSwap, Nervová texturaa úplnou datovou sadu se vstupy RGB a RGBD pomocí FaceForensic++ rámec.

Výsledky na přesnosti přes čtyři metody deepfake a proti celé nerozdělené datové sadě. Výsledky jsou rozděleny mezi analýzu zdrojových RGB snímků a stejných snímků s vloženou odvozenou hloubkovou mapou. Nejlepší výsledky jsou vyznačeny tučně, s procentuálními údaji pod nimi, které ukazují, do jaké míry informace z hloubkové mapy zlepšují výsledek.

Výsledky na přesnosti přes čtyři metody deepfake a proti celé nerozdělené datové sadě. Výsledky jsou rozděleny mezi analýzu zdrojových RGB snímků a stejných snímků s vloženou odvozenou hloubkovou mapou. Nejlepší výsledky jsou vyznačeny tučně, s procentuálními údaji pod nimi, které ukazují, do jaké míry informace z hloubkové mapy zlepšují výsledek.

Ve všech případech hloubkový kanál zlepšuje výkon modelu ve všech konfiguracích. Nejlepších výsledků dosahuje Xception se svižným MobileNetem těsně za ním. K tomu autoři komentují:

„Je zajímavé poznamenat, že MobileNet je o něco horší než Xception a překonává hlubší ResNet50. To je pozoruhodný výsledek při zvažování cíle snížit inferenční časy pro aplikace v reálném čase. I když to není hlavní přínos této práce, stále to považujeme za povzbudivý výsledek pro budoucí vývoj.“

Výzkumníci také zaznamenali konzistentní výhodu RGBD a 2kanálového vstupu ve stupních šedi oproti RGB a přímému vstupu ve stupních šedi, přičemž pozorovali, že převody hloubkových inferencí ve stupních šedi, které jsou výpočtově velmi levné, umožňují modelu získat lepší výsledky s velmi omezenými místními zdroji, usnadnění budoucího vývoje detekce deepfake v reálném čase na základě informací o hloubce.

 

Poprvé publikováno 24. srpna 2022.