Umělá inteligence
Výzkumníci identifikují odolnou vlastnost deepfaků, která by mohla pomoci při dlouhodobé detekci

Od doby, kdy se začaly objevovat první řešení pro detekci deepfaků v roce 2018, sektor počítačového vidění a bezpečnostního výzkumu se snaží definovat základní charakteristiku deepfake videí – signály, které by mohly být odolné vůči vylepšením populárních technologií pro syntézu obličeje (jako jsou balíčky deepfaků založené na autoencoderech, jako je DeepFaceLab a FaceSwap, a použití Generative Adversarial Networks pro rekreaci, simulaci nebo úpravu lidských obličeji).
Mnohé z “značek”, jako je nedostatek mrkání, se staly zastaralými díky vylepšením deepfaků, zatímco potenciální použití digitálních technik prokazování původu (jako je iniciativa Content Authenticity Initiative vedená společností Adobe) – včetně přístupů založených na blockchainu a digitálních vodotisků potenciálních zdrojových fotografií – buď vyžadují rozsáhlé a nákladné změny stávajícího souboru dostupných zdrojových obrázků na internetu, nebo by vyžadovaly významnou spolupráci mezi národy a vládami pro vytvoření systémů pro sledování a ověřování.
Bylo by proto velmi užitečné, kdyby mohla být rozpoznána skutečně fundamentální a odolná vlastnost v obrazovém a videovém obsahu, který obsahuje upravené, vynalezené nebo zaměněné lidské obličeje; charakteristika, která by mohla být odvozena přímo z falzifikovaných videí, bez rozsáhlé verifikace, kryptografického asset hashování, kontextové kontroly, hodnocení pravděpodobnosti, rutin detekce artifactů nebo jiných náročných přístupů k detekci deepfaků.
Deepfaky v rámu
Nová výzkumná spolupráce mezi Čínou a Austrálií se domnívá, že našla tento “svatý grál” v podobě porušení pravidelnosti.
Autoři vyvinuli metodu pro srovnání prostorové integrity a časové kontinuity skutečných videí s těmi, které obsahují deepfakový obsah, a zjistili, že jakýkoli druh deepfakového zásahu porušuje pravidelnost obrazu, byť i nepatrně.
To je částečně způsobeno tím, že proces deepfaku rozloží cílové video na snímky a aplikuje efekt trénovaného modelu deepfaku do každého (nahrazeného) snímku. Populární distribuce deepfaků fungují stejně jako animátoři, v tomto ohledu, věnují více pozornosti autenticitě každého snímku než jeho příspěvku k celkové prostorové integritě a časové kontinuitě videa.

Z dokumentu: A) Rozdíly mezi typy dat. Zde vidíme, že p-fake’s poruchy mění prostorově-časovou kvalitu obrazu stejným způsobem jako deepfake, bez nahrazování identity. B) Analýza šumu tří typů dat, ukazující, jak p-fake imituje deepfakové porušení. C) Časová vizualizace tří typů dat, s reálnými daty demonstrujícími větší integritu v fluktuaci. D) T-SNE vizualizace extrahovaných funkcí pro reálná, falešná a p-falešná videa. Zdroj: https://arxiv.org/pdf/2207.10402.pdf
To není způsob, jakým video kodek zachází se sérií snímků, když je pořizován nebo zpracováván originální záznam. Aby se ušetřil soubor velikosti nebo aby se video stalo vhodným pro streamování, obrovské množství informací je zahozeno video kodekem. I při nejvyšších kvalitních nastaveních kodek alokuje klíčové snímky (proměnná, která může být nastavena uživatelem) – celé, prakticky nezkomprimované obrázky, které se vyskytují v předem stanoveném intervalu ve videu.
Mezilehlé snímky mezi klíčovými snímky jsou, do jisté míry, odhadnuty jako varianta snímků a budou znovu použít co nejvíce informací z adjacentních klíčových snímků, místo aby byly kompletními snímky ve svém vlastním právu.

Vlevo, kompletní klíčový snímek, nebo ‘i-snímek’, je uložen v komprimovaném videu, za cenu většího souboru; vpravo, mezilehlý ‘delta snímek’ znovu používá jakoukoli použitelnou část více datově bohatého klíčového snímku. Zdroj: https://blog.video.ibm.com/streaming-video-tips/keyframes-interframe-video-compression/
Tímto způsobem je blok (obsahující x počet snímků, v závislosti na nastavení klíčových snímků) pravděpodobně nejmenší jednotka, která je zvažována v typickém komprimovaném videu, místo jakéhokoli jednotlivého snímku. I klíčový snímek sám, známý jako i-snímek, tvoří část této jednotky.
Z hlediska tradiční animace je kodek provádí druh mezi-snímání, s klíčovými snímky fungujícími jako stanovy pro mezilehlé, odvozené snímky, známé jako delta snímky.

Na rozdíl od toho deepfaková superpozice věnuje enormní pozornost a zdroje každému jednotlivému snímku, bez zvažování širšího kontextu, a bez přihlédnutí k tomu, jak komprese a bloková kódování ovlivňují charakteristiky “autentického” videa.

Podrobnější pohled na diskontinuitu mezi časovou kvalitou autentického videa (vlevo) a stejným videem, když je narušeno deepfaky (vpravo).
Ačkoli některé lepší deepfaky používají rozsáhlé post-procesní techniky, v balíčcích jako After Effects, a ačkoli distribuce DeepFaceLab má nějakou nativní kapacitu pro aplikaci “slepení” procedur, jako je motion blur, takový trik neovlivňuje nesoulad mezi prostorovou a časovou kvalitou mezi autentickými a deepfakovými videi.
Nový dokument se jmenuje Detecting Deepfake by Creating Spatio-Temporal Regularity Disruption a pochází z výzkumníků z Tsinghua University, Department of Computer Vision Technology (VIS) v Baidu Inc. a University of Melbourne
‘Falešná’ falešná videa
Výzkumníci za dokumentem začlenili funkčnost výzkumu do modulu s názvem Pseudo-fake Generator (P-fake Generator), který transformuje reálná videa na faux-deepfaková videa, tím, že je ruší stejným způsobem, jako skutečný proces deepfaku, bez skutečného provádění deepfakových operací.
Testy ukazují, že modul lze přidat do všech stávajících systémů detekce deepfaků prakticky bez nákladů na zdroje a že významně zlepšuje jejich výkon.
Tento objev by mohl pomoci řešit jednu z dalších překážek ve výzkumu detekce deepfaků: nedostatek autentických a aktuálních datových sad. Protože generování deepfaků je složitý a časově náročný proces, komunita vyvinula řadu datových sad deepfaků za posledních pět let, z nichž mnohé jsou již poměrně zastaralé.
Rozpoznáním porušení pravidelnosti jako deepfakově-agnostic signálu pro videa upravená post-facto, nová metoda umožňuje generovat nekonečné vzorky a datové sady, které se zaměřují na tuto vlastnost deepfaků.

Přehled bloku STE, kde se používá kanálová časová konvoluce jako podnět pro generování prostorově-časově vylepšených kódování, výsledkem čehož je stejná signatura, kterou by i velmi přesvědčivý deepfake mohl vyprodukovat. Touto metodou lze generovat ‘falešná’ falešná videa, která nesou stejné signaturační charakteristiky jako jakékoli upravené, deepfakové-style video, a které nezávisí na konkrétních distribucích nebo na nestálých aspektech, jako je chování funkcí nebo algoritmické artefakty.
Testy
Výzkumníci provedli experimenty na šesti známých datových sadách, které se používají ve výzkumu detekce deepfaků: FaceForensics++ (FF++); WildDeepFake; Deepfake Detection Challenge preview (DFDCP); Celeb-DF; Deepfake Detection (DFD); a Face Shifter (FSh).
Pro FF++ výzkumníci trénovali svůj model na původní datové sadě a testovali každou ze čtyř podsad samostatně. Bez použití jakýchkoli deepfakových materiálů pro trénink nová metoda překonala stávající výsledky.

Metoda také dosáhla nejlepších výsledků ve srovnání s datovou sadou FF++ C23, která poskytuje příklady, které obsahují typ kompresních artifactů, které jsou věrohodné v reálném prostředí deepfakového prohlížení.

Autoři komentují:
‘Výkony v rámci FF++ potvrzují proveditelnost našeho hlavního nápadu, zatímco obecná platnost zůstává velkým problémem stávajících metod detekce deepfaků, protože výkon není zaručen při testování deepfaků vygenerovaných neviditelnými technikami.
‘Zvažte dále realitu závodů mezi detektory a falzifikátory, obecná platnost je důležitým kritériem pro měření účinnosti detekční metody v reálném světě.’
Ačkoli výzkumníci provedli řadu sub-testů (viz dokument pro detaily) kolem ‘odolnosti’, a různé typy videí vstupních (tj. reálné, falešné, p-falešné atd.), nejzajímavější výsledky jsou z testu pro cross-dataset výkon.
Pro tento účel autoři trénovali svůj model na výše zmíněné ‘reálné’ verzi FF++ a testovali jej proti čtyřem datovým sadám, dosáhli, podle autorů, lepšího výkonu ve všech.

Výsledky z cross-dataset výzvy. Dokument poznamenává, že SBI používá podobný přístup jako autoři, zatímco, podle tvrzení výzkumníků, p-fake ukazuje lepší výkon pro prostorově-časové porušení pravidelnosti.
Dokument uvádí:
‘Na nejvíce náročné Deepwild, naše metoda překonává SOTA metodu o asi 10 procentních bodů z hlediska AUC%. Domníváme se, že je to způsobeno velkou rozmanitostí deepfaků v Deepwild, která způsobuje, že ostatní metody selhávají při generalizaci z viditelných deepfaků.’
Metriky použité pro testy byly Skóre přesnosti (ACC), Plocha pod křivkou přijímací operativní charakteristiky (AUC) a Rovnovárná chybová sazba (EER).
Protiofenzívy?
Ačkoli média charakterizují napětí mezi vývojáři deepfaků a výzkumníky detekce deepfaků v termínech technologické války, je možné, že tito vývojáři se pouze snaží vytvořit více přesvědčivý výstup, a že zvýšená obtížnost detekce deepfaků je pouze důsledkem těchto snah.
Zda vývojáři budou snažit se vyřešit tuto nově odhalenou slabost, závisí možná na tom, zda se domnívají, že porušení pravidelnosti může být vnímáno v deepfakovém videu lidským okem jako token neautentičnosti, a zda je tedy tato metrika hodná řešení z čistě kvalitativního hlediska.
Ačkoli uplynulo pět let od chvíle, kdy se objevily první deepfaky online, deepfakování je stále relativně novou technologií, a komunita se pravděpodobně více zabývá detaily a rozlišením než správným kontextem nebo shodou se signaturami komprimovaného videa, které vyžadují jistou “degradaci” výstupu – přesně to, proti čemu se celá komunita deepfaků目前 bojuje.
Pokud se v komunitě ukáže, že porušení pravidelnosti je raná signatura, která neovlivňuje kvalitu, nemusí být žádný pokus o kompenzaci – i když je možné, že by to šlo “zrušit” nějakými post-procesními nebo v-architekturou procedurami, což je daleko od jasného.












