Umělá inteligence
Výzkumníci identifikují odolnou vlastnost Deepfakes, která by mohla pomoci dlouhodobé detekci

Od roku 2018, kdy se v roce XNUMX začala objevovat první řešení detekce deepfake, se sektor počítačového vidění a výzkumu bezpečnosti snaží definovat podstatná vlastnost deepfake videí – signály, které by mohly být odolné vůči vylepšením populárních technologií syntézy obličeje (jako jsou balíčky deepfake založené na automatickém kodéru jako DeepFaceLab a FaceSwap a použití Generativní Adversarial Networks pro znovuvytvoření, simulaci nebo změnu lidských tváří).
Mnoho „vyprávění“, jako například nedostatek mrkání, byly nadbytečné díky vylepšením deepfakes, zatímco potenciální použití technik digitální provenience (jako je Adobe vedený Iniciativa pro autenticitu obsahu) – včetně blockchainových přístupů a digitální vodoznak potenciálních zdrojových fotografií – buď vyžaduje rozsáhlé a nákladné změny stávajícího souboru dostupných zdrojových obrázků na internetu, nebo by vyžadovalo pozoruhodné společné úsilí mezi národy a vládami k vytvoření systémů dozoru a ověřování.
Proto by bylo velmi užitečné, kdyby bylo možné v obrazovém a video obsahu rozeznat skutečně základní a odolný rys, který obsahuje pozměněné, vymyšlené nebo zaměněné lidské tváře; vlastnost, kterou lze odvodit přímo z padělaných videí bez rozsáhlého ověření, hašování kryptografických aktiv, kontrola kontextu, vyhodnocení věrohodnosti, rutiny detekce zaměřené na artefakty nebo jiné zatěžující přístupy k detekci deepfake.
Deepfakes in the Frame
Nová výzkumná spolupráce mezi Čínou a Austrálií věří, že nalezla tento „svatý grál“ v podobě narušení pravidelnosti.
Autoři vymysleli metodu srovnání prostorové integrity a časové kontinuity skutečných videí s těmi, která obsahují hluboce zfalšovaný obsah, a zjistili, že jakýkoli druh hluboce falešného rušení narušuje pravidelnost obrazu, jakkoli neznatelně.
To je částečně proto, že proces deepfake rozděluje cílové video na snímky a aplikuje efekt trénovaného deepfake modelu na každý (nahradený) snímek. Populární distribuce deepfake se v tomto ohledu chovají stejně jako animátoři a věnují větší pozornost autentičnosti každého snímku než jeho příspěvku k celkové prostorové integritě a časové kontinuitě videa.

Z článku: A) Rozdíly mezi druhy dat. Zde vidíme, že poruchy p-fake mění časoprostorovou kvalitu obrazu stejným způsobem jako deepfake, bez nahrazování identity. B) Analýza šumu tří typů dat, ukazující, jak p-fake napodobuje narušení deepfake. C) Časová vizualizace tří typů dat, přičemž reálná data vykazují větší integritu ve fluktuaci. D) T-SNE vizualizace extrahovaných funkcí pro skutečné, falešné a p-falšované video. Zdroj: https://arxiv.org/pdf/2207.10402.pdf
Toto není způsob, jakým video kodek zachází se sérií snímků, když se pořizuje nebo zpracovává originální záznam. Aby se ušetřilo na velikosti souboru nebo aby bylo video vhodné pro streamování, video kodek zahazuje obrovské množství informací. I při nastavení nejvyšší kvality se kodek alokuje klíčové snímky (proměnná, kterou může nastavit uživatel) – celé, prakticky nekomprimované obrázky, které se ve videu vyskytují v předem nastaveném intervalu.
Intersticiální snímky mezi klíčovými snímky jsou do určité míry odhadovány jako varianta snímků a budou znovu využívat co nejvíce informací ze sousedních klíčových snímků, spíše než aby se jednalo o samotné kompletní snímky.

Vlevo je v komprimovaném videu uložen kompletní klíčový snímek neboli „i-snímek“, což je poněkud omezeno na velikost souboru; vpravo vložený „delta snímek“ znovu používá jakoukoli příslušnou část datově bohatšího klíčového snímku. Zdroj: https://blog.video.ibm.com/streaming-video-tips/keyframes-interframe-video-compression/
Tímto způsobem blokovat (obsahující x počet snímků, v závislosti na nastavení klíčového snímku) je pravděpodobně nejmenší jednotka uvažovaná v typickém komprimovaném videu, spíše než jakýkoli jednotlivý snímek. Dokonce i samotný klíčový snímek, známý jako an i-snímek, tvoří součást této jednotky.
Pokud jde o tradiční kreslené animace, kodek provádí druh mezitím, přičemž klíčové snímky fungují jako stěžejní body pro vsunuté, odvozené snímky, známé jako delta rámy.
Naproti tomu deepfake superimpozice věnuje obrovskou pozornost a zdroje každému jednotlivému snímku, aniž by brala v úvahu širší kontext snímku a bez ohledu na to, jak komprese a blokové kódování ovlivňují vlastnosti „autentického“ videa.

Bližší pohled na diskontinuitu mezi časovou kvalitou autentického videa (vlevo) a stejným videem, když je narušeno deepfakes (vpravo).
Ačkoli někteří z lepších deepfakerů používají rozsáhlé následné zpracování, v balíčcích, jako je After Effects, a ačkoli distribuce DeepFaceLab má nějakou nativní kapacitu aplikovat postupy „prolínání“, jako je rozmazání pohybem, takové triky neovlivňují nesoulad prostorové a časové kvality mezi autentickými a deepfaked videi.
Jedno nový papír je s názvem Detekce Deepfake vytvořením časoprostorového narušení pravidelnostia pochází od výzkumníků z Tsinghua University, Department of Computer Vision Technology (VIS) v Baidu Inc. a University of Melbourne
„Falešná“ falešná videa
Vědci za tímto článkem začlenili funkčnost výzkumu do modulu plug-and-play s názvem Pseudo-fake Generator (P-falešný generátor), který převádí skutečná videa na falešná hluboká videa tím, že je ruší stejným způsobem, jako to dělá skutečný proces hluboce falešných, aniž by ve skutečnosti prováděl jakékoli operace hluboce falešných.
Testy naznačují, že modul lze přidat do všech existujících systémů detekce deepfake s prakticky nulovými náklady na zdroje a že výrazně zlepšuje jejich výkon.
Objev by mohl pomoci vyřešit jeden z dalších kamenů úrazu ve výzkumu detekce deepfake: nedostatek autentických a aktuálních datových sad. Vzhledem k tomu, že generování deepfake je komplikovaný a časově náročný proces, komunita za posledních pět let vyvinula řadu deepfake datových sad, z nichž mnohé jsou značně zastaralé.
Izolací narušení pravidelnosti jako hluboce falešného agnostického signálu pro pozměněná videa post-facto, nová metoda umožňuje generovat neomezená videa s ukázkami a datovými sadami, které jsou klíčové pro tento aspekt deepfakes.

Přehled bloku STE, kde se časová konvoluce v jednotlivých kanálech používá jako podnět ke generování časoprostorově vylepšených kódování, což vede ke stejnému podpisu, jaký poskytne i velmi přesvědčivý deepfake. Touto metodou lze generovat „falešná“ videa, která nesou stejné charakteristiky podpisu jako jakékoli pozměněné video ve stylu deepfake a která nezávisí na konkrétních distribucích ani na nestálých aspektech, jako je chování prvků nebo algoritmické artefakty.
Zkoušky
Výzkumníci provedli experimenty na šesti známých souborech dat používaných při výzkumu detekce hluboce falešných zpráv: FaceForensics ++ (FF++); WildDeepFake; Náhled Deepfake Detection Challenge (DFDCP); Celeb-DF; Deepfake Detekce (DFD); a Face Shifter (FSh).
Pro FF++ výzkumníci trénovali svůj model na původním datovém souboru a testovali každou ze čtyř podmnožin samostatně. Bez použití jakéhokoli deepfake materiálu při tréninku byla nová metoda schopna překonat nejmodernější výsledky.
Metoda také zaujala přední pozici ve srovnání s komprimovanou datovou sadou FF++ C23, která poskytuje příklady, které obsahují druhy kompresních artefaktů, které jsou věrohodné v reálných prostředích pro zobrazení deepfake.
Autoři komentují:
„Výkony v rámci FF++ ověřují proveditelnost naší hlavní myšlenky, zatímco zobecnění zůstává hlavním problémem existujících metod detekce deepfake, protože výkon není zaručen při testování na deepfake generovaných neviditelnými technikami.
„Zvažte dále realitu závodů ve zbrojení mezi detektory a padělateli, zobecnitelnost je důležitým kritériem pro měření účinnosti detekční metody v reálném světě.“
Ačkoli vědci provedli řadu dílčích testů (podrobnosti viz článek) týkajících se „robustnosti“ a s různými typy vstupních videí (tj. skutečná, falešná, p-faked atd.), nejzajímavější výsledky pocházejí z testu výkonu napříč datovými sadami.
Za tímto účelem autoři trénovali svůj model na výše zmíněné „reálné“ verzi FF++ c23 a otestovali jej na čtyřech datových sadách, přičemž, jak autoři uvádějí, dosáhli vynikajícího výkonu ve všech z nich.

Výsledky z navzájem propojené datové sady. Článek uvádí, že SBI používá podobný přístup jako autoři, zatímco podle výzkumníků p-fake vykazuje lepší výkon při narušení časoprostorové pravidelnosti.
Článek uvádí:
„Na nejnáročnějším Deepwildu naše metoda překonává metodu SOTA asi o 10 procentních bodů, pokud jde o AUC%. Myslíme si, že je to způsobeno velkou rozmanitostí deepfaků v Deepwildu, což znemožňuje ostatním metodám dobře zobecňovat výsledky z viděných deepfaků.“
Metriky použité pro testy byly skóre přesnosti (ACC), plocha pod provozní charakteristikou přijímače (AUC) a stejná chybovost (EER).
Protiútoky?
Ačkoli média charakterizují napětí mezi deepfake vývojáři a výzkumníky deepfake detekce z hlediska technologické války, lze tvrdit, že ti první se jednoduše snaží o přesvědčivější výstup a že zvýšená obtížnost detekce deepfake je jen vedlejším produktem tohoto úsilí.
Zda se vývojáři pokusí vyřešit tento nově odhalený nedostatek, možná závisí na tom, zda mají pocit, že narušení pravidelnosti může být v hluboce falešném videu vnímáno pouhým okem jako známka neautenticity, a že proto tato metrika stojí za to. řešení z čistě kvalitativního hlediska.
Přestože od prvních online platform deepfake uplynulo pět let, deepfaking je stále relativně začínající technologií a komunita je pravděpodobně více posedlá detaily a rozlišením než správným kontextem nebo porovnáváním signatur komprimovaného videa, což obojí vyžaduje určitou „degradaci“ výstupu – přesně to, s čím se celá deepfake komunita v současné době potýká.
Pokud se ukáže, že všeobecný konsenzus panuje v tom, že narušení pravidelnosti je rodící se znak, který neovlivňuje kvalitu, nemusí být snaha jej kompenzovat – i když umět být „zrušeno“ některými postprocesními nebo procedurami v architektuře, což zdaleka není jasné.
Poprvé publikováno 22. července 2022.