Umělá inteligence

Identifikace deepfake celebrit z vnějších oblastí obličeje

Published March 4, 2022

Updated April 5, 2026

Martin Anderson

Nová spolupráce mezi Microsoftem a čínskou univerzitou navrhla novou metodu identifikace deepfake celebrit, využívající slabiny současných technik deepfake k rozpoznání identit, které byly „projektovány“ na jiné lidi.

Přístup se nazývá Identity Consistency Transformer (ICT) a funguje tak, že porovnává vnější části obličeje (čelist, lícní kosti, vlasová linie a další vnější okrajové rysy) s vnitřní částí obličeje. Systém využívá běžně dostupná veřejná obrazová data slavných lidí, což omezuje jeho účinnost na populární celebrity, jejichž obrázky jsou dostupné ve velkém počtu ve veřejně dostupných datech počítačového vidění a na internetu.

The forgery coverage of faked faces across seven techniques: DeepFake in FF+; DeepFake in Google DeepFake Detection; DeepFaceLab; Face2Face; FSGAN; and DF-VAE. Popular packages such as DeepFaceLab and FaceSwap provide similarly constrained coverage. Source: https://arxiv.org/pdf/2203.01318.pdf

Jak ilustruje výše uvedená obraz, současné populární metody deepfaking jsou poměrně omezené zdroji a spoléhají na vhodné host-obličeje (obrázek nebo video osoby, jejíž identita bude nahrazena deepfake) k minimalizaci důkazů o nahrazení obličeje.

Ačkoli různé metody mohou zahrnovat celou čelní část a velkou část brady a lícních kostí, všechny jsou více nebo méně omezeny uvnitř rámu host-obličeje.

A saliency map that emphasizes the ‘inner’ and ‘outer’ identities calculated by ICT. Where an inner facial match is established but an outer identity does not correspond, ICT evaluates the image as false.

Ve testech ICT prokázal schopnost detekovat deepfake obsah v nízkém rozlišení videa, kde je obsah celého videa degradován kompresními artefakty, což pomáhá skrýt zbytkové důkazy deepfake procesu – okolnost, která znepokojuje mnoho konkurenčních metod detekce deepfake.

ICT outperforms contenders in recognizing deepfake content. See video embedded at end of article for more examples and better resolution. Source: https://www.youtube.com/watch?v=zgF50dcymj8

ICT outperforms contenders in recognizing deepfake content. See video embedded at end of article for more examples and better resolution. See embedded source video at end of article for further examples. Source: https://www.youtube.com/watch?v=zgF50dcymj8

Článek je nazvaný paper a pochází od devíti výzkumníků různých univerzit a institucí, včetně Univerzity vědy a technologie Číny, Microsoft Research Asia a Microsoft Cloud + AI.

Mezera důvěryhodnosti

Existují alespoň dva důvody, proč populární algoritmy pro výměnu obličeje, jako je DeepFaceLab a FaceSwap, zanedbávají vnější oblasti vyměněných obličejů.

První důvod je, že trénování modelů deepfake je časově náročné a kritické zdroji, a přijetí „kompatibilních“ host-obličejů/bodies uvolňuje GPU cykly a epochy pro koncentraci na relativně neměnné vnitřní oblasti obličeje, které používáme k rozpoznání identity (protože proměnné, jako je kolísání hmotnosti a stárnutí, jsou nejméně pravděpodobně měnit tyto základní rysy obličeje v krátkém období).

Druhý důvod je, že většina metod deepfake (a to je určitě případ s DeepFaceLab, softwarem, který používají nejpopulárnější nebo nejznámější praktici) má omezenou schopnost replikovat „koncové“ okraje obličeje, jako jsou lícní a bradové oblasti, a jsou omezeny tím, že jejich upstream (2017) kód nezabýval touto otázkou dostatečně.

V případech, kdy identity nedopovídají dobře, musí algoritmus deepfake „doplnit“ pozadí kolem obličeje, což dělá neuměle, i v rukou nejlepších deepfakers, jako je Ctrl Shift Face, jehož výstup byl použit ve studiích článku.

The best of the best: stills from a deepfake video from acclaimed deepfaker Ctrl-Shift-Face, swapping Jim Carrey over Gary Oldman. This work arguably represents some of the best output currently available via DeepFaceLab and post-processing techniques. Nonetheless, the swaps remain limited to the relatively scant attention that DFL gives to the outer face, requiring a Herculean effort of data curation and training to address the outermost lineaments. Source: https://www.youtube.com/watch?v=x8igrh1eyLk

Tato „sleight of hand“, nebo odvrácení pozornosti, většinou uniká veřejnému povědomí v současném znepokojení nad rostoucí realističností deepfake, protože naše kritické fakulty kolem deepfake jsou stále ve vývoji za fázi „šoku a údivu“.

Rozdělené identity

Nový článek uvádí, že většina předchozích metod detekce deepfake se spoléhá na artefakty, které zradí proces výměny, jako je nesouladné polohy hlavy a mrknutí, mezi četnými dalšími technikami. Pouze tento týden, další nová metoda detekce deepfake navrhla použití „podpisu“ různých modelových typů v rámci FaceSwap k pomoci identifikovat padělané video vytvořené s ním (viz obrázek níže).

Identifying deepfakes by characterizing the signatures of different model types in the FaceSwap framework. Source: https://arxiv.org/pdf/2202.12951.pdf

Na rozdíl od toho vytváří architektura ICT dvě samostatné vnořené identity pro osobu, z nichž každá musí být ověřena, než je celá identita uzavřena jako „pravdivá“ nebo „falešná“.

Architecture for the training and testing phases of ICT.

Rozdělení identit je usnadněno vizuálním Transformérem, který provádí rozpoznání obličeje před rozdělením prozkoumaných oblastí do tokenů patřících do vnitřních nebo vnějších identit.

Distributing patches among the two parallel identity signifiers.

Článek uvádí:

‘Bohužel, stávající metody ověřování obličeje tendenci charakterizovat nejvíce diskriminační oblast, tj. vnitřní obličej pro ověření a selhávají při zachycení informací o identitě ve vnějším obličeji. S Identity Consistency Transformer, trénujeme model, aby se naučil pár identifikačních vektorů, jeden pro vnitřní obličej a druhý pro vnější obličej, navrhnout Transformér, aby vnitřní a vnější identity mohly být naučeny současně v bezproblémovém sjednoceném modelu.’

Jelikož neexistuje žádný existující model pro tento identifikační protokol, autoři vytvořili novou konzistenci ztráty, která může sloužit jako metrika pro autenticitu. „Vnitřní token“ a „vnější token“, které vyplývají z modelu extrakce identity, jsou přidány k více konvenčním patch embeddingům vyprodukovaným rámcemi rozpoznání obličeje.

Data a trénování

Síť ICT byla trénována na datech Microsoft Research MS-Celeb-1M, které obsahují 10 milionů obrázků celebritních obličejů pokrývajících jeden milion identit, včetně herců, politiků a mnoha dalších typů prominentních osobností. Podle postupu předchozí metody Face X-ray (další iniciativa Microsoft Research), vlastní rutina generování falešných dat ICT vyměňuje vnitřní a vnější oblasti obličejů z tohoto datasetu, aby vytvořila materiál, na kterém lze testovat algoritmus.

K provedení těchto vnitřních swapů ICT identifikuje dvě obrázky v datasetu, které vykazují podobné polohy hlavy a obličejové rysy, generuje maskovací oblast středních rysů (do které lze provést swap), a provede deepfake swap s RGB barevnou korekcí.

Důvod, proč je ICT omezen na identifikaci celebrit, je ten, že spoléhá (v jeho nejúčinnější variantě) na novou referenční sadu, která zahrnuje odvozené vektory obličeje z centrálního korpusu (v tomto případě MS-Celeb-1M, i když by se odkaz mohl rozšířit na síťově dostupné obrázky, které by pravděpodobně existovaly pouze v dostatečné kvalitě a množství pro dobře známé veřejnosti).

Tyto odvozené vektorové dvojice slouží jako tokeny autenticity k ověření vnitřních a vnějších oblastí obličeje současně.

Autoři uvádějí, že tokeny získané z těchto metod představují „high-level“ rysy, což vede k procesu detekce deepfake, který je více pravděpodobný, že přežije náročné prostředí, jako je nízké rozlišení nebo jinak degradované video.

Kriticky, ICT ne hledá důkazy založené na artefaktech, ale spíše se zaměřuje na metody ověření identity, které jsou více v souladu s technikami rozpoznání obličeje – přístup, který je obtížný s nízkým objemem dat, jako je případ vyšetřování incidentů deepfake pomsty proti neznámým cílům.

Testy

Trénován na MS-Celeb-1M, ICT byl poté rozdělen do referenční asistované a „slepé“ verze algoritmu a testován proti řadě konkurenčních datasetů a metod. Tyto zahrnovaly FaceForensics++ (FF++), dataset 1000 autentických a deepfake videí vytvořených napříč čtyřmi metodami, včetně Face2Face a FaceSwap; Google’s Deepfake Detection (DFD), který se skládá z tisíců deepfake videí vygenerovaných Googlem; Celeb-DeepFake v1 (CD1), který obsahuje 408 skutečných a 795 syntetizovaných, nízkých artefaktů videí; Celeb-DeepFake v2, rozšíření V1, které obsahuje 590 skutečných a 5 639 falešných videí; a Čína 2020 Deeper-Forensics (Deeper).

Tyto jsou datové sady; metody detekce deepfake v testovacích výzvách byly Multi-task, MesoInc4, Capsule, Xception-c0, c2 (metoda použita v FF++), FWA/DSP-FW z University at Albany, Two-Branch, PCL+I2G, a Yuval Nirkinova kontext-discrepancy metoda.

Uvedené metody detekce jsou zaměřeny na detekci konkrétních typů manipulace obličejem. Kromě těchto, autoři nového článku testovali obecnější nabídky detekce deepfake Face X-ray, Michigan State University FFD, CNNDetection, a Patch-Forensics z MIT CSAIL.

Nejpříznivější výsledky z testu jsou, že konkurenční metody dramaticky klesají v účinnosti, jak se snižuje rozlišení a kvalita videa. Jelikož některé z nejzávažnějších potenciálů pro deepfake proniknutí našich diskriminačních sil (nejen v současné době) leží (nejen) v non-HD nebo jinak kvalitativně poškozeném videu, zdá se, že to je významný výsledek.

Ve výsledkovém grafu výše, modré a červené linie ukazují odolnost metod ICT vůči degradaci obrazu ve všech oblastech kromě Gaussian šumu (což není pravděpodobné ve videu Zoom a webové kamery), zatímco konkurenční metody spolehlivosti prudce klesají.

V tabulce výsledků níže vidíme účinnost různých metod detekce deepfake na neviditelných datech. Šedé a hvězdičkové výsledky indikují srovnání z původně publikovaných výsledků v uzavřených zdrojových projektech, které nelze externě ověřit. Napříč téměř všemi srovnatelnými rámci ICT překonává konkurenční přístupy detekce deepfake (zobrazené tučně) na testovaných datech.

Jako další test, autoři spustili obsah z YouTube kanálu uznávaného deepfakra Ctrl Shift Face a zjistili, že konkurenční metody dosáhly zřetelně nižších identifikačních skórů:

Zejména je zde FF++ metody (Xception-c23) a FFD, které dosáhly několika z nejvyšších skórů napříč některými testovacími daty v obecných testech nového článku, zde dosáhly mnohem nižšího skóre než ICT v „reálném světě“ kontextu vysoce úsilového deepfake obsahu.

Autoři článku uzavírají, že doufají, že výsledky článku povedou komunitu detekce deepfake k podobným iniciativám, které se soustředí na více obecně použitelné high-level rysy, a pryč od „studené války“ detekce artefaktů, ve které jsou nejnovější metody rutinně obviňovány z vývoje v rámcích deepfake nebo jinými faktory, které činí tyto metody méně odolnými.

Podívejte se na doprovodné video níže pro více příkladů ICT identifikace deepfake obsahu, který často outfoxes alternativní metody.

Poprvé publikováno 4. března 2022.

Martin Anderson

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai

Unite.AI

Identifikace deepfake celebrit z vnějších oblastí obličeje

Mezera důvěryhodnosti

Rozdělené identity

Data a trénování

Testy

You may like