Connect with us

Sztuczna inteligencja

Identifying Celebrity Deepfakes From Outer Face Regions

mm

Nowa współpraca między firmą Microsoft a chińskim uniwersytetem zaproponowała nowy sposób identyfikacji deepfake’ów celebrytów, wykorzystując słabości obecnych technik deepfake do rozpoznawania tożsamości, które zostały “przełożone” na innych ludzi.

Podejście to nosi nazwę Identity Consistency Transformer (ICT) i działa przez porównanie zewnętrznych części twarzy (żuchwy, kości policzkowych, linii włosów i innych zewnętrznych rysów) z wnętrzem twarzy. System wykorzystuje powszechnie dostępne publiczne dane obrazowe znanych osób, co ogranicza jego skuteczność do popularnych celebrytów, których obrazy są dostępne w dużych ilościach w powszechnie dostępnych zbiorach danych wizji komputerowej i w Internecie.

The forgery coverage of faked faces across seven techniques: DeepFake in FF+; DeepFake in Google DeepFake Detection; DeepFaceLab; Face2Face; FSGAN; and DF-VAE. Source: https://arxiv.org/pdf/2203.01318.pdf

The forgery coverage of faked faces across seven techniques: DeepFake in FF+; DeepFake in Google DeepFake Detection; DeepFaceLab; Face2Face; FSGAN; and DF-VAE. Popular packages such as DeepFaceLab and FaceSwap provide similarly constrained coverage. Source: https://arxiv.org/pdf/2203.01318.pdf

Jak ilustruje powyższy obraz, obecnie popularne metody deepfake są dość ograniczone pod względem zasobów i opierają się na odpowiednich twarzach-gospodarzach (obrazie lub filmie osoby, której tożsamość zostanie zastąpiona przez deepfake), aby zminimalizować dowody podmiany twarzy.

Chociaż różne metody mogą objąć całą czoło i dużą część policzków i kości żuchwy, wszystkie są bardziej lub mniej ograniczone w ramach twarzy-gospodarza.

A saliency map that emphasizes the 'inner' and 'outer' identities calculated by ICT. Where an inner facial match is established but an outer identity does not correspond, ICT evaluates the image as false.

A saliency map that emphasizes the ‘inner’ and ‘outer’ identities calculated by ICT. Where an inner facial match is established but an outer identity does not correspond, ICT evaluates the image as false.

W testach ICT okazał się w stanie wykryć treści deepfake w przyjaznych dla deepfake środowiskach, takich jak niskiej rozdzielczości wideo, gdzie zawartość całego wideo jest pogorszona przez artefakty kompresji, co utrudnia wykrywanie pozostałych dowodów procesu deepfake – okoliczność, która utrudnia wiele konkurencyjnych metod wykrywania deepfake.

ICT outperforms contenders in recognizing deepfake content. See video embedded at end of article for more examples and better resolution. Source: https://www.youtube.com/watch?v=zgF50dcymj8

ICT outperforms contenders in recognizing deepfake content. See video embedded at end of article for more examples and better resolution. See embedded source video at end of article for further examples. Source: https://www.youtube.com/watch?v=zgF50dcymj8

Artykuł paper nosi tytuł Protecting Celebrities with Identity Consistency Transformer i pochodzi od dziewięciu badaczy związanych z Uniwersytetem Nauki i Technologii Chin, Microsoft Research Asia i Microsoft Cloud + AI.

The Credibility Gap

Istnieją co najmniej dwa powody, dla których popularne algorytmy face-swapping, takie jak DeepFaceLab i FaceSwap, zaniedbują zewnętrzne obszary zamienianych tożsamości twarzy.

Po pierwsze, szkolenie modeli deepfake jest czasochłonne i wymaga dużych zasobów, a przyjęcie “kompatybilnych” twarzy/gospodarzy uwalnia cykle GPU i epoki, aby skoncentrować się na względnie niezmiennych wewnętrznych obszarach twarzy, które używamy do rozróżniania tożsamości (ponieważ zmienne, takie jak wahania wagi i starzenie, są najmniej prawdopodobne do zmiany tych podstawowych cech twarzy w krótkim okresie).

Po drugie, większość podejść deepfake (i jest to zdecydowanie przypadkiem z DeepFaceLab, oprogramowaniem używanym przez najbardziej popularnych lub najbardziej znanych praktyków) ma ograniczoną możliwość replikowania “końcowych” marginesów, takich jak policzki i kości żuchwy, i są ograniczone przez fakt, że ich kod źródłowy z 2017 roku nie rozwiązał tego problemu w sposób wystarczający.

W przypadkach, w których tożsamości nie pasują dobrze, algorytm deepfake musi “dopisać” tło wokół twarzy, co robi najgorzej, nawet w rękach najlepszych deepfakers, takich jak Ctrl Shift Face, którego wyniki zostały wykorzystane w badaniach.

The best of the best: stills from a deepfake video from acclaimed deepfaker Ctrl-Shift-Face, swapping Jim Carrey over Gary Oldman. This work arguably represents some of the best output currently available via DeepFaceLab and post-processing techniques. Nonetheless, the swaps remains limited to the relatively scant attention that DFL gives to the outer face, requiring a Herculean effort of data curation and training to address the outermost lineaments. Source: https://www.youtube.com/watch?v=x8igrh1eyLk

The best of the best: stills from a deepfake video from acclaimed deepfaker Ctrl-Shift-Face, swapping Jim Carrey over Gary Oldman. This work arguably represents some of the best output currently available via DeepFaceLab and post-processing techniques. Nonetheless, the swaps remain limited to the relatively scant attention that DFL gives to the outer face, requiring a Herculean effort of data curation and training to address the outermost lineaments. Source: https://www.youtube.com/watch?v=x8igrh1eyLk

To “sztuczne” lub odwrócenie uwagi w dużej mierze umyka uwadze publicznej w obecnym niepokoju o rosnącej realizmie deepfake, ponieważ nasze krytyczne zdolności wokół deepfake są nadal rozwijają się poza etapem “szoku i podziwu”.

Split Identities

Nowy artykuł zauważa, że większość poprzednich metod wykrywania deepfake opiera się na artefaktach, które zdradzają proces podmiany, takich jak niespójne pozy twarzy i mrużenie, wśród wielu innych technik. Tylko w zeszłym tygodniu inny nowy artykuł o wykrywaniu deepfake zaproponował wykorzystanie “sygnatury” różnych typów modeli w ramach FaceSwap, aby pomóc w identyfikacji sfałszowanych filmów wideo utworzonych przy użyciu tego oprogramowania (patrz obraz poniżej).

Identifying deepfakes by characterizing the signatures of different model types in the FaceSwap framework. Source: https://arxiv.org/pdf/2202.12951.pdf

Identifying deepfakes by characterizing the signatures of different model types in the FaceSwap framework. Source: https://arxiv.org/pdf/2202.12951.pdf

W przeciwieństwie do tego, architektura ICT tworzy dwie oddzielne, zagnieżdżone tożsamości dla osoby, z których każda musi zostać zweryfikowana przed ustaleniem, że cała tożsamość jest “prawdziwym” filmem lub obrazem.

Architecture for the training and testing phases of ICT.

Architecture for the training and testing phases of ICT.

Podział tożsamości jest ułatwiony przez transformator wizji Transformer, który wykonuje identyfikację twarzy przed podziałem badanych obszarów na tokeny należące do wewnętrznych lub zewnętrznych tożsamości.

Distributing patches among the two parallel identity signifiers.

Distributing patches among the two parallel identity signifiers.

Artykuł stwierdza:

‘Niestety, istniejące metody weryfikacji twarzy tendencję do charakteryzowania najbardziej dyskryminującego obszaru, tj. wewnętrznej twarzy do weryfikacji i nie udaje się uchwycić informacji o tożsamości w zewnętrznej twarzy. Z Identity Consistency Transformer, trenujemy model, aby nauczyć się pary wektorów tożsamości, jeden dla wewnętrznej twarzy i inny dla zewnętrznej twarzy, projektując Transformer, tak aby wewnętrzna i zewnętrzna tożsamość mogły być uczone jednocześnie w zintegrowanym modelu.’

Ponieważ nie ma istniejącego modelu dla tego protokołu identyfikacji, autorzy opracowali nowy rodzaj straty spójności, który może służyć jako miara autentyczności. Wynikające z tego “wewnętrzne tokeny” i “zewnętrzne tokeny” z modelu ekstrakcji tożsamości są dodawane do bardziej konwencjonalnych patch embeddings wytworzonych przez ramy identyfikacji twarzy.

Data and Training

Sieć ICT została przeszkolona na zbiorze danych Microsoft Research MS-Celeb-1M, który zawiera 10 milionów obrazów twarzy celebrytów, obejmujących jeden milion tożsamości, w tym aktorów, polityków i innych znanych postaci. Zgodnie z procedurą poprzedniej metody Face X-ray (inna inicjatywa Microsoft Research), ICT wykorzystuje rutynę generowania fałszywych danych w celu utworzenia materiału do testowania algorytmu.

Aby wykonać te wewnętrzne podmiany, ICT identyfikuje dwa obrazy w zbiorze danych, które wykazują podobne pozy twarzy i punkty orientacyjne, generuje maskę regionu cech centralnych (do którego można wykonać podmianę), a następnie wykonuje podmianę deepfake z korekcją koloru RGB.

Powodem, dla którego ICT jest ograniczony do identyfikacji celebrytów, jest to, że opiera się (w swojej najbardziej efektywnej wersji) na nowym zestawie odniesień, który zawiera pochodzące wektory twarzy z centralnego korpusu (w tym przypadku MS-Celeb-1M, chociaż odniesienia mogą być rozszerzone na sieciowo dostępne obrazy, co najprawdopodobniej istniałoby w wystarczającej jakości i ilości tylko dla znanych postaci publicznych).

Te pochodzące zestawy wektorów działają jako tokeny autentyczności w celu zweryfikowania wewnętrznych i zewnętrznych obszarów twarzy jednocześnie.

Autorzy zauważają, że tokeny uzyskane z tych metod reprezentują “wysokiego poziomu” cechy, w wyniku czego proces wykrywania deepfake jest bardziej prawdopodobny, aby przetrwać w wymagających środowiskach, takich jak niskiej rozdzielczości wideo lub innych pogorszonych wideo.

Co jest kluczowe, ICT nie szuka dowodów opartych na artefaktach, ale raczej koncentruje się na metodach weryfikacji tożsamości bardziej zgodnych z technikami rozpoznawania twarzy – podejściem, które jest trudne z niskim poziomem danych, takim jak w przypadku dochodzeń w sprawie incydentów deepfake zemsty pornograficznej przeciwko nieznanej osobie.

Tests

Przeszkolony na MS-Celeb-1M, ICT został podzielony na wersje z ułatwieniami i “ślepe” algorytmu, a następnie przetestowany wobec szeregu konkurencyjnych zbiorów danych i metod. Obejmowały one FaceForensics++ (FF++), zbiór 1000 autentycznych i deepfake filmów wideo utworzonych przy użyciu czterech metod, w tym Face2Face i FaceSwap; Google Deepfake Detection (DFD), również składający się z tysięcy filmów wideo deepfake wygenerowanych przez Google; Celeb-DeepFake v1 (CD1), który zawiera 408 prawdziwych i 795 syntetycznych, niskiego poziomu artefaktów filmów wideo; Celeb-DeepFake v2, rozszerzenie wersji V1, zawierające 590 prawdziwych i 5 639 fałszywych filmów wideo; oraz chiński Deeper-Forensics (Deeper) z 2020 roku.

To są zbiory danych; metody wykrywania w teście to Multi-task, MesoInc4, Capsule, Xception-c0, c2 (metoda zastosowana w FF++), FWA/DSP-FW z Uniwersytetu w Albany, Two-Branch, PCL+I2G, oraz metoda context-discrepancy Yuvala Nirkin.

Wspomniane metody wykrywania są skierowane do wykrywania konkretnych typów manipulacji twarzą. Oprócz tych, autorzy nowego artykułu przetestowali bardziej ogólne metody wykrywania deepfake Face X-ray, FFD z Michigan State University, CNNDetection oraz Patch-Forensics z MIT CSAIL.

Najbardziej widoczne wyniki z testu są takie, że metody konkurencyjne dramatycznie spadają w skuteczności, gdy rozdzielczość i jakość wideo maleje. Ponieważ część z najpoważniejszych potencjalnych deepfake przenikających naszych zdolności dyskryminacyjnych leży (nie tylko w obecnej chwili) w non-HD lub innych pogorszonych wideo, wydaje się to znaczącym wynikiem.

W powyższym wykresie wyników linie niebieskie i czerwone wskazują na odporność metod ICT na pogorszenie obrazu we wszystkich obszarach, z wyjątkiem przeszkody szumu Gaussa (co nie jest prawdopodobne w przypadku filmów wideo z Zoom i webcam), podczas gdy metody konkurencyjne mają Malejącą niezawodność.

W poniższej tabeli wyników widzimy skuteczność różnych metod wykrywania deepfake w nieznanym zbiorze danych. Szare i gwiazdkowane wyniki wskazują porównanie z oryginalnymi wynikami w projektach zamkniętych, które nie mogą być weryfikowane zewnętrznie. Przez większość porównywalnych ram, ICT przewyższa metody wykrywania deepfake (wyróżnione pogrubieniem) w danych testowych.

Jako dodatkowy test, autorzy uruchomili treści z kanału YouTube uznanych deepfakers Ctrl Shift Face i stwierdzili, że metody konkurencyjne osiągają znacznie gorsze wyniki identyfikacji:

Godne uwagi jest to, że metody FF++ (Xception-c23) i FFD, które osiągają jeden z najwyższych wyników w niektórych danych testowych w ogólnych testach nowego artykułu, osiągają znacznie niższy wynik niż ICT w “rzeczywistym” kontekście wysiłku deepfake.

Autorzy kończą artykuł z nadzieją, że jego wyniki skierują społeczność wykrywania deepfake w kierunku podobnych inicjatyw, które koncentrują się na bardziej ogólnych cechach wysokiego poziomu, i z dala od “zimnej wojny” wykrywania artefaktów, w której najnowsze metody są rutynowo unieważniane przez rozwój ram deepfake lub przez inne czynniki, które sprawiają, że takie metody są mniej odporne.

Zobacz towarzyszący film wideo poniżej, aby zobaczyć więcej przykładów ICT identyfikującego treści deepfake, które często oszukują alternatywne metody.

 

 

Pierwotnie opublikowane 4 marca 2022.

Pisarz na temat uczenia maszynowego, specjalista ds. syntezowania obrazów ludzi. Były kierownik treści badawczych w Metaphysic.ai.