Sztuczna inteligencja
Nowa i prostsza metoda Deepfake, która przewyższa poprzednie podejścia

Współpraca chińskiej grupy badawczej AI i amerykańskich badaczy doprowadziła do stworzenia tego, co może być pierwszą prawdziwą innowacją w technologii deepfake od czasu, gdy zjawisko to pojawiło się cztery lata temu.
Nowa metoda może wykonywać zamiany twarzy, które przewyższają wszystkie inne istniejące ramy w standardowych testach percepcyjnych, bez potrzeby wyczerpującego gromadzenia i kuracji dużych dedykowanych zbiorów danych i szkolenia ich przez tydzień dla jednej tylko tożsamości. Dla przykładów przedstawionych w nowym artykule, modele były szkolone na całości dwóch popularnych zbiorów danych celebrity, na jednym NVIDIA Tesla P40 GPU przez około trzy dni.

Pełne wideo dostępne na końcu tego artykułu. W tym przykładzie z wideo w materiałach uzupełniających do nowego artykułu, twarz Scarlett Johansson jest przenoszona na wideo źródłowe. CihaNet usuwa problem maskowania krawędzi podczas wykonywania zamiany, tworząc i realizując głębsze relacje między źródłową a docelową tożsamością, co oznacza koniec ‘oczywistych granic’ i innych błędów nakładania, które występują w tradycyjnych podejściach do deepfake. Źródło: https://mitchellx.github.io/#video
Nowe podejście usuwa potrzebę ‘wklejania’ przeszczepionej tożsamości w sposób nieelegancki do wideo docelowego, co często prowadzi do charakterystycznych artefaktów, które pojawiają się tam, gdzie kończy się fałszywa twarz, a zaczyna się prawdziwa, podstawowa twarz. Zamiast tego, ‘mapy halucynacji’ są używane do wykonania głębszego mieszania cech wizualnych, ponieważ system oddziela tożsamość od kontekstu znacznie skuteczniej niż obecne metody, i może więc łączyć tożsamość docelową na głębszym poziomie.

Z artykułu. Przekształcenia CihaNet są ułatwione za pomocą map halucynacji (dolny rząd). System wykorzystuje informacje kontekstowe (tj. kierunek twarzy, włosy, okulary i inne przeszkody itp.) w całości z obrazu, do którego nowa tożsamość będzie nakładana, oraz informacje o tożsamości twarzy w całości od osoby, która ma być wstawiona do obrazu. Ta zdolność do oddzielenia twarzy od kontekstu jest kluczowa dla sukcesu systemu. Źródło: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257
Skutecznie nowa mapa halucynacji zapewnia bardziej kompletny kontekst dla zamiany, w przeciwieństwie do twardych masek, które często wymagają obszernego kuracji (i w przypadku DeepFaceLab, oddzielnego szkolenia) podczas zapewniania ograniczonej elastyczności w zakresie rzeczywistego włączenia dwóch tożsamości.

Z przykładów przedstawionych w materiałach uzupełniających, przy użyciu zarówno zbioru FFHQ, jak i Celeb-A HQ, na VGGFace i Forensics++. Pierwsze dwie kolumny pokazują losowo wybrane (rzeczywiste) obrazy do zamiany. Kolejne cztery kolumny pokazują wyniki zamiany przy użyciu czterech najskuteczniejszych metod obecnie dostępnych, podczas gdy ostatnia kolumna pokazuje wynik z CihaNet. Zostało użyte repozytorium FaceSwap, zamiast bardziej popularnego DeepFaceLab, ponieważ oba projekty są forkami oryginalnego kodu Deepfakes z 2017 roku na GitHub. Chociaż każdy projekt dodał od tego czasu modele, techniki, różne interfejsy i narzędzia uzupełniające, podstawowy kod, który umożliwia tworzenie deepfake, nigdy nie uległ zmianie i pozostaje wspólny dla obu. Źródło: https://dl.acm.org/action/downloadSupplement?doi=10.1145%2F3474085.3475257&file=mfp0519aux.zip
Artykuł artykuł, zatytułowany One-stage Context and Identity Hallucination Network, został napisany przez badaczy z JD AI Research i Uniwersytetu Massachusetts Amherst, i został wsparty przez Narodowy Program Badawczo-Rozwojowy Chin w ramach Grantu nr 2020AAA0103800. Został on przedstawiony na 29. Międzynarodowej Konferencji ACM poświęconej multimediom, w dniach 20-24 października, w Chengdu, Chiny.
Brak potrzeby ‘twarzy na twarz’
Najpopularniejsze obecnie oprogramowanie do deepfake, DeepFaceLab, oraz konkurujący fork FaceSwap, wykonują skomplikowane i często ręcznie kuratorowane przepływy pracy, aby określić, w jaki sposób twarz jest nachylona, jakie przeszkody są na drodze, które muszą być uwzględnione (ponownie, ręcznie), i muszą radzić sobie z wieloma innymi irytującymi przeszkodami (w tym oświetleniem), które sprawiają, że ich użycie jest daleko od ‘wskazania i kliknięcia’ doświadczenia, które zostało niesłusznie przedstawione w mediach od czasu pojawienia się deepfake.
W przeciwieństwie do tego, CihaNet nie wymaga, aby dwie twarze były skierowane bezpośrednio do kamery, aby wyodrębnić i wykorzystać przydatne informacje o tożsamości z jednego obrazu.

W tych przykładach, seria oprogramowania do deepfake jest wyzwana do zamiany twarzy, które nie tylko różnią się tożsamością, ale także nie są skierowane w tę samą stronę. Oprogramowanie pochodzące z oryginalnego repozytorium deepfakes (takie jak bardzo popularne DeepFaceLab i FaceSwap, przedstawione powyżej) nie może radzić sobie z różnicą kątów między dwoma obrazami do zamiany (patrz trzecia kolumna). Tymczasem CihaNet może abstrakcyjnie oddzielić tożsamość, ponieważ ‘położenie’ twarzy nie jest wewnętrznie częścią informacji o tożsamości.
Architektura
Projekt CihaNet, według autorów, został zainspirowany współpracą z 2019 roku między Microsoft Research i Peking University, zwaną FaceShifter, chociaż wprowadza pewne znaczące i krytyczne zmiany w podstawowej architekturze starszej metody.
FaceShifter wykorzystuje dwie sieci Adaptive Instance Normalization (AdaIN) do obsługi informacji o tożsamości, które są następnie przenoszone do obrazu docelowego za pomocą maski, w sposób podobny do obecnych popularnych oprogramowań do deepfake (i z wszystkimi ich ograniczeniami), przy użyciu dodatkowej HEAR-Net (która obejmuje oddzielnie wytrenowaną podsieć wytrenowaną na przeszkodach zakrywających – dodatkową warstwę złożoności).
Zamiast tego, nowa architektura bezpośrednio wykorzystuje te ‘kontekstowe’ informacje do samego procesu transformacji, za pomocą dwuetapowej operacji Cascading Adaptive Instance Normalization (C-AdaIN), która zapewnia spójność kontekstu (tj. skóry twarzy i zakrywających) obszarów istotnych dla tożsamości.
Druga podsieć, która jest niezbędna dla systemu, nazywa się Swapping Block (SwapBlk), która generuje zintegrowaną cechę z kontekstu obrazu odniesienia i wbudowanej ‘informacji o tożsamości’ z obrazu źródłowego, omijając wiele etapów niezbędnych do wykonania tego w konwencjonalnych środkach.
Aby pomóc w rozróżnieniu kontekstu i tożsamości, mapa halucynacji jest generowana dla każdego poziomu, zastępując miękką maskę segmentacji, i działając na szerszy zakres cech dla tego krytycznego etapu procesu deepfake.

Gdy wartość mapy halucynacji (przedstawionej na dole po prawej) rośnie, pojawia się wyraźniejsza ścieżka między tożsamościami.
W ten sposób, cały proces zamiany jest wykonany w jednym etapie i bez przetwarzania pośredniego.
Dane i testy
Aby przetestować system, badacze wytrenowali cztery modele na dwóch bardzo popularnych i zróżnicowanych otwartych zbiorach obrazów – CelebA-HQ i NVIDIA’s Flickr-Faces-HQ Dataset (FFHQ), każdy zawierający odpowiednio 30 000 i 70 000 obrazów.
Żadne przycinanie ani filtrowanie nie zostało wykonane na tych podstawowych zbiorach danych. W każdym przypadku, badacze wytrenowali całość każdego zbioru danych na jednym Tesla GPU przez trzy dni, z szybkością uczenia 0,0002 na optymalizacji Adam.
Następnie wyrenderowali serię losowych zamian wśród tysięcy osobowości przedstawionych w zbiorach danych, bez względu na to, czy twarze były podobne czy nawet dopasowane pod względem płci, i porównali wyniki CihaNet z wynikami z czterech wiodących ram deepfake: FaceSwap (który reprezentuje bardziej popularny DeepFaceLab, ponieważ dzieli ten sam kod źródłowy w oryginalnym repozytorium z 2017 roku, które spopularyzowało deepfakes); wspomniany wcześniej FaceShifter; FSGAN; oraz SimSwap.
Przy porównywaniu wyników za pomocą VGG-Face, FFHQ, CelebA-HQ i FaceForensics++, autorzy stwierdzili, że ich nowy model przewyższa wszystkie poprzednie modele, jak wskazano w poniższej tabeli.

Trzy metryki użyte do oceny wyników to Similarity Structural ( SSIM), błąd oszacowania położenia i dokładność odzyskiwania tożsamości, która jest obliczana na podstawie procentu pomyślnie odzyskanych par.
Badacze twierdzą, że CihaNet reprezentuje lepsze podejście pod względem wyników jakościowych i znacznego postępu w stosunku do obecnego stanu sztuki w technologiach deepfake, poprzez usunięcie ciężaru obszernych i pracochłonnych architektur maskowania i metodologii, oraz osiągnięcie bardziej użytecznego i przydatnego rozdzielenia tożsamości od kontekstu.
Zobacz poniżej, aby zobaczyć więcej przykładów wideo nowej techniki. Można znaleźć pełne wideo tutaj.
Z materiałów uzupełniających do nowego artykułu, CihaNet wykonuje zamianę twarzy na różnych tożsamościach. Źródło: https://mitchellx.github.io/#video












