Connect with us

Sztuczna inteligencja

Nowa i prostsza metoda Deepfake, która przewyższa poprzednie podejścia

mm

Współpraca chińskiej grupy badawczej AI i amerykańskich badaczy doprowadziła do stworzenia tego, co może być pierwszą prawdziwą innowacją w technologii deepfake od czasu, gdy zjawisko to pojawiło się cztery lata temu.

Nowa metoda może wykonywać zamiany twarzy, które przewyższają wszystkie inne istniejące ramy w standardowych testach percepcyjnych, bez potrzeby wyczerpującego gromadzenia i kuracji dużych dedykowanych zbiorów danych i szkolenia ich przez tydzień dla jednej tylko tożsamości. Dla przykładów przedstawionych w nowym artykule, modele były szkolone na całości dwóch popularnych zbiorów danych celebrity, na jednym NVIDIA Tesla P40 GPU przez około trzy dni.

Pełne wideo znajduje się na końcu tego artykułu. W tym przykładzie z wideo w materiałach uzupełniających do nowego artykułu, twarz Scarlett Johansson jest przenoszona na wideo źródłowe. CihaNet usuwa problem maskowania krawędzi podczas wykonywania zamiany, tworząc i realizując głębsze relacje między źródłową a docelową tożsamością, co oznacza koniec 'oczywistych granic' i innych błędów nakładania, które występują w tradycyjnych podejściach do deepfake. Źródło: https://mitchellx.github.io/#video

Pełne wideo dostępne na końcu tego artykułu. W tym przykładzie z wideo w materiałach uzupełniających do nowego artykułu, twarz Scarlett Johansson jest przenoszona na wideo źródłowe. CihaNet usuwa problem maskowania krawędzi podczas wykonywania zamiany, tworząc i realizując głębsze relacje między źródłową a docelową tożsamością, co oznacza koniec ‘oczywistych granic’ i innych błędów nakładania, które występują w tradycyjnych podejściach do deepfake. Źródło: https://mitchellx.github.io/#video

Nowe podejście usuwa potrzebę ‘wklejania’ przeszczepionej tożsamości w sposób nieelegancki do wideo docelowego, co często prowadzi do charakterystycznych artefaktów, które pojawiają się tam, gdzie kończy się fałszywa twarz, a zaczyna się prawdziwa, podstawowa twarz. Zamiast tego, ‘mapy halucynacji’ są używane do wykonania głębszego mieszania cech wizualnych, ponieważ system oddziela tożsamość od kontekstu znacznie skuteczniej niż obecne metody, i może więc łączyć tożsamość docelową na głębszym poziomie.

Z artykułu. Przekształcenia CihaNet są ułatwione za pomocą map halucynacji (dolny rząd). System wykorzystuje informacje kontekstowe (tj. kierunek twarzy, włosy, okulary i inne przeszkody itp.) w całości z obrazu, do którego nowa tożsamość będzie nakładana, oraz informacje o tożsamości twarzy w całości od osoby, która ma być wstawiona do obrazu. Ta zdolność do oddzielenia twarzy od kontekstu jest kluczowa dla sukcesu systemu. Źródło: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257

Z artykułu. Przekształcenia CihaNet są ułatwione za pomocą map halucynacji (dolny rząd). System wykorzystuje informacje kontekstowe (tj. kierunek twarzy, włosy, okulary i inne przeszkody itp.) w całości z obrazu, do którego nowa tożsamość będzie nakładana, oraz informacje o tożsamości twarzy w całości od osoby, która ma być wstawiona do obrazu. Ta zdolność do oddzielenia twarzy od kontekstu jest kluczowa dla sukcesu systemu. Źródło: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257

Skutecznie nowa mapa halucynacji zapewnia bardziej kompletny kontekst dla zamiany, w przeciwieństwie do twardych masek, które często wymagają obszernego kuracji (i w przypadku DeepFaceLab, oddzielnego szkolenia) podczas zapewniania ograniczonej elastyczności w zakresie rzeczywistego włączenia dwóch tożsamości.

Z przykładów przedstawionych w materiałach uzupełniających, przy użyciu zarówno zbioru FFHQ, jak i Celeb-A HQ, na VGGFace i Forensics++. Pierwsze dwie kolumny pokazują losowo wybrane (rzeczywiste) obrazy do zamiany. Kolejne cztery kolumny pokazują wyniki zamiany przy użyciu czterech najskuteczniejszych metod obecnie dostępnych, podczas gdy ostatnia kolumna pokazuje wynik z CihaNet. Zostało użyte repozytorium FaceSwap, zamiast bardziej popularnego DeepFaceLab, ponieważ oba projekty są forkami oryginalnego kodu Deepfakes z 2017 roku na GitHub. Chociaż każdy projekt dodał od tego czasu modele, techniki, różne interfejsy i narzędzia uzupełniające, podstawowy kod, który umożliwia tworzenie deepfake, nigdy nie uległ zmianie i pozostaje wspólny dla obu. Źródło: https://dl.acm.org/action/downloadSupplement?doi=10.1145%2F3474085.3475257&file=mfp0519aux.zip

Artykuł artykuł, zatytułowany One-stage Context and Identity Hallucination Network, został napisany przez badaczy z JD AI Research i Uniwersytetu Massachusetts Amherst, i został wsparty przez Narodowy Program Badawczo-Rozwojowy Chin w ramach Grantu nr 2020AAA0103800. Został on przedstawiony na 29. Międzynarodowej Konferencji ACM poświęconej multimediom, w dniach 20-24 października, w Chengdu, Chiny.

Brak potrzeby ‘twarzy na twarz’

Najpopularniejsze obecnie oprogramowanie do deepfake, DeepFaceLab, oraz konkurujący fork FaceSwap, wykonują skomplikowane i często ręcznie kuratorowane przepływy pracy, aby określić, w jaki sposób twarz jest nachylona, jakie przeszkody są na drodze, które muszą być uwzględnione (ponownie, ręcznie), i muszą radzić sobie z wieloma innymi irytującymi przeszkodami (w tym oświetleniem), które sprawiają, że ich użycie jest daleko od ‘wskazania i kliknięcia’ doświadczenia, które zostało niesłusznie przedstawione w mediach od czasu pojawienia się deepfake.

W przeciwieństwie do tego, CihaNet nie wymaga, aby dwie twarze były skierowane bezpośrednio do kamery, aby wyodrębnić i wykorzystać przydatne informacje o tożsamości z jednego obrazu.

W tych przykładach, seria oprogramowania do deepfake jest wyzwana do zamiany twarzy, które nie tylko różnią się tożsamością, ale także nie są skierowane w tę samą stronę. Oprogramowanie pochodzące z oryginalnego repozytorium deepfakes (takie jak bardzo popularne DeepFaceLab i FaceSwap, przedstawione powyżej) nie może radzić sobie z różnicą kątów między dwoma obrazami do zamiany (patrz trzecia kolumna). Tymczasem CihaNet może abstrakcyjnie oddzielić tożsamość, ponieważ 'położenie' twarzy nie jest wewnętrznie częścią informacji o tożsamości.

W tych przykładach, seria oprogramowania do deepfake jest wyzwana do zamiany twarzy, które nie tylko różnią się tożsamością, ale także nie są skierowane w tę samą stronę. Oprogramowanie pochodzące z oryginalnego repozytorium deepfakes (takie jak bardzo popularne DeepFaceLab i FaceSwap, przedstawione powyżej) nie może radzić sobie z różnicą kątów między dwoma obrazami do zamiany (patrz trzecia kolumna). Tymczasem CihaNet może abstrakcyjnie oddzielić tożsamość, ponieważ ‘położenie’ twarzy nie jest wewnętrznie częścią informacji o tożsamości.

Architektura

Projekt CihaNet, według autorów, został zainspirowany współpracą z 2019 roku między Microsoft Research i Peking University, zwaną FaceShifter, chociaż wprowadza pewne znaczące i krytyczne zmiany w podstawowej architekturze starszej metody.

FaceShifter wykorzystuje dwie sieci Adaptive Instance Normalization (AdaIN) do obsługi informacji o tożsamości, które są następnie przenoszone do obrazu docelowego za pomocą maski, w sposób podobny do obecnych popularnych oprogramowań do deepfake (i z wszystkimi ich ograniczeniami), przy użyciu dodatkowej HEAR-Net (która obejmuje oddzielnie wytrenowaną podsieć wytrenowaną na przeszkodach zakrywających – dodatkową warstwę złożoności).

Zamiast tego, nowa architektura bezpośrednio wykorzystuje te ‘kontekstowe’ informacje do samego procesu transformacji, za pomocą dwuetapowej operacji Cascading Adaptive Instance Normalization (C-AdaIN), która zapewnia spójność kontekstu (tj. skóry twarzy i zakrywających) obszarów istotnych dla tożsamości.

Druga podsieć, która jest niezbędna dla systemu, nazywa się Swapping Block (SwapBlk), która generuje zintegrowaną cechę z kontekstu obrazu odniesienia i wbudowanej ‘informacji o tożsamości’ z obrazu źródłowego, omijając wiele etapów niezbędnych do wykonania tego w konwencjonalnych środkach.

Aby pomóc w rozróżnieniu kontekstu i tożsamości, mapa halucynacji jest generowana dla każdego poziomu, zastępując miękką maskę segmentacji, i działając na szerszy zakres cech dla tego krytycznego etapu procesu deepfake.

Gdy wartość mapy halucynacji (przedstawionej na dole po prawej) rośnie, pojawia się wyraźniejsza ścieżka między tożsamościami.

Gdy wartość mapy halucynacji (przedstawionej na dole po prawej) rośnie, pojawia się wyraźniejsza ścieżka między tożsamościami.

W ten sposób, cały proces zamiany jest wykonany w jednym etapie i bez przetwarzania pośredniego.

Dane i testy

Aby przetestować system, badacze wytrenowali cztery modele na dwóch bardzo popularnych i zróżnicowanych otwartych zbiorach obrazów – CelebA-HQ i NVIDIA’s Flickr-Faces-HQ Dataset (FFHQ), każdy zawierający odpowiednio 30 000 i 70 000 obrazów.

Żadne przycinanie ani filtrowanie nie zostało wykonane na tych podstawowych zbiorach danych. W każdym przypadku, badacze wytrenowali całość każdego zbioru danych na jednym Tesla GPU przez trzy dni, z szybkością uczenia 0,0002 na optymalizacji Adam.

Następnie wyrenderowali serię losowych zamian wśród tysięcy osobowości przedstawionych w zbiorach danych, bez względu na to, czy twarze były podobne czy nawet dopasowane pod względem płci, i porównali wyniki CihaNet z wynikami z czterech wiodących ram deepfake: FaceSwap (który reprezentuje bardziej popularny DeepFaceLab, ponieważ dzieli ten sam kod źródłowy w oryginalnym repozytorium z 2017 roku, które spopularyzowało deepfakes); wspomniany wcześniej FaceShifter; FSGAN; oraz SimSwap.

Przy porównywaniu wyników za pomocą VGG-Face, FFHQ, CelebA-HQ i FaceForensics++, autorzy stwierdzili, że ich nowy model przewyższa wszystkie poprzednie modele, jak wskazano w poniższej tabeli.

Trzy metryki użyte do oceny wyników to Similarity Structural ( SSIM), błąd oszacowania położenia i dokładność odzyskiwania tożsamości, która jest obliczana na podstawie procentu pomyślnie odzyskanych par.

Badacze twierdzą, że CihaNet reprezentuje lepsze podejście pod względem wyników jakościowych i znacznego postępu w stosunku do obecnego stanu sztuki w technologiach deepfake, poprzez usunięcie ciężaru obszernych i pracochłonnych architektur maskowania i metodologii, oraz osiągnięcie bardziej użytecznego i przydatnego rozdzielenia tożsamości od kontekstu.

Zobacz poniżej, aby zobaczyć więcej przykładów wideo nowej techniki. Można znaleźć pełne wideo tutaj.

Z materiałów uzupełniających do nowego artykułu, CihaNet wykonuje zamianę twarzy na różnych tożsamościach. Źródło: https://mitchellx.github.io/#video

Pisarz na temat uczenia maszynowego, specjalista ds. syntezowania obrazów ludzi. Były kierownik treści badawczych w Metaphysic.ai.