Sztuczna inteligencja

Dlaczego Deepfakes Nie Mogą Obecnie Przekazywać Subtelności Emocji

Published February 3, 2022

Updated April 28, 2026

Martin Anderson

Wczorajsza premiera odcinka 6 spin-offu Star Wars The Book of Boba Fett wydaje się podzielić opinię fanów. Przyjęty z ogólnym uznaniem, istnieje powszechny założenie w sieciach społecznościowych, że znacznie poprawiona rekreacja odmłodzonego Marka Hamilla (w porównaniu z poprzednim pojawieniem się postaci w finale sezonu 2 The Mandalorian w 2020 roku) jest bezpośrednim wynikiem zatrudnienia przez Industrial Light and Magic amatorskiego praktyka deepfakes Shamook (który znacznie poprawił swoją pracę za pomocą oprogramowania open source); i że renderowania postaci muszą być połączeniem technologii deepfake, perhaps tidied up z CGI.

Istnieje obecnie ograniczona potwierdzenie tego, chociaż Shamook powiedział niewiele światu od czasu, gdy ILM umieścił go pod zobowiązaniem do zachowania poufności. Niemniej jednak, praca jest nadzwyczajną poprawą w porównaniu z CGI z 2020 roku; wykazuje niektóre z “połysku” związanego z modelami deepfake pochodzącymi z archiwalnych prac; i ogólnie zgadza się z najlepszym bieżącym standardem wizualnym dla deepfakes.

Inny nurt opinii fanów jest taki, że nowa próba “Młodego Luke’a” ma inny zestaw wad niż poprzednia. Być może najbardziej wymownym jest brak wyrazistości i subtelnych, odpowiednich emocji w bardzo długich sekwencjach z nową rekreacją Skywalkera są bardziej typowe dla deepfakes niż CGI; The Verge opisał symulację Boba Fett w kategoriach ‘niezręcznej, puste twarzy zamrożonej twarzy Marka Hamilla z 1983 roku’.

Niezależnie od technologii stojących za nową rekreacją ILM, transformacje deepfakes mają podstawowy problem z subtelnością emocji, który jest trudny do rozwiązania zarówno przez zmiany w architekturze, jak i przez poprawę materiału szkoleniowego, i który jest zwykle unikany przez staranne wybory, które wirusowe deepfakers robią przy wyborze docelowego filmu.

Ograniczenia Wyrównywania Twarzy

Dwa najczęściej używane repozytoria FOSS deepfakes to DeepFaceLab (DFL) i FaceSwap, oba pochodzące z anonimowego i kontrowersyjnego kodu źródłowego z 2017 roku, przy czym DFL ma ogromną przewagę w branży VFX, pomimo jego ograniczonej instrumentacji.

Każdy z tych pakietów jest początkowo zadaniem wyodrębniania punktów charakterystycznych twarzy z twarzy, które udało się zidentyfikować w materiale źródłowym (tj. klatkach wideo i / lub obrazach).

Adrian Bulat's Facial Alignment Network (FAN) w działaniu, z oficjalnego repozytorium. Źródło: https://github.com/1adrianb/face-alignment

Sieć Wyrównywania Twarzy (FAN) w działaniu, z oficjalnego repozytorium. Źródło: https://github.com/1adrianb/face-alignment

Oba DFL i FaceSwap używają Sieci Wyrównywania Twarzy (FAN) biblioteki. FAN może tworzyć 2D i 3D (patrz powyżej) punkty charakterystyczne dla wyodrębnionych twarzy. 3D punkty charakterystyczne mogą wziąć pod uwagę postrzeganą orientację twarzy, aż do skrajnych profili i względnie ostrych kątów.

Jednak jest oczywiste, że są to bardzo podstawowe wytyczne dla prowadzenia i oceny pikseli:

Z forum FaceSwap, szacunkowy wskaźnik dostępnych punktów charakterystycznych dla rysów twarzy. Źródło: https://forum.faceswap.dev/viewtopic.php?f=25&t=27

Najbardziej podstawowe rysy twarzy są dozwolone: oczy mogą się otwierać i zamykać, tak jak szczęka, podczas gdy podstawowe konfiguracje ust (takie jak uśmiech, zagniewanie itp.) mogą być śledzone i dostosowane. Twarz może się obracać w dowolnym kierunku do około 200 stopni od punktu widzenia kamery.

Poza tym, są to dość grube ogrodzenia dla sposobów, w jaki piksele będą się zachowywać w ramach tych granic, i reprezentują one jedyne prawdziwie matematyczne i precyzyjne wytyczne twarzy w całym procesie deepfakes. Proces szkolenia sam w sobie po prostu porównuje sposób, w jaki piksele są rozłożone wewnątrz lub w pobliżu tych granic.

Szkolenie w DeepFaceLab. Źródło: https://medium.com/geekculture/realistic-deepfakes-with-deepfacelab-530e90bd29f2

Ponieważ nie ma żadnych przepisów dotyczących topologii podczęści twarzy (wypukłości i wklęsłości policzków, szczegółów starzenia, dołków itp.), nie jest nawet możliwe próbowanie dopasowania takich “subtelnych” pod- cech między źródłem (‘twarz, którą chcesz napisać’) a docelową (‘twarz, którą chcesz wkleić’) tożsamością.

Radzenie Sobie Z Ograniczonymi Danymi

Uzyskanie danych dopasowanych między dwiema tożsamościami w celu szkolenia deepfakes nie jest łatwe. Im bardziej niezwykły kąt, którego potrzebujesz, tym więcej możesz musieć kompromisować, czy ten (rzadki) dopasowanie kąta między tożsamościami A i B faktycznie zawiera ten sam wyraz.

Blisko, ale nie dokładnie dopasowane.

W powyższym przykładzie dwie tożsamości są dość podobne w dyspozycji, ale to jest tak blisko, jak ten zestaw danych może uzyskać dokładne dopasowanie.

Jasne różnice pozostają: kąt i soczewka nie dokładnie odpowiadają, i nie odpowiada również oświetlenie; podmiot A nie ma całkowicie zamkniętych oczu, w przeciwieństwie do podmiotu B; jakość obrazu i kompresja jest gorsza w podmiocie A; i w jakiś sposób podmiot B wydaje się znacznie szczęśliwszy niż podmiot A.

Ale, wie pan, to wszystko, co mamy, więc będziemy musieli trenować na tym w każdym razie.

Ponieważ to dopasowanie A < > B ma tak wiele niezwykłych elementów, można być pewnym, że jest niewiele, jeśli w ogóle, podobnych parowań w zestawie. Dlatego też szkolenie będzie albo przeszkadzać mu, albo przesadzać go.

Przeszkadzać: Jeśli to dopasowanie jest prawdziwą mniejszością (tj. zestaw danych jest dość duży i nie często zawiera cechy tych dwóch zdjęć), nie będzie ono zbyt często szkolone w porównaniu z bardziej “popularnymi” (tj. łatwymi / neutralnymi) parowaniami. W związku z tym ten kąt / wyraz nie będzie dobrze reprezentowany w deepfake utworzonym z wyuczonym modelem.

Przesadzać: W desperacji z powodu rzadkich dopasowań danych dla tak rzadkich parowań A < > B, deepfakers czasami duplikują parowanie wiele razy w zestawie danych, aby miał lepszą szansę na stanie się cechą w końcowym modelu. To doprowadzi do przesadzania, gdzie deepfake filmy utworzone z modelem są prawdopodobnie pedantycznie powtarzać niezgodności, które są widoczne między dwoma zdjęciami, takimi jak różna stopnia, w jakim oczy są zamknięte.

W poniższym obrazie widzimy Władimira Putina trenowanego w DeepFaceLab, aby wykonać swap na Kevina Spacey. Tutaj szkolenie jest stosunkowo zaawansowane na 160 000 iteracji.

Źródło: https://i.imgur.com/OdXHLhU.jpg

Przeciętny obserwator mógłby twierdzić, że Putin wygląda trochę, no, przestrzennie niż Spacey w tych testowych swapach. Zobaczmy, co program rozpoznawania emocji online robi z niezgodnością w wyrazach:

Źródło: https://www.noldus.com/facereader/measure-your-emotions

Według tego konkretnego orakulum, które analizuje znacznie bardziej szczegółową topografię twarzy niż DFL i Faceswap, Spacey jest mniej zły, oburzony i lekceważący niż wynikający z tego Putin deepfake w tym parowaniu.

Nierównomierna ekspresja pochodzi jako część splątanego pakietu, ponieważ popularne aplikacje deepfakes nie mają możliwości rozpoznawania wyrazów ani inferowania emocji, poza tym, że jest to surowe mapowanie piksel na piksel.

Dla nas różnice są ogromne. Uczymy się czytać wyrazy twarzy jako podstawową umiejętność przetrwania od naszych wczesnych lat, i nadal polegamy na tej umiejętności w dorosłości do celów integracji społecznej i postępu, kojarzenia i jako ciągłego frameworku oceny zagrożeń. Ponieważ jesteśmy tak wrażliwi na mikro-wyrazy, technologie deepfake będą ostatecznie musiały uwzględnić to.

Przeciwko Naturze

Chociaż rewolucja deepfakes przyniosła obietnicę wstawienia “klasycznych” gwiazd filmowych do nowych filmów i seriali, AI nie może cofnąć się w czasie i nakręcić ich klasycznych prac w bardziej kompatybilnej definicji i jakości, co jest kluczowe dla tego przypadku użycia.

Założenie (i dla naszych celów, nie ma to znaczenia, czy jest to błędne), że rekonstrukcja Boba Fett Hamilla była w dużej mierze dziełem wyuczonych modeli deepfake, zestaw danych dla modelu musiałby wykorzystywać fragmenty z okresu w pobliżu chronologii serialu (tj. Hamill jako wczesne trzydziestki wokół czasu produkcji Return of the Jedi, 1981-83).

Film został zrobiony na Eastman Color Negative 250T 5293/7293, emulsji 250ASA, która była uważana za średnią do drobnoziarnistej w tamtym czasie, ale została przekroczona w klarowności, zakresie kolorów i wierności nawet na koniec lat 80. Jest to akcja swoich czasów, a operowała skala Jedi pozwoliła na niewiele zbliżeń nawet dla wiodących aktorów, co sprawia, że problemy z ziarnem są jeszcze bardziej krytyczne, ponieważ źródłowe twarze zajmują tylko część klatki.

Zakres scen z Hamillem w Return of the Jedi (1983).

Dodatkowo wiele efektów wizualnych z Hamillem zostałoby przepuszczonych przez optyczny drukarkę, zwiększając ziarno filmu. Niemniej jednak dostęp do archiwów Lucasfilmu – które najprawdopodobniej dobrze zatroszczyły się o negatywy mistrzowskie i mogłyby zaoferować godziny dodatkowych, nie użytych surowych materiałów – mogłyby rozwiązać ten problem.

Czasami jest możliwe, aby objąć zakres lat pracy aktora, aby zwiększyć i zunifikować zestaw danych deepfakes. W przypadku Hamilla deepfakers są ograniczeni przez jego zmianę wyglądu po wypadku samochodowym w 1977 roku, i fakt, że prawie natychmiast rozpoczął swoją drugą karierę jako uznany aktor głosowy po Jedi, sprawiając, że materiał źródłowy jest dość rzadki.

Ograniczony Zakres Emocji?

Jeśli potrzebujesz, aby Twój deepfaked aktor rozdzierał dekoracje, będziesz musiał potrzebować materiału źródłowego, który zawiera niezwykle szeroki zakres wyrazów twarzy. Może się okazać, że jedynie dostępne nagrania z odpowiednim wiekiem nie zawierają wielu z tych wyrazów.

Na przykład przez czas, gdy nadszedł łuk fabularny Return of the Jedi , postać Hamilla w dużej mierze opanowała swoje emocje, rozwój, który jest absolutnie centralny dla oryginalnej mitologii franczyzy. Dlatego jeśli utworzysz model deepfake Hamilla z danych Jedi, będziesz musiał pracować z bardziej ograniczonym zakresem emocji i niezwykłej kompozycji twarzy, której wymagała od niego rola w tym czasie, w porównaniu z jego wcześniejszymi wpisami do franczyzy.

Nawet jeśli uważasz, że są momenty w Return of the Jedi, kiedy postać Skywalkera jest pod stressem i może dostarczyć materiału do szerszego zakresu wyrazów, materiał twarzy w tych scenach jest jednak przejściowy i podlega rozmyciu ruchu i szybkiemu montażowi typowemu dla scen akcji; więc dane są dość niesymetryczne.

Uogólnienie: Scalanie Emocji

Jeśli rekonstrukcja Boba Fett Skywalkera jest rzeczywiście deepfake, brak zakresu ekspresyjnego, który został mu zarzucony przez niektóre strony, nie byłby w całości spowodowany ograniczonym materiałem źródłowym. Proces szkolenia encoder-decoder deepfakes szuka uogólnionego modelu, który z powodzeniem destyluje centralne funkcje z tysięcy obrazów i może przynajmniej próbować deepfake kąta, który był nieobecny lub rzadki w zestawie danych.

Jeśli nie byłoby tej elastyczności, architektura deepfake byłaby po prostu kopiowaniem i wklejaniem podstawowych morfów na zasadzie klatka po klatce, bez uwzględnienia ani adaptacji temporalnej, ani kontekstu.

Jednak bolesna cena za tę wszechstronność jest taka, że wiernność wyrazu jest prawdopodobnie ofiarą procesu, a jakiekolwiek wyrazy, które są ‘subtelne’ mogą nie być tymi właściwymi. Wszyscy gramy nasze twarze jak 100-częściowy orkiestrę i jesteśmy dobrze wyposażeni, aby to robić, podczas gdy oprogramowanie deepfake jest słabo wyposażone, brakuje mu przynajmniej sekcji smyczków.

Różnica Wpływu Na Wyrazy

Ruchy twarzy i ich wpływ na nas nie są jednolitym językiem we wszystkich twarzach; uniesiony brwi, który wygląda nonszalancko na Rogera Moore’a, mógłby wyglądać mniej wyrafinowany na Setha Rogana, podczas gdy uwodzicielska atrakcja Marilyn Monroe mogłaby przetłumaczyć się na bardziej negatywną emocję, gdyby została deepfaked na osobę, której najbardziej dostępna rola to “zły” lub “niezadowolony” (tak jak postać Aubrey Plaza przez siedem sezonów Parks and Recreation).

Dlatego równoważność piksel na piksel między zestawami twarzy A / B nie jest koniecznie pomocna w tym zakresie; ale to wszystko, co jest dostępne w najlepszym oprogramowaniu FOSS deepfakes.

Co jest najprawdopodobniej potrzebne, to ramy deepfake, które nie tylko mogą rozpoznać wyrazy i inferować emocje, ale mają również możliwość ucieleśnienia wysokopoziomowych pojęć, takich jak zły, uwodzicielski, znudzony, zmęczony itp., i aby zaklasyfikować te emocje i ich powiązane wyrazy w każdej z dwóch tożsamości twarzy, zamiast badania i replikowania dyspozycji ust lub powieki.

Pierwotnie opublikowane 3 lutego 2022. Zaktualizowane 7:47 pm EET, błędne przypisanie nazwy.