Connect with us

Świt Emocji Deepfaked

Sztuczna inteligencja

Świt Emocji Deepfaked

mm

Naukowcy opracowali nową technikę machine learning, która pozwala na arbitralne nakładanie nowych emocji na twarze w filmie, dostosowując istniejące technologie, które ostatnio pojawiły się jako rozwiązania, aby dopasować ruchy ust do dubbingu w języku obcym.

Badanie jest równym współpracą pomiędzy Northeastern University w Bostonie a Media Lab na MIT i nosi tytuł Invertable Frowns: Video-to-Video Facial Emotion Translation. Chociaż naukowcy przyznają, że początkowa jakość wyników musi zostać rozwiązana przez dalsze badania, twierdzą, że technika, nazwana Wav2Lip-Emotion, jest pierwszą tego rodzaju, która bezpośrednio zajmuje się modyfikacją pełnego wyrażenia wideo za pomocą technik sieci neuronowych.

Kod podstawowy został opublikowany na GitHub, chociaż punkty kontrolne modelu zostaną dodane do repozytorium open source później, obiecują autorzy.

Po lewej, 'smutna' klatka źródłowego filmu. Po prawej, 'szczęśliwa' klatka. Na środku są dwie nowe podejścia do syntezy alternatywnych emocji – górny rząd: całkowicie zamaskowana twarz, gdzie cała powierzchnia wyrażenia została zastąpiona; dolny rząd: bardziej tradycyjna metoda Wav2Lip, która zastępuje tylko dolną część twarzy. Źródło: https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf

Po lewej, ‘smutna’ klatka źródłowego filmu. Po prawej, ‘szczęśliwa’ klatka. Na środku są dwie nowe podejścia do syntezy alternatywnych emocji – górny rząd: całkowicie zamaskowana twarz, gdzie cała powierzchnia wyrażenia została zastąpiona; dolny rząd: bardziej tradycyjna metoda Wav2Lip, która zastępuje tylko dolną część twarzy. Źródło: https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf

Jedno wideo jako dane źródłowe

W teorii takie manipulacje są możliwe teraz za pomocą pełnego szkolenia na tradycyjnych repozytoriach deepfake, takich jak DeepFaceLab lub FaceSwap. Jednak standardowy workflow wymagałby użycia alternatywnej tożsamości wobec ‘docelowej’ tożsamości, takiej jak aktor naśladujący docelowy, którego własne wyrażenia zostałyby przeniesione na inną osobę, wraz z resztą występu. Dodatkowo, techniki głosowe deepfake通常 byłyby niezbędne do ukończenia iluzji.

Dalej, zmiana wyrażenia target1>target1 w jednym źródłowym filmie w ramach tych popularnych frameworków wymagałaby zmiany wektorów wyrażenia twarzy w sposób, który te architektury nie obsługują obecnie.

Wav2Lip-Emotion utrzymuje synchronizację ust z oryginalnym dialogiem audio, transformując powiązane wyrażenia.

Wav2Lip-Emotion utrzymuje synchronizację ust z oryginalnym dialogiem audio, transformując powiązane wyrażenia.

Zamiast tego, Wav2Lip-Emotion skutecznie próbuje ‘skopiować i wkleić’ emocje związane z wyrażeniami z jednej części filmu i zastąpić je w innych punktach, z samonarzuconą oszczędnością danych źródłowych, które mają ostatecznie zaoferować niższy wysiłek w modyfikacji wyrażeń.

Modele offline mogą być później opracowane, które są szkolone na alternatywnych filmach mówcy, eliminując potrzebę posiadania jednego filmu, który zawiera ‘paletę’ stanów wyrażeń, z którymi można manipulować filmem.

Potencjalne zastosowania

Autorzy sugerują szereg zastosowań dla modyfikacji wyrażeń, w tym filtr wideo na żywo w celu skompensowania skutków PTSD i osób z porażeniem twarzy. Artykuł obserwuje:

‘Osoby z ograniczonymi lub nieograniczymi wyrażeniami twarzy mogą skorzystać z dostosowania własnych wyrażeń, aby lepiej dopasować się do ich okoliczności społecznych. Można zmienić wyrażenia w filmach pokazywanych im. Mówcy mogą krzyczeć na siebie podczas wideokonferencji, ale chcą uzyskać treść w ich wymianie bez nieprzyjemnych wyrażeń. Lub reżyser filmowy może chcieć powiększyć lub zmniejszyć wyrażenia aktora.’

Ponieważ wyrażenie twarzy jest kluczowym i podstawowym wskaźnikiem intencji, nawet wtedy, gdy może się sprzeciwiać słowom, które są wypowiadane, zdolność do zmiany wyrażenia oferuje również, w pewnym stopniu, zdolność do zmiany, w jaki sposób komunikacja jest odbierana.

Poprzednie prace

Zainteresowanie zmianą wyrażeń za pomocą machine learning sięga co najmniej 2012 roku, kiedy współpraca pomiędzy Adobe, Facebook i Rutgers University zaproponowała metodę zmiany wyrażeń za pomocą podejścia opartego na tensorach i 3D geometrii, które pracochłonne nakładało siatkę CGI na każdą klatkę docelowego filmu, aby wywołać zmianę.

Badania z 2012 roku Adobe/Facebook manipulowały wyrażeniami, nakładając tradycyjne, CGI-driven zmiany na film. Wyrażenia mogły być powiększone lub stłumione. Źródło: https://yfalan.github.io/files/papers/FeiYang_CVPR2012.pdf

Badania z 2012 roku Adobe/Facebook manipulowały wyrażeniami, nakładając tradycyjne, CGI-driven zmiany na film. Wyrażenia mogły być powiększone lub stłumione. Źródło: https://yfalan.github.io/files/papers/FeiYang_CVPR2012.pdf

Chociaż wyniki były obiecujące, technika była uciążliwa i wymagała znacznych zasobów. W tym momencie CGI była znacznie bardziej zaawansowana niż podejścia oparte na komputerowym widzeniu do bezpośredniej manipulacji przestrzeni funkcji i pikseli.

Bardziej związane z nowym artykułem jest MEAD, zestaw danych i model generacji wyrażeń, wydany w 2020 roku, który umożliwia generowanie filmów ‘talking-head’, chociaż bez poziomu złożoności, jaki jest potencjalnie osiągalny przez modyfikację rzeczywistego filmu źródłowego.

Generacja wyrażeń z 2020 roku MEAD, współpraca pomiędzy SenseTime Research, Carnegie Mellon i trzema chińskimi uniwersytetami. Źródło: https://wywu.github.io/projects/MEAD/MEAD.html

Generacja wyrażeń z 2020 roku MEAD, współpraca pomiędzy SenseTime Research, Carnegie Mellon i trzema chińskimi uniwersytetami. Źródło: https://wywu.github.io/projects/MEAD/MEAD.html

W 2018 roku inny artykuł, zatytułowany GANimation: Anatomically-aware Facial Animation from a Single Image, pojawił się jako współpraca akademicka pomiędzy USA i Hiszpanią, i używał sieci generatywno-dyskryminacyjnych do powiększania lub zmiany wyrażeń w obrazach statycznych tylko.

Zmiana wyrażeń w obrazach statycznych z GANimation. Źródło: https://arxiv.org/pdf/1807.09251.pdf

Zmiana wyrażeń w obrazach statycznych z GANimation. Źródło: https://arxiv.org/pdf/1807.09251.pdf

Wav2Lip-Emotion

Zamiast tego, nowy projekt opiera się na Wav2Lip, który zyskał uznanie w 2020 roku, oferując potencjalną metodę do ponownego synchronizowania ruchu ust, aby dostosować nowy wejściowy tekst (lub piosenkę) do oryginalnego filmu.

Oryginalna architektura Wav2Lip była szkolona na korpusie zdań mówionych z archiwów BBC. Aby dostosować Wav2Lip do zadania zmiany wyrażeń, naukowcy ‘dostosowali’ architekturę do wspomnianego wcześniej zestawu danych MEAD.

MEAD składa się z 40 godzin filmu z 60 aktorami czytającymi to samo zdanie, wykonując różne wyrażenia twarzy. Aktorzy pochodzą z 15 różnych krajów i oferują różne cechy międzynarodowe, które mają pomóc w projekcie (i pochodnych projektach) w wytworzeniu stosownej i dobrze uogólnionej syntezy wyrażeń.

W momencie badań MEAD udostępnił tylko pierwszą część zestawu danych, zawierającą 47 osób wykonujących wyrażenia, takie jak ‘zły’, ‘oburzony’, ‘przerażony’, ‘lekceważący’, ‘szczęśliwy’, ‘smutny’ i ‘zaskoczony’. W tym wstępnym podejściu do nowego podejścia naukowcy ograniczyli zakres projektu do nadkładania lub zmiany postrzeganych emocji ‘szczęśliwy’ i ‘smutny’, ponieważ są to najłatwiej rozpoznawalne.

Metoda i wyniki

Oryginalna architektura Wav2Lip zastępuje tylko dolną część twarzy, podczas gdy Wav2Lip-Emotion eksperymentuje również z pełną maską twarzy i syntezą wyrażeń. Dlatego naukowcom było konieczne również zmodyfikowanie wbudowanych metod oceny, ponieważ nie były one zaprojektowane dla pełnej konfiguracji twarzy.

Autorzy poprawiają oryginalny kod, zachowując oryginalne wejście audio, utrzymując spójność ruchu ust.

Element generatora składa się z kodera tożsamości, kodera mowy i dekodera twarzy, zgodnie z wcześniejszą pracą. Element mowy jest zakodowany dodatkowo jako złożone 2D konwolucje, które są następnie łączone z ich powiązanymi klatkami.

Oprócz elementu generatywnego, zmodyfikowana architektura składa się z trzech głównych komponentów dyskryminacyjnych, ukierunkowanych na jakość synchronizacji ust, element celu emocjonalnego i wizualnego celu szkolenia przeciwnego.

Dla pełnej rekonstrukcji twarzy oryginalna praca Wav2Lip nie zawierała poprzednika, a zatem model został wyszkolony od podstaw. Dla szkolenia dolnej części twarzy (półmaski) naukowcy postępowali od punktów kontrolnych zawartych w oryginalnym kodzie Wav2Lip.

Oprócz automatycznej oceny naukowcy użyli opinii crowd-sourced, dostarczonej przez półautomatyczną platformę usługową. Pracownicy ogólnie oceniali wyjście jako wysokie pod względem rozpoznawania nałożonych emocji, podczas gdy tylko zgłaszali ‘umiarkowane’ oceny dla jakości obrazu.

Autorzy sugerują, że oprócz poprawy wygenerowanej jakości wideo za pomocą dalszych ulepszeń, przyszłe iteracje pracy mogą objąć szerszy zakres emocji i że praca mogłaby być również zastosowana w przyszłości do oznaczonych lub automatycznie wnioskowanych danych źródłowych i zestawów danych, prowadząc ostatecznie do autentycznego systemu, w którym emocje mogą być dostosowane w górę lub w dół według uznania użytkownika, lub ostatecznie zastąpione przeciwstawnymi emocjami w odniesieniu do oryginalnego filmu źródłowego.

Pisarz na temat uczenia maszynowego, specjalista ds. syntezowania obrazów ludzi. Były kierownik treści badawczych w Metaphysic.ai.