stub Świt głęboko sfałszowanych emocji – Unite.AI
Kontakt z nami

Artificial Intelligence

Świt głęboko sfałszowanych emocji

mm
Zaktualizowano on

Naukowcy opracowali nową technikę uczenia maszynowego, która pozwala na arbitralne narzucanie nowych emocji twarzom w filmie, dostosowując istniejące technologie, które niedawno pojawiły się jako rozwiązania umożliwiające dopasowanie ruchów warg do dubbingu w języku obcym.

Badanie jest efektem współpracy pomiędzy Northeastern University w Bostonie i Media Lab na MIT i nosi tytuł Odwracalne zmarszczki: tłumaczenie emocji twarzy z wideo na wideo. Choć badacze przyznają, że początkową jakość wyników należy udoskonalić w drodze dalszych badań, twierdzą, że technika zwana Wav2Lip-Emotion jest pierwszą tego rodzaju, która bezpośrednio uwzględnia modyfikację ekspresji pełnego wideo za pomocą technik sieci neuronowych.

Kod podstawowy już był wydany na GitHubie, chociaż autorzy obiecują, że punkty kontrolne modelu zostaną dodane do repozytorium open source później.

Po lewej stronie „smutny” kadr wideo źródłowego. Po prawej ramka „wesoła”. W centrum znajdują się dwa rodzące się podejścia do syntezy alternatywnych emocji – górny rząd: w pełni zamaskowana twarz, w której zastąpiono całą powierzchnię wyrazu; dolny rząd: bardziej tradycyjna metoda Wav2Lip, która zastępuje jedynie dolną część twarzy. Źródło: https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf

Po lewej stronie „smutny” kadr wideo źródłowego. Po prawej ramka „wesoła”. W centrum znajdują się dwa rodzące się podejścia do syntezy alternatywnych emocji – górny rząd: w pełni zamaskowana twarz, w której zastąpiono całą powierzchnię wyrazu; dolny rząd: bardziej tradycyjna metoda Wav2Lip, która zastępuje jedynie dolną część twarzy. Źródło: https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf

Pojedynczy film jako dane źródłowe

Teoretycznie takie manipulacje są obecnie możliwe dzięki pełnemu szkoleniu na tradycyjnych repozytoriach deepfake, takich jak DeepFaceLab lub FaceSwap. Jednak standardowy przepływ pracy obejmowałby użycie tożsamości alternatywnej do tożsamości „docelowej”, na przykład aktora podszywającego się pod cel, którego własne wyrażenia zostałyby przeniesione na inną osobę wraz z resztą przedstawienia. Ponadto do ukończenia iluzji zwykle potrzebne są techniki głębokiego klonowania głosu.

Co więcej, faktycznie zmieniając wyrażenie cel1>cel1 w jedynym źródle wideo w tych popularnych ramach wymagałoby zmiany pliku wektory wyrównania twarzy w sposób, którego te architektury obecnie nie umożliwiają.

Wav2Lip-Emotion utrzymuje synchronizację ust oryginalnego dialogu audio wideo, jednocześnie przekształcając powiązane wyrażenia.

Wav2Lip-Emotion utrzymuje synchronizację ust oryginalnego dialogu audio wideo, jednocześnie przekształcając powiązane wyrażenia.

Zamiast tego Wav2Lip-Emotion skutecznie stara się „kopiować i wklejać” wyrażenia związane z emocjami z jednej części filmu i zastępować je w innych miejscach, stosując narzuconą przez siebie oszczędność danych źródłowych, która ostatecznie ma zapewnić mniej wymagającą metodę manipulacja ekspresją.

Można później opracować modele offline, które będą trenowane na alternatywnych filmach mówcy, dzięki czemu nie będzie potrzeby, aby jakikolwiek film zawierał „paletę” stanów ekspresji, za pomocą których można manipulować filmem.

Potencjalne cele

Autorzy sugerują szereg zastosowań modyfikacji ekspresji, w tym filtr wideo na żywo, kompensujący skutki PTSD i porażenia twarzy. W artykule zauważono:

„Osoby z powściągliwą mimiką lub bez niej mogą odnieść korzyść z dostrojenia własnej mimiki, aby lepiej pasowała do swojej sytuacji społecznej. Ktoś może chcieć zmienić wyrażenia w pokazywanych im filmach. Mówcy mogą krzyczeć na siebie podczas wideokonferencji, ale mimo to chcą zebrać treść w swojej wymianie bez nieprzyjemnych wyrażeń. Albo reżyser filmowy może chcieć wzmocnić lub zmniejszyć ekspresję aktora.

Ponieważ wyraz twarzy jest kluczowy i podstawowy wskaźnik intencjinawet jeśli może ocierać się o wypowiadane słowa, możliwość zmiany ekspresji oferuje również, w pewnym stopniu, możliwość zmiany sposobu komunikacji Odebrane.

Wcześniejsze prace

Zainteresowanie zmianą wyrażeń w uczeniu maszynowym sięga co najmniej 2012 roku, kiedy a współpraca pomiędzy firmami Adobe, Facebook i Rutgers University zaproponowali metodę zmiany wyrażeń za pomocą metody rekonstrukcji geometrii 3D opartej na Tensorze, która mozolnie narzucała siatkę CGI na każdą klatkę docelowego wideo, aby wpłynąć na zmianę.

W badaniu Adobe/Facebook z 2012 r. manipulowano wyrażeniami, narzucając tradycyjne zmiany oparte na CGI na materiał wideo. Wyrażenia można wzmacniać lub tłumić. Źródło: https://yfalan.github.io/files/papers/FeiYang_CVPR2012.pdf

W badaniu Adobe/Facebook z 2012 r. manipulowano wyrażeniami, narzucając tradycyjne zmiany oparte na CGI na materiał wideo. Wyrażenia można wzmacniać lub tłumić. Źródło: https://yfalan.github.io/files/papers/FeiYang_CVPR2012.pdf

Chociaż wyniki były obiecujące, technika była uciążliwa, a potrzebne zasoby znaczne. W tym momencie CGI znacznie wyprzedziło podejście oparte na wizji komputerowej do bezpośredniego kierowania przestrzenią cech i manipulacji pikselami.

Bardziej powiązany z nowym artykułem jest MEAD, model zbioru danych i generowania wyrażeń wydany w 2020 r., umożliwiający generowanie filmów wideo typu „gadające głowy”, choć nie na takim poziomie zaawansowania, jaki można potencjalnie uzyskać poprzez bezpośrednią modyfikację rzeczywistego źródła wideo.

Generowanie ekspresji za pomocą MEAD 2020, będącego efektem współpracy SenseTime Research, Carnegie Mellon i trzech chińskich uniwersytetów. Źródło: https://wywu.github.io/projects/MEAD/MEAD.html

Generowanie ekspresji za pomocą MEAD 2020, będącego efektem współpracy SenseTime Research, Carnegie Mellon i trzech chińskich uniwersytetów. Źródło: https://wywu.github.io/projects/MEAD/MEAD.html

W 2018 roku kolejna publikacja pt GANimation: anatomicznie świadoma animacja twarzy na podstawie jednego obrazu, powstał w wyniku amerykańsko-hiszpańskiej współpracy badawczej akademickiej i wykorzystywał generatywne sieci przeciwstawne do wzmacniania lub zmiany ekspresji wyłącznie w nieruchomych obrazach.

Zmiana ekspresji na nieruchomych obrazach za pomocą GANimation. Źródło: https://arxiv.org/pdf/1807.09251.pdf

Zmiana ekspresji na nieruchomych obrazach za pomocą GANimation. Źródło: https://arxiv.org/pdf/1807.09251.pdf

Wav2Lip-Emotion

Zamiast tego nowy projekt opiera się na Wav2Lip, który zyskał rozgłos w 2020 r., oferując potencjalną metodę ponownej synchronizacji ruchu warg w celu dostosowania do nowatorskiej mowy (lub piosenka), które nigdy nie pojawiły się w oryginalnym filmie.

Oryginał Architektura Wav2Lip został przeszkolony na korpusie wypowiedzianych zdań z archiwów BBC. Aby dostosować Wav2Lip do zadań związanych ze zmianą ekspresji, badacze „dopracowali” architekturę w wyżej wymienionym zbiorze danych MEAD.

MEAD składa się z 40 godzin filmów, na których 60 aktorów czyta to samo zdanie, wykonując różne mimiki. Aktorzy pochodzą z 15 różnych krajów i oferują szereg międzynarodowych cech, których celem jest pomoc projektowi (i projektom pochodnym) w stworzeniu odpowiedniej i dobrze uogólnionej syntezy wyrażeń.

W czasie badania MEAD udostępnił jedynie pierwszą część zbioru danych, zawierającą 47 osób wykonujących wyrażenia takie jak „zły”, „wstręt”, „strach”, „pogarda”, „szczęśliwy”, „smutny” i „zaskoczenie”. '. W ramach tego początkowego podejścia do nowego podejścia badacze ograniczyli zakres projektu do nałożenia lub innej zmiany postrzeganych emocji „szczęśliwych” i „smutnych”, ponieważ są one najłatwiejsze do rozpoznania.

Metoda i wyniki

Oryginalna architektura Wav2Lip zastępuje tylko dolną część twarzy, podczas gdy Wav2Lip-Emotion eksperymentuje również z pełną maską zastępującą twarz i syntezą ekspresji. Dlatego badacze musieli dodatkowo zmodyfikować wbudowane metody oceny, ponieważ nie zostały one zaprojektowane do konfiguracji pełnej twarzy.

Autorzy ulepszają oryginalny kod, zachowując oryginalne wejście audio, zachowując spójność ruchu warg.

Element generatora zawiera koder tożsamości, koder mowy i dekoder twarzy, zgodnie z wcześniejszą pracą. Element mowy jest dodatkowo kodowany jako nałożone na siebie sploty 2D, które są następnie łączone z powiązanymi ramkami.

Oprócz elementu generatywnego, zmodyfikowana architektura zawiera trzy główne komponenty rozróżniające, ukierunkowane na jakość synchronizacji warg, element obiektywny dotyczący emocji i cel jakości wizualnej wyszkolony kontradyktoryjnie.

W przypadku pełnej rekonstrukcji twarzy oryginalne dzieło Wav2Lip nie zawierało precedensu, dlatego też modelka została wyszkolona od podstaw. W przypadku treningu dolnej części twarzy (półmaski) badacze korzystali z punktów kontrolnych zawartych w oryginalnym kodzie Wav2Lip.

Oprócz automatycznej oceny badacze wykorzystali opinie społecznościowe dostarczane przez półautomatyczną platformę usługową. Pracownicy na ogół wysoko ocenili wyniki pod względem rozpoznawania nałożonych emocji, zgłaszając jedynie „umiarkowane” oceny jakości obrazu.

Autorzy sugerują, że poza poprawą jakości generowanego wideo poprzez dalsze udoskonalenia, przyszłe iteracje pracy mogą obejmować szerszy zakres emocji oraz że pracę można będzie w równym stopniu zastosować w przyszłości do oznaczonych lub automatycznie wywnioskowanych danych źródłowych i zbiorów danych, prowadząc, ostatecznie , do autentycznego systemu, w którym emocje można zwiększać lub zmniejszać według uznania użytkownika lub ostatecznie zastąpić emocjami kontrastującymi z oryginalnym źródłem wideo.