Connect with us

Sztuczna inteligencja

Fałszowanie “lepszych” ciał za pomocą sztucznej inteligencji

mm

Nowe badania przeprowadzone przez Akademię Alibaba DAMO oferują opracowany z wykorzystaniem sztucznej inteligencji proces automatyzujący przekształcanie obrazów ciał – rzadki wysiłek w sektorze widzenia komputerowego, który obecnie zajmuje się manipulacjami twarzy takimi jak deepfakes i edycja twarzy oparta na GAN.

Wstawiono w kolumnach 'wynik', wygenerowane mapy uwagi, które definiują obszary do modyfikacji. Źródło: https://arxiv.org/pdf/2203.04670.pdf

Wstawiono w kolumnach ‘wynik’, wygenerowane mapy uwagi, które definiują obszary do modyfikacji. Źródło: https://arxiv.org/pdf/2203.04670.pdf

Architektura badaczy wykorzystuje szacowanie pozycji szkieletu, aby rozwiązać problem większej złożoności, z jakim systemy syntezy i edycji obrazów mają do czynienia z konceptualizacją i parametryzacją istniejących obrazów ciał, przynajmniej na poziomie szczegółowości, który pozwala na znaczącą i selektywną edycję.

Oszacowane mapy szkieletu pomagają w indywidualizacji i skupieniu uwagi na obszarach ciała, które najprawdopodobniej zostaną retuszowane, takich jak obszar ramienia.

System ostatecznie umożliwia użytkownikowi ustalenie parametrów, które mogą zmienić wygląd wagi, masy mięśniowej lub rozkładu wagi w pełnych lub średnich długościach zdjęć ludzi i jest w stanie generować dowolne transformacje na ubranych lub nieubranych częściach ciała.

Po lewej, obraz wejściowy; w środku, mapa ciepła pochodzących obszarów uwagi; po prawej, przekształcony obraz.

Po lewej, obraz wejściowy; w środku, mapa ciepła pochodzących obszarów uwagi; po prawej, przekształcony obraz.

Motywacją do tej pracy jest rozwój zautomatyzowanych procesów, które mogą zastąpić uciążliwe cyfrowe manipulacje podejmowane przez fotografów i artystów graficznych w różnych gałęziach mediów, od mody do magazynów i materiałów prasowych.

Ogólnie, autorzy uznają, że te transformacje są zwykle stosowane z użyciem technik “warp” w programie Photoshop i innych tradycyjnych edytorach bitmapowych i są prawie wyłącznie stosowane w obrazach kobiet. W związku z tym, niestandardowy zestaw danych opracowany w celu ułatwienia nowego procesu składa się głównie z zdjęć osób płci żeńskiej:

‘Ponieważ retusz ciała jest głównie pożądany przez kobiety, większość naszej kolekcji to zdjęcia kobiet, biorąc pod uwagę różnorodność wieku, ras (Afrykańska: Azjatycka: Kaukaska = 0,33: 0,35: 0,32), poz, i odzieży.’

Artykuł ten nosi tytuł Structure-Aware Flow Generation for Human Body Reshaping i pochodzi od pięciu autorów związanych z globalną Akademią Alibaba DAMO.

Tworzenie zestawu danych

Jak zwykle ma to miejsce w przypadku systemów syntezy i edycji obrazów, architektura projektu wymagała niestandardowego zestawu danych szkoleniowych. Autorzy zleciли trzem fotografom wykonanie standardowych manipulacji programu Photoshop na odpowiednich obrazach ze strony stock photography Unsplash, co skutkowało zestawem danych – zatytułowanym BR-5K* – 5000 obrazów o wysokiej jakości w rozdzielczości 2K.

Badacze podkreślają, że celem szkolenia na tym zestawie danych nie jest wytworzenie “ideałów” i uogólnionych cech odnoszących się do wskaźnika atrakcyjności lub pożądanej aparycji, ale raczej wyodrębnienie centralnych mapowań cech związanych z profesjonalnymi manipulacjami obrazów ciał.

Jednakże, przyznają, że manipulacje ostatecznie odzwierciedlają procesy transformacyjne, które mapują postęp od “rzeczywistego” do wcześniej ustalonej koncepcji “ideału”:

‘Zapraszamy trzech profesjonalnych artystów do retuszu ciał przy użyciu programu Photoshop niezależnie, z celem osiągnięcia smukłych sylwetek, które spełniają popularne kanony estetyczne, i wybieramy najlepszy jako wzorzec.’

Ponieważ ramy nie zajmują się twarzami w ogóle, zostały one rozmyte przed włączeniem do zestawu danych.

Architektura i podstawowe pojęcia

Przepływ systemu obejmuje wprowadzenie wysokiej rozdzielczości portretu, jego przetransformowanie w niższej rozdzielczości, która może pomieścić się w dostępnych zasobach obliczeniowych, oraz wyodrębnienie oszacowanej mapy szkieletu (drugi rysunek z lewej na poniższym obrazie), a także pól powinowactwa części (PAF), które zostały wynalezione w 2016 roku przez Instytut Robotyki na Uniwersytecie Carnegie Mellon (zob. film wstawiony bezpośrednio poniżej).

Pola powinowactwa części pomagają w określeniu orientacji kończyn i ogólnej asociacji z szerszą strukturą szkieletu, dostarczając nowemu projektowi dodatkowego narzędzia uwagi/lokalizacji.

Z artykułu o polach powinowactwa części, przewidywane pola powinowactwa części kodują orientację kończyn jako część 2D wektora, który zawiera również ogólną pozycję kończyny. Źródło: https://arxiv.org/pdf/1611.08050.pdf

Z artykułu o polach powinowactwa części, przewidywane pola powinowactwa części kodują orientację kończyn jako część 2D wektora, który zawiera również ogólną pozycję kończyny. Źródło: https://arxiv.org/pdf/1611.08050.pdf

Pomimo ich pozornie nieistotnego wpływu na wygląd wagi, mapy szkieletu są przydatne w kierowaniu ostatecznymi procesami transformacyjnymi do części ciała, które mają być zmienione, takich jak ramiona, tył i uda.

Następnie wyniki są wprowadzane do strukturalnego modułu uwagi (SASA) w centralnej części procesu (zob. poniższy obraz).

SASA reguluje spójność generatora przepływu, który napędza proces, a wyniki są następnie przekazywane do modułu zginania (drugi od prawej na powyższym obrazie), który stosuje transformacje nauczone z treningu na ręcznych rewizjach zawartych w zestawie danych.

Moduł strukturalnej uwagi (SASA) alokuje uwagę do istotnych części ciała, pomagając uniknąć zbędnych lub nieistotnych transformacji.

Moduł strukturalnej uwagi (SASA) alokuje uwagę do istotnych części ciała, pomagając uniknąć zbędnych lub nieistotnych transformacji.

Wynikowy obraz jest następnie przetransformowany z powrotem do oryginalnej rozdzielczości 2K, przy użyciu procesów nieodległych od standardowej, 2017 roku architektury deepfake; proces podpróbkowania jest również powszechny w ramach edycji GAN.

Sieć uwagi dla schematu jest modelowana na Compositional De-Attention Networks (CODA), współpracy akademickiej z 2019 roku pomiędzy USA a Singapurem z Amazon AI i Microsoft.

Testy

Ramowy framework został przetestowany przeciwko poprzednim metodom opartym na przepływie FAL i Animating Through Warping (ATW), a także architekturom tłumaczenia obrazu Pix2PixHD i GFLA, z SSIM, PSNR i LPIPS jako metryki oceny.

Wyniki wstępnych testów (kierunek strzałki w nagłówkach wskazuje, czy niższe czy wyższe wartości są lepsze).

Wyniki wstępnych testów (kierunek strzałki w nagłówkach wskazuje, czy niższe czy wyższe wartości są lepsze).

Na podstawie tych przyjętych metryk, system autorów przewyższa poprzednie architektury.

Wybrane wyniki. Proszę odnieść się do oryginalnego pliku PDF powiązanego z tym artykułem dla porównań w wyższej rozdzielczości.

Wybrane wyniki. Proszę odnieść się do oryginalnego pliku PDF powiązanego z tym artykułem dla porównań w wyższej rozdzielczości.

Oprócz zautomatyzowanych metryk, badacze przeprowadzili badanie użytkowników (ostatnia kolumna wyników w tabeli wyświetlonej wcześniej), w którym 40 uczestników zostało pokazanych 30 pytań losowo wybranych z puli 100 pytań dotyczących obrazów wytworzonych za pomocą różnych metod. 70% respondentów preferowało nową technikę jako bardziej “wizualnie atrakcyjną”.

Wyzwania

Nowy artykuł reprezentuje rzadki wyjazd w kierunku manipulacji ciałem opartej na sztucznej inteligencji. Sektor syntezy obrazu jest obecnie o wiele bardziej zainteresowany albo generowaniem edytowalnych ciał za pomocą metod takich jak Neural Radiance Fields (NeRF), albo jest skupiony na eksplorowaniu latentnego przestrzeni GAN i potencjału autoencoderów do manipulacji twarzą.

Inicjatywa autorów jest obecnie ograniczona do wprowadzania zmian w postrzeganej wadze i nie wdrożyła jeszcze żadnej techniki inpainting, która mogłaby przywrócić tło, które jest nieuniknienie ujawnione, gdy “schudnie” się zdjęcie kogoś.

Jednakże, proponują, że matowanie portretu i mieszanie tła za pomocą inferencji teksturalnej mogłoby trywialnie rozwiązać problem przywrócenia części świata, które były wcześniej ukryte w obrazie przez “niedoskonałość” ludzką.

Proponowane rozwiązanie dla przywrócenia tła, które jest ujawnione przez sztuczną inteligencję prowadzącą do redukcji tłuszczu.

Proponowane rozwiązanie dla przywrócenia tła, które jest ujawnione przez sztuczną inteligencję prowadzącą do redukcji tłuszczu.

 

* Chociaż wstępny artykuł odnosi się do materiału uzupełniającego, który dostarcza więcej szczegółów na temat zestawu danych, a także dalszych przykładów z projektu, lokalizacja tego materiału nie jest dostępna w artykule, a odpowiedni autor jeszcze nie odpowiedział na naszą prośbę o dostęp.

Pierwotnie opublikowane 10 marca 2022.

Pisarz na temat uczenia maszynowego, specjalista ds. syntezowania obrazów ludzi. Były kierownik treści badawczych w Metaphysic.ai.