Sztuczna inteligencja
Fałszowanie “lepszych” ciał za pomocą sztucznej inteligencji

Nowe badania przeprowadzone przez Akademię Alibaba DAMO oferują opracowany z wykorzystaniem sztucznej inteligencji proces automatyzujący przekształcanie obrazów ciał – rzadki wysiłek w sektorze widzenia komputerowego, który obecnie zajmuje się manipulacjami twarzy takimi jak deepfakes i edycja twarzy oparta na GAN.

Wstawiono w kolumnach ‘wynik’, wygenerowane mapy uwagi, które definiują obszary do modyfikacji. Źródło: https://arxiv.org/pdf/2203.04670.pdf
Architektura badaczy wykorzystuje szacowanie pozycji szkieletu, aby rozwiązać problem większej złożoności, z jakim systemy syntezy i edycji obrazów mają do czynienia z konceptualizacją i parametryzacją istniejących obrazów ciał, przynajmniej na poziomie szczegółowości, który pozwala na znaczącą i selektywną edycję.

Oszacowane mapy szkieletu pomagają w indywidualizacji i skupieniu uwagi na obszarach ciała, które najprawdopodobniej zostaną retuszowane, takich jak obszar ramienia.
System ostatecznie umożliwia użytkownikowi ustalenie parametrów, które mogą zmienić wygląd wagi, masy mięśniowej lub rozkładu wagi w pełnych lub średnich długościach zdjęć ludzi i jest w stanie generować dowolne transformacje na ubranych lub nieubranych częściach ciała.

Po lewej, obraz wejściowy; w środku, mapa ciepła pochodzących obszarów uwagi; po prawej, przekształcony obraz.
Motywacją do tej pracy jest rozwój zautomatyzowanych procesów, które mogą zastąpić uciążliwe cyfrowe manipulacje podejmowane przez fotografów i artystów graficznych w różnych gałęziach mediów, od mody do magazynów i materiałów prasowych.
Ogólnie, autorzy uznają, że te transformacje są zwykle stosowane z użyciem technik “warp” w programie Photoshop i innych tradycyjnych edytorach bitmapowych i są prawie wyłącznie stosowane w obrazach kobiet. W związku z tym, niestandardowy zestaw danych opracowany w celu ułatwienia nowego procesu składa się głównie z zdjęć osób płci żeńskiej:
‘Ponieważ retusz ciała jest głównie pożądany przez kobiety, większość naszej kolekcji to zdjęcia kobiet, biorąc pod uwagę różnorodność wieku, ras (Afrykańska: Azjatycka: Kaukaska = 0,33: 0,35: 0,32), poz, i odzieży.’
Artykuł ten nosi tytuł Structure-Aware Flow Generation for Human Body Reshaping i pochodzi od pięciu autorów związanych z globalną Akademią Alibaba DAMO.
Tworzenie zestawu danych
Jak zwykle ma to miejsce w przypadku systemów syntezy i edycji obrazów, architektura projektu wymagała niestandardowego zestawu danych szkoleniowych. Autorzy zleciли trzem fotografom wykonanie standardowych manipulacji programu Photoshop na odpowiednich obrazach ze strony stock photography Unsplash, co skutkowało zestawem danych – zatytułowanym BR-5K* – 5000 obrazów o wysokiej jakości w rozdzielczości 2K.
Badacze podkreślają, że celem szkolenia na tym zestawie danych nie jest wytworzenie “ideałów” i uogólnionych cech odnoszących się do wskaźnika atrakcyjności lub pożądanej aparycji, ale raczej wyodrębnienie centralnych mapowań cech związanych z profesjonalnymi manipulacjami obrazów ciał.
Jednakże, przyznają, że manipulacje ostatecznie odzwierciedlają procesy transformacyjne, które mapują postęp od “rzeczywistego” do wcześniej ustalonej koncepcji “ideału”:
‘Zapraszamy trzech profesjonalnych artystów do retuszu ciał przy użyciu programu Photoshop niezależnie, z celem osiągnięcia smukłych sylwetek, które spełniają popularne kanony estetyczne, i wybieramy najlepszy jako wzorzec.’
Ponieważ ramy nie zajmują się twarzami w ogóle, zostały one rozmyte przed włączeniem do zestawu danych.
Architektura i podstawowe pojęcia
Przepływ systemu obejmuje wprowadzenie wysokiej rozdzielczości portretu, jego przetransformowanie w niższej rozdzielczości, która może pomieścić się w dostępnych zasobach obliczeniowych, oraz wyodrębnienie oszacowanej mapy szkieletu (drugi rysunek z lewej na poniższym obrazie), a także pól powinowactwa części (PAF), które zostały wynalezione w 2016 roku przez Instytut Robotyki na Uniwersytecie Carnegie Mellon (zob. film wstawiony bezpośrednio poniżej).
Pola powinowactwa części pomagają w określeniu orientacji kończyn i ogólnej asociacji z szerszą strukturą szkieletu, dostarczając nowemu projektowi dodatkowego narzędzia uwagi/lokalizacji.

Z artykułu o polach powinowactwa części, przewidywane pola powinowactwa części kodują orientację kończyn jako część 2D wektora, który zawiera również ogólną pozycję kończyny. Źródło: https://arxiv.org/pdf/1611.08050.pdf
Pomimo ich pozornie nieistotnego wpływu na wygląd wagi, mapy szkieletu są przydatne w kierowaniu ostatecznymi procesami transformacyjnymi do części ciała, które mają być zmienione, takich jak ramiona, tył i uda.
Następnie wyniki są wprowadzane do strukturalnego modułu uwagi (SASA) w centralnej części procesu (zob. poniższy obraz).

SASA reguluje spójność generatora przepływu, który napędza proces, a wyniki są następnie przekazywane do modułu zginania (drugi od prawej na powyższym obrazie), który stosuje transformacje nauczone z treningu na ręcznych rewizjach zawartych w zestawie danych.

Moduł strukturalnej uwagi (SASA) alokuje uwagę do istotnych części ciała, pomagając uniknąć zbędnych lub nieistotnych transformacji.
Wynikowy obraz jest następnie przetransformowany z powrotem do oryginalnej rozdzielczości 2K, przy użyciu procesów nieodległych od standardowej, 2017 roku architektury deepfake; proces podpróbkowania jest również powszechny w ramach edycji GAN.
Sieć uwagi dla schematu jest modelowana na Compositional De-Attention Networks (CODA), współpracy akademickiej z 2019 roku pomiędzy USA a Singapurem z Amazon AI i Microsoft.
Testy
Ramowy framework został przetestowany przeciwko poprzednim metodom opartym na przepływie FAL i Animating Through Warping (ATW), a także architekturom tłumaczenia obrazu Pix2PixHD i GFLA, z SSIM, PSNR i LPIPS jako metryki oceny.

Wyniki wstępnych testów (kierunek strzałki w nagłówkach wskazuje, czy niższe czy wyższe wartości są lepsze).
Na podstawie tych przyjętych metryk, system autorów przewyższa poprzednie architektury.

Wybrane wyniki. Proszę odnieść się do oryginalnego pliku PDF powiązanego z tym artykułem dla porównań w wyższej rozdzielczości.
Oprócz zautomatyzowanych metryk, badacze przeprowadzili badanie użytkowników (ostatnia kolumna wyników w tabeli wyświetlonej wcześniej), w którym 40 uczestników zostało pokazanych 30 pytań losowo wybranych z puli 100 pytań dotyczących obrazów wytworzonych za pomocą różnych metod. 70% respondentów preferowało nową technikę jako bardziej “wizualnie atrakcyjną”.
Wyzwania
Nowy artykuł reprezentuje rzadki wyjazd w kierunku manipulacji ciałem opartej na sztucznej inteligencji. Sektor syntezy obrazu jest obecnie o wiele bardziej zainteresowany albo generowaniem edytowalnych ciał za pomocą metod takich jak Neural Radiance Fields (NeRF), albo jest skupiony na eksplorowaniu latentnego przestrzeni GAN i potencjału autoencoderów do manipulacji twarzą.
Inicjatywa autorów jest obecnie ograniczona do wprowadzania zmian w postrzeganej wadze i nie wdrożyła jeszcze żadnej techniki inpainting, która mogłaby przywrócić tło, które jest nieuniknienie ujawnione, gdy “schudnie” się zdjęcie kogoś.
Jednakże, proponują, że matowanie portretu i mieszanie tła za pomocą inferencji teksturalnej mogłoby trywialnie rozwiązać problem przywrócenia części świata, które były wcześniej ukryte w obrazie przez “niedoskonałość” ludzką.

Proponowane rozwiązanie dla przywrócenia tła, które jest ujawnione przez sztuczną inteligencję prowadzącą do redukcji tłuszczu.
* Chociaż wstępny artykuł odnosi się do materiału uzupełniającego, który dostarcza więcej szczegółów na temat zestawu danych, a także dalszych przykładów z projektu, lokalizacja tego materiału nie jest dostępna w artykule, a odpowiedni autor jeszcze nie odpowiedział na naszą prośbę o dostęp.
Pierwotnie opublikowane 10 marca 2022.










