Sztuczna inteligencja

Fałszowanie “lepszych” ciał za pomocą sztucznej inteligencji

Published March 10, 2022

Updated April 5, 2026

Martin Anderson

Nowe badania przeprowadzone przez Akademię Alibaba DAMO oferują opracowany z wykorzystaniem sztucznej inteligencji proces automatyzujący przekształcanie obrazów ciał – rzadki wysiłek w sektorze widzenia komputerowego, który obecnie zajmuje się manipulacjami twarzy takimi jak deepfakes i edycja twarzy oparta na GAN.

Wstawiono w kolumnach ‘wynik’, wygenerowane mapy uwagi, które definiują obszary do modyfikacji. Źródło: https://arxiv.org/pdf/2203.04670.pdf

Architektura badaczy wykorzystuje szacowanie pozycji szkieletu, aby rozwiązać problem większej złożoności, z jakim systemy syntezy i edycji obrazów mają do czynienia z konceptualizacją i parametryzacją istniejących obrazów ciał, przynajmniej na poziomie szczegółowości, który pozwala na znaczącą i selektywną edycję.

Oszacowane mapy szkieletu pomagają w indywidualizacji i skupieniu uwagi na obszarach ciała, które najprawdopodobniej zostaną retuszowane, takich jak obszar ramienia.

System ostatecznie umożliwia użytkownikowi ustalenie parametrów, które mogą zmienić wygląd wagi, masy mięśniowej lub rozkładu wagi w pełnych lub średnich długościach zdjęć ludzi i jest w stanie generować dowolne transformacje na ubranych lub nieubranych częściach ciała.

Po lewej, obraz wejściowy; w środku, mapa ciepła pochodzących obszarów uwagi; po prawej, przekształcony obraz.

Motywacją do tej pracy jest rozwój zautomatyzowanych procesów, które mogą zastąpić uciążliwe cyfrowe manipulacje podejmowane przez fotografów i artystów graficznych w różnych gałęziach mediów, od mody do magazynów i materiałów prasowych.

Ogólnie, autorzy uznają, że te transformacje są zwykle stosowane z użyciem technik “warp” w programie Photoshop i innych tradycyjnych edytorach bitmapowych i są prawie wyłącznie stosowane w obrazach kobiet. W związku z tym, niestandardowy zestaw danych opracowany w celu ułatwienia nowego procesu składa się głównie z zdjęć osób płci żeńskiej:

‘Ponieważ retusz ciała jest głównie pożądany przez kobiety, większość naszej kolekcji to zdjęcia kobiet, biorąc pod uwagę różnorodność wieku, ras (Afrykańska: Azjatycka: Kaukaska = 0,33: 0,35: 0,32), poz, i odzieży.’

Artykuł ten nosi tytuł Structure-Aware Flow Generation for Human Body Reshaping i pochodzi od pięciu autorów związanych z globalną Akademią Alibaba DAMO.

Tworzenie zestawu danych

Jak zwykle ma to miejsce w przypadku systemów syntezy i edycji obrazów, architektura projektu wymagała niestandardowego zestawu danych szkoleniowych. Autorzy zleciли trzem fotografom wykonanie standardowych manipulacji programu Photoshop na odpowiednich obrazach ze strony stock photography Unsplash, co skutkowało zestawem danych – zatytułowanym BR-5K* – 5000 obrazów o wysokiej jakości w rozdzielczości 2K.

Badacze podkreślają, że celem szkolenia na tym zestawie danych nie jest wytworzenie “ideałów” i uogólnionych cech odnoszących się do wskaźnika atrakcyjności lub pożądanej aparycji, ale raczej wyodrębnienie centralnych mapowań cech związanych z profesjonalnymi manipulacjami obrazów ciał.

Jednakże, przyznają, że manipulacje ostatecznie odzwierciedlają procesy transformacyjne, które mapują postęp od “rzeczywistego” do wcześniej ustalonej koncepcji “ideału”:

‘Zapraszamy trzech profesjonalnych artystów do retuszu ciał przy użyciu programu Photoshop niezależnie, z celem osiągnięcia smukłych sylwetek, które spełniają popularne kanony estetyczne, i wybieramy najlepszy jako wzorzec.’

Ponieważ ramy nie zajmują się twarzami w ogóle, zostały one rozmyte przed włączeniem do zestawu danych.

Architektura i podstawowe pojęcia

Przepływ systemu obejmuje wprowadzenie wysokiej rozdzielczości portretu, jego przetransformowanie w niższej rozdzielczości, która może pomieścić się w dostępnych zasobach obliczeniowych, oraz wyodrębnienie oszacowanej mapy szkieletu (drugi rysunek z lewej na poniższym obrazie), a także pól powinowactwa części (PAF), które zostały wynalezione w 2016 roku przez Instytut Robotyki na Uniwersytecie Carnegie Mellon (zob. film wstawiony bezpośrednio poniżej).

Pola powinowactwa części pomagają w określeniu orientacji kończyn i ogólnej asociacji z szerszą strukturą szkieletu, dostarczając nowemu projektowi dodatkowego narzędzia uwagi/lokalizacji.

Z artykułu o polach powinowactwa części, przewidywane pola powinowactwa części kodują orientację kończyn jako część 2D wektora, który zawiera również ogólną pozycję kończyny. Źródło: https://arxiv.org/pdf/1611.08050.pdf

Pomimo ich pozornie nieistotnego wpływu na wygląd wagi, mapy szkieletu są przydatne w kierowaniu ostatecznymi procesami transformacyjnymi do części ciała, które mają być zmienione, takich jak ramiona, tył i uda.

Następnie wyniki są wprowadzane do strukturalnego modułu uwagi (SASA) w centralnej części procesu (zob. poniższy obraz).

SASA reguluje spójność generatora przepływu, który napędza proces, a wyniki są następnie przekazywane do modułu zginania (drugi od prawej na powyższym obrazie), który stosuje transformacje nauczone z treningu na ręcznych rewizjach zawartych w zestawie danych.

Moduł strukturalnej uwagi (SASA) alokuje uwagę do istotnych części ciała, pomagając uniknąć zbędnych lub nieistotnych transformacji.

Wynikowy obraz jest następnie przetransformowany z powrotem do oryginalnej rozdzielczości 2K, przy użyciu procesów nieodległych od standardowej, 2017 roku architektury deepfake; proces podpróbkowania jest również powszechny w ramach edycji GAN.

Sieć uwagi dla schematu jest modelowana na Compositional De-Attention Networks (CODA), współpracy akademickiej z 2019 roku pomiędzy USA a Singapurem z Amazon AI i Microsoft.

Testy

Ramowy framework został przetestowany przeciwko poprzednim metodom opartym na przepływie FAL i Animating Through Warping (ATW), a także architekturom tłumaczenia obrazu Pix2PixHD i GFLA, z SSIM, PSNR i LPIPS jako metryki oceny.

Wyniki wstępnych testów (kierunek strzałki w nagłówkach wskazuje, czy niższe czy wyższe wartości są lepsze).

Na podstawie tych przyjętych metryk, system autorów przewyższa poprzednie architektury.

Wybrane wyniki. Proszę odnieść się do oryginalnego pliku PDF powiązanego z tym artykułem dla porównań w wyższej rozdzielczości.

Oprócz zautomatyzowanych metryk, badacze przeprowadzili badanie użytkowników (ostatnia kolumna wyników w tabeli wyświetlonej wcześniej), w którym 40 uczestników zostało pokazanych 30 pytań losowo wybranych z puli 100 pytań dotyczących obrazów wytworzonych za pomocą różnych metod. 70% respondentów preferowało nową technikę jako bardziej “wizualnie atrakcyjną”.

Wyzwania

Nowy artykuł reprezentuje rzadki wyjazd w kierunku manipulacji ciałem opartej na sztucznej inteligencji. Sektor syntezy obrazu jest obecnie o wiele bardziej zainteresowany albo generowaniem edytowalnych ciał za pomocą metod takich jak Neural Radiance Fields (NeRF), albo jest skupiony na eksplorowaniu latentnego przestrzeni GAN i potencjału autoencoderów do manipulacji twarzą.

Inicjatywa autorów jest obecnie ograniczona do wprowadzania zmian w postrzeganej wadze i nie wdrożyła jeszcze żadnej techniki inpainting, która mogłaby przywrócić tło, które jest nieuniknienie ujawnione, gdy “schudnie” się zdjęcie kogoś.

Jednakże, proponują, że matowanie portretu i mieszanie tła za pomocą inferencji teksturalnej mogłoby trywialnie rozwiązać problem przywrócenia części świata, które były wcześniej ukryte w obrazie przez “niedoskonałość” ludzką.

Proponowane rozwiązanie dla przywrócenia tła, które jest ujawnione przez sztuczną inteligencję prowadzącą do redukcji tłuszczu.

* Chociaż wstępny artykuł odnosi się do materiału uzupełniającego, który dostarcza więcej szczegółów na temat zestawu danych, a także dalszych przykładów z projektu, lokalizacja tego materiału nie jest dostępna w artykule, a odpowiedni autor jeszcze nie odpowiedział na naszą prośbę o dostęp.

Pierwotnie opublikowane 10 marca 2022.

Related Topics:deepfake DeepFakes image synthesis research

Martin Anderson

Pisarz na temat uczenia maszynowego, specjalista ds. syntezowania obrazów ludzi. Były kierownik treści badawczych w Metaphysic.ai.

Unite.AI

Fałszowanie “lepszych” ciał za pomocą sztucznej inteligencji

Tworzenie zestawu danych

Architektura i podstawowe pojęcia

Testy

Wyzwania

You may like