stub Organizowanie syntezy twarzy za pomocą segmentacji semantycznej — Unite.AI
Kontakt z nami

Artificial Intelligence

Organizowanie syntezy twarzy za pomocą segmentacji semantycznej

mm
Zaktualizowano on

Problem z wymyślaniem ludzkich twarzy za pomocą pliku A Generatywna sieć przeciwników (GAN) polega na tym, że dane ze świata rzeczywistego, na których opierają się fałszywe obrazy, zawierają niepożądane i nierozłączne dodatki, takie jak włosy na głowie (i/lub twarzy), tło oraz różnego rodzaju elementy wyposażenia twarzy, takie jak okulary, kapelusze, i kolczyki; oraz że te peryferyjne aspekty osobowości nieuchronnie zostają powiązane w „zespoloną” tożsamość.

W najpopularniejszych architekturach GAN elementy te nie są adresowalne w osobnej, dedykowanej przestrzeni, ale raczej są ściśle powiązane z powierzchnią, w której (lub wokół niej) są osadzone.

Zwykle nie można też narzucać lub wpływać na wygląd podsekcje twarzy stworzonej przez GAN, takie jak zwężenie oczu, wydłużenie nosa lub zmiana koloru włosów w sposób, w jaki mógłby to zrobić policyjny rysownik.

Jednak sektor badań nad syntezą obrazu pracuje nad tym:

Nowe badania nad generowaniem twarzy w oparciu o GAN podzieliły różne części twarzy na odrębne obszary, każdy z własnym „generatorem”, współpracującym z innymi generatorami obrazu. W środkowym rzędzie widzimy koordynującą „mapę cech” budującą dodatkowe obszary twarzy. Źródło: https://arxiv.org/pdf/2112.02236.pdf

Nowe badania nad generowaniem twarzy w oparciu o sieć GAN podzieliły różne sekcje twarzy na odrębne obszary, każdy z własnym „generatorem”, współpracującym z innymi generatorami obrazu. W środkowym rzędzie widzimy koordynującą „mapę cech” budującą dodatkowe obszary twarzy. Źródło: https://arxiv.org/pdf/2112.02236.pdf

W nowym papierbadacze z amerykańskiego oddziału chińskiego międzynarodowego giganta technologicznego ByteDance wykorzystali segmentację semantyczną, aby podzielić części składowe twarzy na odrębne sekcje, z których każda ma przydzielony własny generator, dzięki czemu możliwe jest osiągnięcie większego stopnia  rozwikłanie. Lub przynajmniej, percepcyjny rozwikłanie.

Połączenia papier jest zatytułowany SemanticStyleGAN: nauka priorytetów generatywnych kompozycyjnych do kontrolowanej syntezy i edycji obrazówi towarzyszy bogaty w multimedia strona projektu przedstawiający wiele przykładów różnych drobnoziarnistych transformacji, które można osiągnąć, oddzielając w ten sposób elementy twarzy i głowy.

Teksturę twarzy, fryzurę i kolor włosów, kształt i kolor oczu oraz wiele innych aspektów niegdyś nierozerwalnych cech generowanych przez GAN można teraz rozwikłać, chociaż jakość separacji i poziom instrumentalności prawdopodobnie będą się różnić w zależności od przypadku. Źródło: https://semanticstylegan.github.io/

Tekstura twarzy, fryzura i kolor włosów, kształt i kolor oczu oraz wiele innych aspektów niegdyś nierozerwalnych cech generowanych przez GAN może być teraz de facto  rozwikłane, chociaż jakość separacji i poziom instrumentalności prawdopodobnie będą się różnić w zależności od przypadku. Źródło: https://semanticstylegan.github.io/

Niekontrolowana ukryta przestrzeń

Generatywna Sieć Przeciwstawna przeszkolona do generowania twarzy – np StylGan2 generator obsługujący popularną witrynę thispersondoesnotexist.com – tworzy złożone powiązania pomiędzy „funkcjami” (nie w sensie twarzy), który wywodzi się z analizy tysięcy twarzy ze świata rzeczywistego, aby nauczyć się, jak samodzielnie tworzyć realistyczne twarze ludzkie.

Te tajne procesy to „ukryte kody”. utajona przestrzeń. Są one trudne do analizy, a co za tym idzie trudne do instrumentalizacji.

W zeszłym tygodniu pojawił się inny nowy projekt syntezy obrazu, który ma na celu „mapowanie” tej niemal okultystycznej przestrzeni podczas samego procesu szkoleniowego, a następnie korzystać z tych map, aby interaktywnie nawigowaći zaproponowano różne inne rozwiązania w celu uzyskania głębszej kontroli nad zawartością syntetyzowaną przez GAN.

Poczyniono pewne postępy dzięki zróżnicowanej ofercie architektur GAN, które próbują w jakiś sposób „dotrzeć” do ukrytej przestrzeni i stamtąd kontrolować generowanie twarzy. Takie wysiłki obejmują InterFaceGAN, Przepływ stylu, GANSpace, StylRig, wśród innych ofert w stale produktywnym strumieniu nowych artykułów.

To, co je wszystkie łączy, to ograniczony stopień rozplątania; pomysłowe suwaki GUI dla różnych aspektów (takich jak „włosy” czy „ekspresja”) mają tendencję do wciągania tła i/lub innych elementów w proces transformacji, a żaden z nich (łącznie z omawianym tutaj artykułem) nie rozwiązał problemu czasowego włosy nerwowe.

Dzielenie i podbijanie przestrzeni ukrytej

W każdym razie badanie ByteDance przyjmuje inne podejście: zamiast próbować rozwikłać tajemnice pojedynczej sieci GAN działającej na całym wygenerowanym obrazie twarzy, SemanticStyleGAN formułuje podejście oparte na układzie, w którym twarze są „komponowane” przez oddzielne procesy generatora.

Aby osiągnąć to rozróżnienie cech (twarzy), SemanticStyleGAN wykorzystuje Cechy Fouriera w celu wygenerowania mapy segmentacji semantycznej (proste, kolorowe rozróżnienie topografii twarzy, pokazane w prawym dolnym rogu poniższego obrazu), aby wyizolować obszary twarzy, które otrzymają indywidualną, dedykowaną uwagę.

Architektura nowego podejścia, które nakłada na twarz śródmiąższową warstwę segmentacji semantycznej, skutecznie zamieniając framework w koordynatora wielu generatorów dla różnych aspektów obrazu.

Architektura nowego podejścia, które nakłada na twarz śródmiąższową warstwę segmentacji semantycznej, skutecznie zamieniając framework w koordynatora wielu generatorów dla różnych aspektów obrazu.

Mapy segmentacji są generowane dla fałszywych obrazów, które są systematycznie przedstawiane dyskryminatorowi sieci GAN w celu oceny w miarę ulepszania modelu, oraz dla (nie fałszywych) obrazów źródłowych wykorzystywanych do uczenia.

Na początku procesu a Perceptron wielowarstwowy (MLP) początkowo odwzorowuje losowo wybrane ukryte kody, które następnie zostaną wykorzystane do kontrolowania wag kilku generatorów, z których każdy przejmie kontrolę nad wycinkiem tworzonego obrazu twarzy.

Każdy generator tworzy mapę cech i symulowaną mapę głębokości na podstawie cech Fouriera, które są do niego dostarczane w górę strumienia. Dane wyjściowe stanowią podstawę masek segmentacji.

Dalsza sieć renderująca jest uwarunkowana jedynie wcześniejszymi mapami obiektów i teraz wie, jak wygenerować maskę segmentacji o wyższej rozdzielczości, ułatwiając ostateczną produkcję obrazu.

Wreszcie rozwidlony dyskryminator nadzoruje połączoną dystrybucję zarówno obrazów RGB (które są dla nas wynikiem końcowym), jak i masek segmentacji, które pozwoliły na ich oddzielenie.

Dzięki SemanticStyleGAN nie ma niepożądanych zakłóceń wizualnych podczas „wprowadzania” zmian rysów twarzy, ponieważ każda cecha twarzy została oddzielnie przeszkolona w ramach orkiestracji.

Zastępowanie tła

Ponieważ zamierzeniem projektu jest uzyskanie większej kontroli nad generowanym środowiskiem, proces renderowania/kompozycji obejmuje generator tła trenowany na prawdziwych obrazach.

Jednym z istotnych powodów, dla których tła nie są wciągane w manipulacje twarzą w SemanticStyleGAN, jest to, że znajdują się na bardziej odległej warstwie i są kompletne, jeśli są częściowo ukryte przez nałożone na siebie twarze.

Jednym z istotnych powodów, dla których tła nie są wciągane w manipulacje twarzą w SemanticStyleGAN, jest to, że znajdują się na bardziej odległej warstwie i są kompletne, jeśli są częściowo ukryte przez nałożone na siebie twarze.

Ponieważ mapy segmentacji utworzą twarze bez tła, te tła „wsuwane” nie tylko zapewniają kontekst, ale są również skonfigurowane tak, aby były odpowiednie pod względem oświetlenia do nałożonych twarzy.

Szkolenia i dane

„Realistyczne” modele zostały wytrenowane na początkowych 28,000 XNUMX obrazów Siedziba CelebAMask, którego rozmiar został zmieniony na 256×256 pikseli, aby pomieścić przestrzeń treningową (tj. dostępną pamięć VRAM, która określa maksymalny rozmiar partii na iterację).

Przeszkolono wiele modeli, a podczas procesu opracowywania i różnych testów ablacji eksperymentowano z różnymi narzędziami, zbiorami danych i architekturami. Największy produktywny model projektu charakteryzował się rozdzielczością 512×512 i był trenowany przez 2.5 dnia na ośmiu procesorach graficznych NVIDIA Tesla V100. Po treningu wygenerowanie pojedynczego obrazu zajmuje 0.137 s na płatkowym procesorze graficznym bez równoległości.

Eksperymenty w stylu kreskówek/anime zaprezentowane w wielu filmach na stronie projektu (patrz link powyżej) pochodzą z różnych popularnych zbiorów danych opartych na twarzach, w tym Toonify, MetFaces, Bitmoji.

Rozwiązanie tymczasowe?

Autorzy twierdzą, że nie ma powodu, dla którego SemanticStyleGAN nie mógłby zostać zastosowany w innych dziedzinach, takich jak krajobrazy, samochody, kościoły i wszystkie inne „domyślne” domeny testowe, którym nowe architektury są rutynowo poddawane na początku swojej kariery.

W artykule przyznano jednak, że wraz ze wzrostem liczby klas w domenie (takich jak 'samochód'"lampa uliczna', 'pieszy', 'budynek', 'samochód' itp.), to fragmentaryczne podejście może okazać się niewykonalne z wielu powodów bez dalszych prac nad optymalizacją. Na przykład miejski zbiór danych CityScapes zawiera 30 zajęć w 8 kategoriach.

Trudno powiedzieć, czy obecne zainteresowanie bardziej bezpośrednim podbojem ukrytej przestrzeni jest tak samo skazane na porażkę jak alchemia; lub czy ukryte kody będą w końcu możliwe do odszyfrowania i kontrolowania – jest to zmiana, która może sprawić, że tego rodzaju bardziej „zewnętrznie złożone” podejście stanie się zbędne.