Connect with us

System AI, który może robić zdjęcia ludzi bardziej “piękne”

Sztuczna inteligencja

System AI, który może robić zdjęcia ludzi bardziej “piękne”

mm
Background image: DALL-E 2 'Award-winning 8K photo of the most beautiful Caucasian catwalk model in the world' - https://labs.openai.com/s/kRXusxOR5GcYyb6pqZjNH2AA

Naukowcy z Chin opracowali nowy system wzmacniania obrazu oparty na sztucznej inteligencji, który jest w stanie robić zdjęcia osoby bardziej “piękne”, oparty na nowym podejściu do uczenia wzmacniania.

Nowe podejście wykorzystuje 'sieć predykcji piękna twarzy', aby iterować przez warianty obrazu na podstawie kilku czynników, wśród których 'oświetlenie' i pozy eye mogą być krytycznymi czynnikami. Tutaj oryginalne źródła (po lewej stronie każdej kolumny) pochodzą z systemu EigenGAN, a nowe wyniki znajdują się po prawej stronie. Źródło: https://arxiv.org/pdf/2208.04517.pdf

Nowe podejście wykorzystuje ‘sieć predykcji piękna twarzy’, aby iterować przez warianty obrazu na podstawie kilku czynników, wśród których ‘oświetlenie’ i pozy eye mogą być krytycznymi czynnikami. Tutaj oryginalne źródła (po lewej stronie każdej kolumny) pochodzą z systemu EigenGAN, a nowe wyniki znajdują się po prawej stronie. Źródło: https://arxiv.org/pdf/2208.04517.pdf

Technika ta opiera się na innowacjach odkrytych dla generowanego EigenGAN, innego chińskiego projektu, z 2021 roku, który dokonał znaczących postępów w identyfikowaniu i uzyskaniu pewnej kontroli nad różnymi atrybutami semantycznymi w przestrzeni latentnej sieci generatywno-dyskryminacyjnych (GAN).

Generator EigenGAN z 2021 roku był w stanie wyodrębnić wysokiego poziomu pojęcia, takie jak 'kolor włosów', w przestrzeni latentnej sieci generatywno-dyskryminacyjnej. Nowa praca opiera się na tym innowacyjnym instrumencie, aby dostarczyć system, który może 'upiększać' źródłowe obrazy, ale bez zmiany rozpoznawalnej tożsamości – problem w poprzednich podejściach.

Generator EigenGAN z 2021 roku był w stanie wyodrębnić wysokiego poziomu pojęcia, takie jak ‘kolor włosów’, w przestrzeni latentnej sieci generatywno-dyskryminacyjnej. Nowa praca opiera się na tym innowacyjnym instrumencie, aby dostarczyć system, który może ‘upiększać’ źródłowe obrazy, ale bez zmiany rozpoznawalnej tożsamości – problem w poprzednich podejściach. Źródło: https://arxiv.org/pdf/2104.12476.pdf

System wykorzystuje ‘sieć oceny estetyki’ pochodzącą z SCUT-FBP5500 (SCUT), zestawu danych referencyjnych dla predykcji piękna twarzy z 2018 roku, z Południowo-Chińskiego Uniwersytetu Technologicznego w Guangzhou.

Z artykułu z 2018 roku 'SCUT-FBP5500: Zróżnicowany zestaw danych referencyjnych dla wieloparadygmatycznej predykcji piękna twarzy', który zaproponował 'sieć predykcji piękna twarzy' (FBP) w stanie klasyfikować twarze pod względem postrzeganego atrakcyjności, ale która nie mogła rzeczywiście transformować lub 'poprawiać' twarze.

Z artykułu z 2018 roku ‘SCUT-FBP5500: Zróżnicowany zestaw danych referencyjnych dla wieloparadygmatycznej predykcji piękna twarzy’, który zaproponował ‘sieć predykcji piękna twarzy’ (FBP) w stanie klasyfikować twarze pod względem postrzeganego atrakcyjności, ale która nie mogła rzeczywiście transformować lub ‘poprawiać’ twarze. Źródło: https://arxiv.org/pdf/1801.06345.pdf

W przeciwieństwie do nowej pracy, projekt z 2018 roku nie może rzeczywiście wykonywać transformacji, ale zawiera algorytmiczne oceny dla 5 500 twarzy, dostarczonych przez 60 etykietujących o mieszanej płci (50/50 podział). Te zostały wbudowane w nowy system jako skuteczny dyskryminator, aby poinformować transformacje, które prawdopodobnie zwiększą ‘atrakcyjność’ obrazu.

Interesująco, nowy artykuł nosi tytuł Generowanie twarzy pięknych osób rasy kaukaskiej z kontrolą atrybutów przy użyciu estetycznego uczenia wzmacniania. Powodem, dla którego wszystkie rasy poza kaukaską są wykluczone z systemu (zwróć uwagę, że sami badacze są Chińczykami) jest to, że źródłowe dane dla SCUT wyraźnie nachylają się ku azjatyckim źródłom (4000 równo podzielonych azjatyckich kobiet i mężczyzn, 1500 równo podzielonych kobiet i mężczyzn rasy kaukaskiej), co sprawia, że ‘przeciętna osoba’ w tym zestawie danych ma brązowe włosy i brązowe oczy.

Dlatego, aby uwzględnić zmiany kolorystyczne co najmniej w jednej rasie, było konieczne wykluczenie azjatyckiego składnika z oryginalnych danych, lub pójście na znaczne koszty odtworzenia danych, aby opracować metodę, która może nie powieść się. Dodatkowo, zmiany w percepcji piękna nieuchronnie oznaczają, że takie systemy będą wymagać pewnego stopnia geograficznej konfiguracji w odniesieniu do tego, co stanowi ‘atrakcyjność’.

Atrybuty istotne

Aby określić główne czynniki przyczyniające się do ‘atrakcyjnego’ zdjęcia osoby, badacze również przetestowali wpływ różnych zmian na obrazy, pod względem tego, jak dobrze takie uzupełnienia zwiększają algorytmiczne postrzeganie ‘piękna’. Stwierdzili, że co najmniej jeden z aspektów jest bardziej centralny dla dobrej fotografii niż dobrej genetyki:

Poza oświetleniem, aspekty, które miały największy wpływ na ocenę piękna, to grzywka (która, w przypadku mężczyzn, może często być równoznaczna z posiadaniem pełnej głowy włosów), poza twarzą i dyspozycją oczu (gdzie zaangażowanie w punkt widzenia kamery jest impulsem do atrakcyjności).

(W odniesieniu do ‘koloru szminki’, nowy system, który może skutecznie działać zarówno na męskie, jak i żeńskie prezentacje płci, nie wyodrębnia wyglądu płci, ale raczej opiera się na nowym systemie dyskryminacji jako ‘filtrowi’ w tym zakresie)

Metoda

Funkcja nagrody w mechanizmie uczenia wzmacniania w nowym systemie jest napędzana przez proste regresję nad danymi SCUT, które dają wyjście predykcji piękna twarzy.

System szkoleniowy iteruje nad danymi wejściowymi (w lewym dolnym rogu schematu poniżej). Początkowo wstępnie wytrenowany model ResNet18 (wytrenowany na ImageNet) wyodrębnia cechy z pięciu identycznych (‘y’) obrazów. Następnie potencjalna akcja transformatywna jest pochodną z ukrytego stanu warstwy w pełni połączonej (GRUCell, na obrazie poniżej), a transformacje są stosowane, co prowadzi do pięciu zmienionych obrazów, które są wprowadzane do sieci oceny estetyki, której rankingi, w stylu Darwina, określą, które wariacje będą rozwijane, a które odrzucone.

Szeroka ilustracja przepływu pracy dla nowego systemu.

Ilustracja przepływu pracy dla nowego systemu.

Sieć oceny estetyki wykorzystuje moduł Efficient Channel Attention (ECA), podczas gdy adaptacja wstępnie wytrenowanego egzemplarza EfficientNet-B4 jest odpowiedzialna za wyodrębnienie 1 792 cech z każdego obrazu.

Po normalizacji za pomocą funkcji aktywacji ReLU, wektor 4-wymiarowy jest uzyskiwany z powrotem z modułu ECA, który jest następnie spłaszczany do wektora jednowymiarowego po aktywacji i adaptacyjnym poolingu średnim. Wreszcie wyniki są wprowadzane do sieci regresji, która pobiera ocenę estetyki.

Jakościowe porównanie wyjścia systemu. W dolnym rzędzie widzimy zsumowane wszystkie wyodrębnione aspekty, które zostały zidentyfikowane przez metodę EigenGAN, a następnie udoskonalone. Średnie wyniki FID dla obrazów znajdują się po lewej stronie wierszy (wyższy jest lepszy).

Jakościowe porównanie wyjścia systemu. W dolnym rzędzie widzimy zsumowane wszystkie wyodrębnione aspekty, które zostały zidentyfikowane przez metodę EigenGAN, a następnie udoskonalone. Średnie wyniki FID dla obrazów znajdują się po lewej stronie wierszy (wyższy jest lepszy).

Testy i badanie użytkowników

Pięć wariantów proponowanej metody zostało ocenionych algorytmicznie (patrz obraz powyżej), z wynikami Fréchet inception distance (FID, kontrowersyjnym w niektórych kręgach) przypisanymi do 1000 obrazów, które zostały poddane systemowi.

Badacze zauważają, że poprawa oświetlenia osiągnęła lepszy wynik atrakcyjności dla osób na zdjęciach niż kilka innych, bardziej ‘oczywistych’ możliwych zmian (tj. zmiany samego wyglądu osoby).

W pewnym stopniu testowanie systemu w ten sposób jest ograniczone przez ekscentryczność danych SCUT, które nie mają wielu ‘świetlistych uśmiechów’, a autorzy twierdzą, że może to nadmiernie przeceniać bardziej ‘zagadkowy’ wygląd w danych w porównaniu z prawdopodobnymi preferencjami potencjalnych użytkowników końcowych (prawdopodobnie, w tym przypadku, rynku zachodniego).

Jednakże, ponieważ cały system opiera się na średnich opiniach zaledwie 60 osób (w artykule EigenGAN), a jakość, która jest badana, jest daleko od empirycznej, można twierdzić, że procedura jest bardziej słuszna niż zestaw danych.

Chociaż jest to potraktowane bardzo krótko w artykule, obrazy z EigenGAN i pięciu wariantów systemu zostały również pokazane w ograniczonym badaniu użytkowników (osiem uczestników), którzy zostali poproszeni o wybranie ‘najlepszego obrazu’ (słowo ‘atrakcyjny’ zostało uniknięte).

Powyróż, interfejs użytkownika przedstawiony małej grupie badawczej; poniżej, wyniki.

Powyróż, interfejs użytkownika przedstawiony małej grupie badawczej; poniżej, wyniki.

Wyniki wskazują, że wyjście nowego systemu osiągnęło najwyższy wskaźnik wyboru wśród uczestników (‘MAES’ na obrazie powyżej).

Bezcelowe (bezładne?) Pogoni za pięknem

Użyteczność takiego systemu jest trudna do ustalenia, pomimo tego, co wydaje się znaczącym lokalizacją wysiłku w tym kierunku w Chinach. Żaden nie jest przedstawiony w nowej publikacji.

Poprzedni artykuł EigenGAN sugeruje*, że system rozpoznawania piękna może być wykorzystany w systemach rekomendacji syntetycznej makijażu twarzy, chirurgii estetycznej, poprawie twarzy, lub wyszukiwaniu obrazów opartym na treści.

Przykładowo, taki podejście mogłoby być również wykorzystane na stronach randkowych, przez użytkowników końcowych, aby ‘poprawić’ swoje własne zdjęcia profilowe w gwarantowany ‘szczęśliwy strzał’, jako alternatywę dla używania przestarzałych zdjęć, lub zdjęć innych osób.

Podobnie, same strony randkowe mogłyby również ‘oceniać’ swoich klientów, aby utworzyć oceny i nawet ograniczone poziomy dostępu, chociaż to prawdopodobnie działałoby tylko za pomocą uwierzytelniania na żywo, a nie za pomocą przesłanych zdjęć (które również mogłyby być ‘poprawione’ przez klientów, gdyby podejście to stało się popularne).

W reklamie, metoda algorytmiczna do oceny piękna (technologia przewidziana przez zmarłego autora science fiction Michaela Crichtona w jego filmie Looker z 1982 roku) mogłaby być wykorzystana do wyboru niewzmocnionego wyjścia kreatywnego, najbardziej prawdopodobnego zaangażowania docelowej publiczności, podczas gdy możliwość rzeczywistego zwiększania estetycznego wpływu obrazów twarzy, bez nadpisania ich w stylu deepfake, mogłaby zwiększyć już skuteczne obrazy mające na celu zainteresowanie publiczności.

Nowa praca jest wspierana przez Narodowy Fundusz Nauki Naturalnej Chin, projekt otwarty Państwowego Laboratorium Zarządzania Złożonymi Systemami i Kontrolą, oraz projekt Badań Filozoficznych i Społecznych z ministerstwa edukacji Chin, wśród innych wspierających.

 

* Wiele zaleceń w artykule EigenGAN wskazuje na dostępną komercyjnie książkę z 2016 roku pt. ‘Computer Models for Facial Beauty Analysis’, zamiast zasobów akademickich.

Pierwotnie opublikowane 11 sierpnia 2022.

Pisarz na temat uczenia maszynowego, specjalista ds. syntezowania obrazów ludzi. Były kierownik treści badawczych w Metaphysic.ai.