Connect with us

Estymacja przewidywania atrakcyjności twarzy dla transmisji na żywo

Sztuczna inteligencja

Estymacja przewidywania atrakcyjności twarzy dla transmisji na żywo

mm
Image by ChatGPT, with superimposed image from the paper https://arxiv.org/pdf/2501.02509

Do tej pory badania nad przewidywaniem atrakcyjności twarzy (FAP) były prowadzone głównie w kontekście badań psychologicznych, w branży piękności i kosmetyków, oraz w kontekście chirurgii plastycznej. Jest to trudna dziedzina badań, ponieważ standardy piękna mają tendencję do bycia raczej krajowe niż globalne.

Oznacza to, że nie istnieje jeden skuteczny zestaw danych opartych na sztucznej inteligencji, ponieważ średnie wartości uzyskane z próbek twarzy/ocen z wszystkich kultur będą bardzo tendencyjne (gdzie bardziej zaludnione narody zyskają dodatkową przewagę), lub będą stosowane do żadnej kultury w ogóle (gdzie średnia wartość wielu ras/ocen będzie równa żadnej rasie).

Zamiast tego, wyzwaniem jest opracowanie koncepcyjnych metodologii i przepływów pracy, do których mogą być przetwarzane dane specyficzne dla kraju lub kultury, aby umożliwić rozwój skutecznych modeli FAP dla każdego regionu.

Przypadki użycia FAP w badaniach piękności i psychologicznych są dość marginalne, lub są specyficzne dla branży; dlatego większość zestawów danych opracowanych do tej pory zawiera tylko ograniczone dane, lub nie zostały opublikowane w ogóle.

Łatwa dostępność online predictorów atrakcyjności, głównie skierowanych do publiczności zachodniej, niekoniecznie reprezentują stan sztuki w FAP, który wydaje się obecnie dominowany przez badania azjatyckie (głównie chińskie), i odpowiadające azjatyckie zestawy danych.

Przykłady z zestawu danych z 2020 roku 'Asian Female Facial Beauty Prediction Using Deep Neural Networks via Transfer Learning and Multi-Channel Feature Fusion'. Source: https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30

Przykłady z zestawu danych z 2020 roku ‘Asian Female Facial Beauty Prediction Using Deep Neural Networks via Transfer Learning and Multi-Channel Feature Fusion’. Source: https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30

Szersze komercyjne zastosowania estymacji piękności obejmują aplikacje randkowe online, i systemy generatywne sztucznej inteligencji zaprojektowane do “poprawy” obrazów ludzi (ponieważ takie aplikacje wymagają skwantyfikowanego standardu piękna jako miary skuteczności).

Rysowanie twarzy

Atrakcyjne osoby nadal są cennym atutem w reklamie i budowaniu wpływu, co sprawia, że finansowe zachęty w tych sektorach są wyraźną okazją do rozwoju stanu sztuki w zestawach danych i ramach FAP.

Na przykład, model sztucznej inteligencji wyszkolony z danych z rzeczywistego świata do oceny i klasyfikacji piękna twarzy mógłby potencjalnie identyfikować wydarzenia lub osoby o wysokim potencjale dla wpływu reklamowego. Ta zdolność byłaby szczególnie istotna w kontekście transmisji wideo na żywo, gdzie metryki takie jak “obserwujący” i “polubienia” służą tylko jako niejawne wskaźniki zdolności osoby (lub nawet typu twarzy) do przyciągania uwagi publiczności.

Jest to powierzchowny wskaźnik, oczywiście, i głos, prezentacja i punkt widzenia odgrywają również znaczącą rolę w gromadzeniu publiczności. Dlatego kuracja zestawów danych FAP wymaga nadzoru ludzkiego, a także zdolności do odróżniania atrakcyjności twarzy od “pozornej” atrakcyjności (bez której, wpływowi spoza domeny, tacy jak Alex Jones, mogliby wpłynąć na średnią krzywą FAP dla zbioru zaprojektowanego wyłącznie do estymacji piękna twarzy).

LiveBeauty

Aby rozwiązać problem braku zestawów danych FAP, badacze z Chin oferują pierwszy duży zestaw danych FAP, zawierający 100 000 obrazów twarzy, wraz z 200 000 ocenami ludzkimi szacującymi piękno twarzy.

Przykłady z nowego zestawu danych LiveBeauty. Source: https://arxiv.org/pdf/2501.02509

Przykłady z nowego zestawu danych LiveBeauty. Source: https://arxiv.org/pdf/2501.02509

Zestaw danych, zatytułowany LiveBeauty, zawiera 10 000 różnych tożsamości, wszystkie sfotografowane z (nieokreślonych) platform transmisji na żywo w marcu 2024 roku.

Autorzy przedstawiają również FPEM, nową wielomodalną metodę FAP. FPEM integruje wiedzę o twarzy i wielomodalne cechy estetyczne za pomocą modułu Personalized Attractiveness Prior (PAPM), modułu Multi-modal Attractiveness Encoder (MAEM) i modułu Cross-Modal Fusion (CMFM).

Artykuł twierdzi, że FPEM osiąga najlepsze wyniki na nowym zestawie danych LiveBeauty i innych zestawach danych FAP. Autorzy zauważają, że badania mają potencjalne zastosowania w poprawie jakości wideo, rekomendacji treści i retuszowaniu twarzy w transmisjach na żywo.

Autorzy obiecują również udostępnić zestaw danych “wkrótce” – chociaż trzeba przyznać, że wszelkie ograniczenia licencyjne wynikające z domeny źródłowej mogą zostać przeniesione na większość projektów, które mogą wykorzystać tę pracę.

Nowy artykuł nosi tytuł Przewidywanie atrakcyjności twarzy w transmisjach na żywo: nowy benchmark i wielomodalna metoda i pochodzi od dziesięciu badaczy z grupy Alibaba i Uniwersytetu w Szanghaju.

Metoda i dane

Z każdej 10-godzinnej transmisji z platform transmisji na żywo, badacze wybrali jeden obraz na godzinę przez pierwsze trzy godziny. Transmisje z największą liczbą wyświetleń zostały wybrane.

Zebrane dane zostały następnie poddane kilku etapom przetwarzania. Pierwszym z nich jest pomiar rozmiaru twarzy, który wykorzystuje model wykrywania twarzy FaceBoxes z 2018 roku do generowania prostokąta ograniczającego twarz. Potok zapewnia, że krótsza strona prostokąta przekracza 90 pikseli, unikając małych lub niejasnych regionów twarzy.

Drugi krok to wykrywanie rozmycia, które jest stosowane do regionu twarzy za pomocą wariancji operatora Laplace’a w kanału wysokości (Y) twarzy. Wariancja ta musi być większa niż 10, co pomaga filtrować obrazy rozmyte.

Trzeci krok to estymacja pozy twarzy, który wykorzystuje model estymacji pozy 3DDFA-V2 z 2021 roku:

Przykłady z modelu estymacji pozy 3DDFA-V2. Source: https://arxiv.org/pdf/2009.09960

Przykłady z modelu estymacji pozy 3DDFA-V2. Source: https://arxiv.org/pdf/2009.09960

Tutaj potok zapewnia, że kąt nachylenia twarzy jest nie większy niż 20 stopni, a kąt yaw nie większy niż 15 stopni, co wyklucza twarze z ekstremalnymi pozą.

Czwarty krok to ocena proporcji twarzy, który również wykorzystuje możliwości segmentacji modelu 3DDFA-V2, zapewniając, że proporcja regionu twarzy jest większa niż 60% obrazu, wykluczając obrazy, na których twarz nie jest wyraźna. Innymi słowy, mała w całym obrazie.

Na koniec, piąty krok to usunięcie duplikatów, które wykorzystuje model rozpoznawania twarzy (nieprzypisany), w przypadku gdy ta sama tożsamość pojawia się w więcej niż jednym z trzech obrazów zebranych dla 10-godzinnego filmu.

Ocena i adnotacja ludzka

Dwadzieścia adnotatorów zostało zrekrutowanych, składających się z sześciu mężczyzn i 14 kobiet, odzwierciedlających demografię platformy transmisji na żywo*. Twarze były wyświetlane na ekranie 6,7-calowego iPhone’a 14 Pro Max, w warunkach laboratoryjnych.

Ocena była podzielona na 200 sesji, z których każda wykorzystywała 50 obrazów. Osoby były proszone o ocenę atrakcyjności twarzy na skali 1-5, z pięciominutową przerwą między każdą sesją, a wszystkie osoby uczestniczyły we wszystkich sesjach.

Dlatego całość 10 000 obrazów została oceniona przez dwadzieścia osób, co dało 200 000 adnotacji.

Analiza i przetwarzanie

Po pierwsze, przeprowadzono podgląd podmiotów za pomocą współczynnika odstępstwa i współczynnika korelacji rangowej Spearmana (SROCC). Osoby, których oceny miały współczynnik korelacji mniejszy niż 0,75 lub współczynnik odstępstwa większy niż 2%, uznano za niewiarygodne i usunięto, co dało 20 osób ostatecznie..

Następnie obliczono średnią ocenę (MOS) dla każdego obrazu twarzy, średnią ocen uzyskanych przez ważne osoby. MOS służy jako punkt odniesienia dla atrakcyjności każdego obrazu, a ocena jest obliczana przez średnią wszystkich indywidualnych ocen od każdej ważnej osoby.

Na koniec, analiza rozkładu MOS dla wszystkich próbek, a także dla próbek żeńskich i męskich, wykazała, że wykazują one kształt podobny do rozkładu normalnego, co jest zgodne z rozkładem atrakcyjności twarzy w świecie rzeczywistym:

Przykłady z rozkładu MOS LiveBeauty.

Przykłady z rozkładu MOS LiveBeauty.

Większość osób ma średnią atrakcyjność twarzy, z mniejszą liczbą osób na krańcach bardzo niskiej lub bardzo wysokiej atrakcyjności.

Dalej, analiza współczynników skośności i kurtozy wykazała, że rozkłady charakteryzują się cienkimi ogonami i są skoncentrowane wokół średniej oceny, i że wysoka atrakcyjność była bardziej powszechna wśród próbek kobiecych w zebranych filmach z transmisji na żywo.

Architektura

Zastosowano dwuetapową strategię szkolenia dla modelu Facial Prior Enhanced Multi-modal (FPEM) i fazy fuzji hybrydowej w LiveBeauty, podzielonej na cztery moduły: moduł Personalized Attractiveness Prior (PAPM), moduł Multi-modal Attractiveness Encoder (MAEM), moduł Cross-Modal Fusion (CMFM) i moduł Decision Fusion (DFM).

Schemat koncepcyjny potoku szkoleniowego LiveBeauty.

Schemat koncepcyjny potoku szkoleniowego LiveBeauty.

Moduł PAPM pobiera obraz jako dane wejściowe i wyodrębnia wieloskalowe cechy wizualne za pomocą przekształtnika Swin, a także wyodrębnia cechy twarzy za pomocą wstępnie wyszkolonego modelu FaceNet. Te cechy są następnie łączone za pomocą bloku uwagi krzyżowej, aby utworzyć spersonalizowaną cechę “atrakcyjności”.

Również w fazie wstępnego szkolenia, MAEM wykorzystuje obraz i tekstowe opisy atrakcyjności, wykorzystując CLIP do wyodrębnienia wielomodalnych cech estetycznych.

Tekstowe opisy są w postaci ‘zdjęcie osoby z {a} atrakcyjnością’ (gdzie {a} może być zła, słaba, przeciętna, dobra lub idealna). Proces szacuje podobieństwo kosinusowe między tekstowymi i wizualnymi wektorami, aby uzyskać prawdopodobieństwo atrakcyjności.

W fazie fuzji hybrydowej, CMFM udoskonala tekstowe wektory za pomocą spersonalizowanej cechy atrakcyjności wygenerowanej przez PAPM, generując w ten sposób spersonalizowane tekstowe wektory. Następnie wykorzystuje strategię regresji podobieństwa do dokonania przewidywania.

Na koniec, DFM łączy indywidualne przewidywania z PAPM, MAEM i CMFM, aby wyprodukować pojedynczą, ostateczną ocenę atrakcyjności, z celem osiągnięcia solidnego konsensusu.

Funkcje strat

Dla miar strat, PAPM jest szkolony za pomocą straty L1, która jest miarą bezwzględnej różnicy między przewidywaną oceną atrakcyjności a rzeczywistą (punkt odniesienia) oceną atrakcyjności.

Moduł MAEM wykorzystuje bardziej złożoną funkcję straty, która łączy stratę oceny (LS) z połączoną stratą rangi (LR). Strata rangi (LR) składa się z straty wierności (LR1) i straty rangi dwukierunkowej (LR2).

Strata LR1 porównuje względną atrakcyjność par obrazów, podczas gdy strata LR2 zapewnia, że przewidywana rozkład prawdopodobieństwa poziomów atrakcyjności ma jeden szczyt i maleje w obu kierunkach. Ten połączony podejście ma na celu zoptymalizowanie zarówno dokładnego oceniania, jak i poprawnego rangowania obrazów według atrakcyjności.

CMFM i DFM są szkolone za pomocą prostej straty L1.

Testy

W testach, badacze zestawili LiveBeauty z dziewięcioma poprzednimi podejściami: ComboNet; 2D-FAP; REX-INCEP; CNN-ER (zawarty w REX-INCEP); MEBeauty; AVA-MLSP; TANet; Dele-Trans; i EAT.

Metody bazowe zgodne z protokołem oceny estetyki obrazu (IAA) również zostały przetestowane. Były to ViT-B; ResNeXt-50; i Inception-V3.

Oprócz LiveBeauty, inne zestawy danych testowe to SCUT-FBP5000 i MEBeauty. Poniżej przedstawiono rozkłady MOS tych zestawów danych:

Rozkłady MOS zestawów danych testowych.

Rozkłady MOS zestawów danych testowych.

Poszczególne zestawy danych zostały podzielone na 60%-40% i 80%-20% do szkolenia i testowania, oddzielnie, w celu utrzymania zgodności z ich oryginalnymi protokołami. LiveBeauty został podzielony w proporcji 90%-10%.

Dla inicjacji modelu w MAEM, VT-B/16 i GPT-2 zostały użyte jako kodery obrazu i tekstu, zainicjowane ustawieniami z CLIP. Dla PAPM, Swin-T został użyty jako szkolalny kodery obrazu, zgodnie z SwinFace.

Optymalizator AdamW został użyty, a planowanie tempa uczenia zostało ustawione z harmonogramem z liniowym rozgrzewaniem pod schematem cosine annealing. Tempa uczenia się różniły się w poszczególnych fazach szkolenia, ale każda miała rozmiar partii 32, przez 50 epok.

Wyniki testów

Wyniki testów

Wyniki testów na trzech zestawach danych FAP są przedstawione powyżej. Spośród tych wyników, artykuł stwierdza:

‘Nasza proponowana metoda osiąga pierwsze miejsce i przewyższa drugie miejsce o około 0,012, 0,081, 0,021 w odniesieniu do wartości SROCC na LiveBeauty, MEBeauty i SCUT-FBP5500 odpowiednio, co demonstruje wyższość naszej proponowanej metody.

‘Metody IAA są gorsze od metod FAP, co wskazuje, że ogólne metody oceny estetyki pomijają cechy twarzy zaangażowane w subiektywną naturę atrakcyjności twarzy, prowadząc do słabej wydajności w zadaniach FAP.

‘Wydajność wszystkich metod spada znacznie w MEBeauty. Jest to spowodowane tym, że próbki szkoleniowe są ograniczone, a twarze są etnicznie różnorodne w MEBeauty, co wskazuje, że istnieje duża różnorodność w atrakcyjności twarzy.

‘Wszystkie te czynniki sprawiają, że przewidywanie atrakcyjności twarzy w MEBeauty jest bardziej wyzwaniem.’

Uwagi etyczne

Badania nad atrakcyjnością są potencjalnie kontrowersyjnym przedsięwzięciem, ponieważ przy ustalaniu rzekomo empirycznych standardów piękna, takie systemy będą tendencję do wzmocnienia i utrwalania uprzedzeń wokół wieku, rasy i wielu innych sekcji badań związanych z ludźmi.

Można argumentować, że system FAP jest wewnętrznie skłonny do wzmocnienia i utrwalenia częściowych i tendencyjnych perspektyw na atrakcyjność. Te osądy mogą wynikać z ocen ludzkich – często prowadzonych w skalach zbyt małych dla skutecznej generalizacji domenowej – lub z analizy wzorców uwagi w środowiskach online, takich jak platformy transmisji na żywo, które są zdecydowanie niezasługujące na miano meritokratyczne.

 

* Artykuł odnosi się do nienazwanej domeny źródłowej w liczbie pojedynczej i mnogiej.

Po raz pierwszy opublikowany w środę, 8 stycznia 2025

Pisarz na temat uczenia maszynowego, specjalista ds. syntezowania obrazów ludzi. Były kierownik treści badawczych w Metaphysic.ai.