Kąt Andersona
Pościg AI za pięknem

Nowy system oceny piękna napędzany przez sztuczną inteligencję ocenia, jak atrakcyjne wyglądają twarze, a także trenuje szybciej niż typowe głębokie modele uczenia, co potencjalnie sprawia, że duże, zautomatyzowane ocenianie piękna staje się bardziej praktyczne.
Przewidywanie piękna twarzy (FBP) to duży interes, a dość silna nić w literaturze naukowej. Chociaż łamie niemal każdy nakaz przeciwko walkę z uprzedzeniami w praktykach sztucznej inteligencji i uczenia maszynowego, a także wspiera obiektalizację i redukcjonizm w postrzeganiu kobiet przez algorytmy, nadal przyciąga zainteresowanie kilku branż o wartości setek miliardów dolarów, z których większość jest skierowana bezpośrednio do kobiet, takich jak kosmetyki, chirurgia twarzy, transmisje na żywo i moda, wśród innych:

Kobiety oceniane od 1 do 5, z pracy ‘Asian Female Facial Beauty Prediction Using Deep Neural Networks via Transfer Learning and Multi-Channel Feature Fusion’. Źródło
Poza tymi oczywistymi enklawami biznesu skierowanymi do kobiet, reklama i wiele innych branż, w tym rozrywka i wydawnictwa, mają znaczne udziały w zrozumieniu, co zarówno mężczyźni, jak i kobiety uważają za ‘atrakcyjne’, koniecznie w podstawie kulturowej.
Fakt, że zbiorowe postrzeganie piękna różni się w różnych regionach, oznacza, że nie można uzyskać ostatecznych, globalnie stosowalnych zbiorów danych, a nowe badania muszą albo pozostać prowincjonalne, albo else skoncentrować się na ‘wysokopoziomowych’ metodach, które mogą być stosowane w różnych danych kulturowych.

Interfejs systemu oceny piękna twarzy dla projektu SCUT-FBP z 2015 roku. Źródło
Często, położenie geograficzne nie jest jedynym ograniczeniem, ponieważ zbiory danych skupione na atrakcyjności mogą mieć trudności z zapewnieniem równego skuteczności w różnych płciach, lub mogły być opracowane z myślą o konkretnym zastosowaniu – i to może ograniczyć zastosowanie zbioru w innych dziedzinach.
Na przykład, w 2025 roku raportowałem o opracowaniu dość dużej (100 000+ tożsamości) bazy danych do oceny atrakcyjności w transmisjach na żywo, której standardy mogą wymagać znacznej adaptacji do szerszych projektów, pomimo ogromnych wysiłków zaangażowanych w tę inicjatywę.
Wygląd twarzy
Jak mogło być widoczne z linków i obrazów powyżej, azjatyckie instytucje badawcze często nie działają pod tymi samymi ograniczeniami kulturowymi, co ich zachodni odpowiednicy, którzy mieliby trudności z odważeniem się opublikować naukową ilustrację oceniającą pięć zachodnich kobiet od najmniej do najbardziej atrakcyjnych, jak to widać w powyższej ilustracji pracy.
Można argumentować, że tam, gdzie azjatyckie systemy tego rodzaju są udowodnione skuteczne w środowisku publicznym, bez strachu przed lokalną cenzurą, zachodnie interesy mogą wykorzystać lub dostosować takie badania do własnych, prywatnych wdrożeń. Zadanie ‘oceniania kobiet’ w tym scenariuszu jest przekazywane do miejsca, gdzie może być prowadzone bez krytyki.
Czy to jest powszechne, czy mniej znane zachodnie systemy równoważne tendencji do rozwoju poza otwartą współpracą i publiczną kontrolą, można założyć, że cel docelowy jest zainteresowany na skalę globalną, ze względu na dużą liczbę profesjonalnych sektorów, które mogą lub mogłyby skorzystać z dokładnych ocen atrakcyjności.
Przetrwanie najbardziej zdolnych
Może się wydawać, że ogromne, pobieralne z sieci zbiory danych, takie jak Tik Tok, Instagram i YouTube, okazałyby się doskonałymi arbitrami piękna, korelując obserwujących, polubienia i ruch z atrakcyjnością, ponieważ jest to powszechne i uzasadnione skojarzenie (chociaż z niektórymi wyjątkami).
Podobnie, istniejące zbiory – takie jak ImageNet i LAION – zawierające aktorów i modeli, którzy ‘wzniosły się na szczyt’ – zwykle zawierają atrakcyjne osoby (chociaż często z zbyt wieloma punktami danych zbyt małej liczby ludzi), pozwalając szerszym mechanizmom kulturowym działać jako proxy dla atrakcyjności.
Jednakże, to nie uwzględnia zmieniających się gustów w tym, co ludzie uważają za atrakcyjne w czasie (nie mówiąc już o geograficznie). Dlatego, ponownie, potrzebne są wysokopoziomowe i niezależne od danych systemy, a nie indywidualne i wątpliwe zbiory lub opracowania, które nie będą odzwierciedlać zmieniających się gustów.
Połączenie skóry
Najnowszy akademicki wkład w rozwiązanie tych wyzwań pochodzi z Chin, gdzie przenoszenie uczenia i System Szerokiego Uczenia (BLS) są połączone, aby rozwiązać długotrwały kompromis między dokładnością a kosztem obliczeniowym.
Konwencjonalne sieci neuronowe osiągają silne wyniki tylko z ciężkim treningiem, podczas gdy lżejsze systemy, takie jak BLS, trenują szybko, ale mają trudności z uchwyceniem wystarczających detali. Nowa praca mostkuje tę lukę, wykorzystując wstępnie wytrenowany model wizualny do wyodrębnienia cech twarzy, które są następnie przekazywane do szybkiego systemu opartego na BLS do oceny, pozwalając na ponowne wykorzystanie cech zamiast ich ponownego uczenia, przy jednoczesnym utrzymaniu wydajności treningu:

Przykładowe obrazy z zestawu danych LSAFBD, pokazujące twarze kobiet pogrupowane według ocen piękna przydzielonych przez ludzi z 1 do 5. Źródło
Pierwsza z dwóch wariantów, E-BLS, karmi wyodrębnione cechy bezpośrednio do lekkiego systemu, podczas gdy druga, ER-BLS, dodaje prosty pośredni krok, który standaryzuje i rafinuje te cechy przed oceną, pomagając poprawić spójność bez spowalniania procesu.
Testy przeprowadzone przez autorów dowodzą, jak twierdzą, że ich podejście jest lepsze niż każda z tych metod osobno i od innych konkurujących metod.
Nowy artykuł nosi tytuł Przewidywanie piękna twarzy łącząc przenoszenie uczenia i system szerokiego uczenia, i pochodzi od sześciu badaczy z Uniwersytetu Wuyi, Jiangmen.
Metoda
Wspomniany System Szerokiego Uczenia jest lekką alternatywą dla głębokich sieci neuronowych, który omija stosowanie wielu warstw, i zamiast tego rozprzestrzenia uczenie się na szeroki zestaw prostszych połączeń, pozwalając modelom trenować szybko – ale zwykle kosztem pominięcia drobnych wizualnych detali.
Pierwsza z dwóch wariantów, E-BLS, łączy EficientNet oparte na przenoszeniu uczenia z BLS, wyodrębniając szczegółowe wizualne cechy z twarzy, a następnie przekazując je do BLS, co skutkuje ostateczną predykcją, która unika potrzeby treningu pełnej głębokiej sieci neuronowej od podstawu:

Schemat architektury modelu E-BLS.
EficientNet, wstępnie wytrenowany na ImageNet-1k, i w dużej mierze pozostawiony niezmieniony, konwertuje każde wejściowe zdjęcie na kompaktowy zestaw wartości cech, które opisują twarz w uporządkowany sposób, podczas gdy BLS bierze te wartości i przetwarza je przez sieć prostych, losowo połączonych węzłów, które transformują i łączą informacje, zanim wyprodukują ostateczną ocenę atrakcyjności.
Ponieważ BLS nie polega na warstwach złożonych, E-BLS może być aktualizowany przez dodanie więcej węzłów zamiast ponownego treningu całego systemu. To utrzymuje trening szybko i ułatwia poprawę modelu, gdy wprowadzane są nowe dane.
Druga z dwóch wariantów, ER-BLS, buduje na E-BLS, wstawiając dodatkowy etap przetwarzania między ekstraktorem cech EfficientNet a BLS, z celem poprawy, jak te wyodrębnione cechy są przygotowane przed oceną:

Architektura modelu ER-BLS.
Zamiast przekazywać surowe cechy EfficientNet bezpośrednio do BLS, ER-BLS najpierw przekazuje je przez warstwę rafinacji, która standaryzuje i przekształca dane, pomagając zmniejszyć szum i uczynić cechy bardziej spójnymi w różnych obrazach. Ten krok jest zaprojektowany, aby poprawić, jak dobrze system uogólnia, szczególnie gdy twarze różnią się oświetleniem, położeniem lub innymi warunkami wizualnymi, które mogą wprowadzić niestabilność do predykcji.
Rafinowane cechy są następnie karmione do tej samej struktury BLS używanej w E-BLS, gdzie węzły cech i węzły wzmocnienia transformują i łączą informacje, aby wyprodukować ostateczną ocenę atrakcyjności.
Dane i testy
Aby przetestować swoje podejście, autorzy wykorzystali zestaw danych SCUT-FBP5500, kolekcję przewidywania piękna twarzy z Południowego Uniwersytetu Chin, zawierającą 5 500 frontalnych obrazów twarzy o rozdzielczości 350×350 px, z różnorodnymi rasami, płciami i wiekami:

Przykładowe obrazy twarzy z zestawu danych SCUT-FBP5500, oceniane od najmniej (1) do najbardziej (5) atrakcyjnych.
Każde zdjęcie zostało ocenione z oceną piękna przez 60 wolontariuszy, w skali od 1 do 5, od bardzo nieatrakcyjnego (1) do bardzo atrakcyjnego (5):

Podział proporcji obrazów według oceny piękna.
Inny zestaw danych użyty był Duży Zestaw Azjatyckich Kobiecych Danych Piękna (LSAFBD) kolekcja, zestaw danych opracowany przez samych autorów.

Przykładowe obrazy twarzy z zestawu danych LSAFBD, oceniane od najmniej (1) do najbardziej (5) atrakcyjnych.
Kolekcja składa się z 80 000 nieoznaczonych obrazów o rozdzielczości 144×144 px, z różnicami w położeniu i tle, a także wieku. Te zostały ocenione przez 75 wolontariuszy według tych samych kryteriów, co poprzedni zestaw danych, tym razem w skali od 0 do 4:

Podział dla zestawu danych LSAFBD.
Każdy zestaw danych został podzielony na segmenty treningowe i testowe w stosunku 8/20, a walidacja krzyżowa została użyta, aby ustabilizować wyniki w różnych przebiegach. Składnik BLS został skonfigurowany przez liczbę okien cech; liczbę węzłów na okno; i liczbę węzłów wzmocnienia, z Hyperopt używanym do wyszukiwania skutecznych kombinacji.
Aby ustalić bazę, standardowy model BLS został wytrenowany w tych samych ustawieniach, po czym seria modeli przenoszenia uczenia została wprowadzona, w tym ResNet50, Inception-V3, DenseNet121, InceptionResNetV2, EfficientNetB7, MobileNetV2, NASNet i Xception – wszystkie zainicjowane z wagami ImageNet-1k i wytrenowane z ich końcowymi warstwami odmrożonymi.
Trening używał stopy uczenia 0,001 (zmniejszanej, gdy postęp zwalniał), i rozmiaru partii 16, w 50 epokach, z regularizacją i prostą liniową aktywacją (ReLU) stosowaną w całym procesie.
Wyniki zostały ocenione przy użyciu dokładności i korelacji Pearsona, obok całkowitego czasu treningu, z wynikami uśrednionymi w pięciu przebiegach.
Autorzy zgłaszają ustawienie treningu jako procesor Intel-i7 3,6 GHz i 64 GB RAM na ‘komputerze stacjonarnym’:

Porównanie wyników na SCUT-FBP5500, gdzie E-BLS i ER-BLS osiągają konkurencyjną dokładność w porównaniu z głębokimi modelami CNN, w tym ResNet50, EfficientNetB7, InceptionV3 i Xception, przy znacznie krótszym czasie treningu – co podkreśla wydajność połączenia przenoszenia uczenia z Systemem Szerokiego Uczenia.
Wyniki wskazały, że E-BLS poprawił dokładność z 65,85% do 73,13%, podczas gdy ER-BLS osiągnął 74,69%, przewyższając wszystkie porównywane modele. Czas treningu pozostał znacznie niższy niż głębokie sieci CNN, przy około 1 300 sekundach, w porównaniu z kilkoma tysiącami do ponad 25 000 sekund.
Dla testów na LSAFBD wyniki pokazały, że E-BLS poprawił dokładność w porównaniu z zwykłym BLS, podczas gdy ER-BLS osiągnął najwyższą dokładność wśród wszystkich porównywanych metod:

Wyniki na LSAFBD, gdzie ER-BLS i E-BLS dostarczają wyższą dokładność niż wszystkie modele bazowe i przenoszenia uczenia, przy jednoczesnym wymaganiu tylko ułamka ich czasu treningu, co wskazuje na spójną przewagę w wydajności bez poświęcania jakości predykcyjnej.
Oba warianty utrzymywały znacznie niższy czas treningu niż głębokie sieci CNN, co wskazuje na bardziej wydajne równowagę między wydajnością a kosztem obliczeniowym.
Wnioski
To jest trochę ‘retro’ publikacja, jak świadczy o tym użycie przedboomowych ulubieńców, takich jak sieci CNN, oraz użycie najniższego poziomu sprzętu treningowego, jaki spotkałem w nowym artykule od wielu lat.
Jednakże, dotyka on dość opornego celu w widzeniu komputerowym; jednego, który dotyka głęboko ludzkiego doświadczenia i subiektywnej interpretacji, i który wymaga schematu, który przekracza estetyczne trendy chwili, i może dostarczyć naprawdę wytrzymałą rurę dla zadania.
Po raz pierwszy opublikowane w czwartek, 19 marca 2026












