Kąt Andersona
Narzędzie AI usuwa makijaż, aby powstrzymać nieletnich przed omijaniem kontroli wieku

Wygląd kosmetyków do makijażu pozwala nieletnim użytkownikom, głównie dziewczętom, na omijanie kontroli wieku opartych na selfie na platformach takich jak aplikacje randkowe i strony handlu elektronicznego. Nowe narzędzie AI rozwiązuje tę lukę, używając dyskryminatywnego modelu szkoleniowego, który usuwa makijaż, zachowując tożsamość, co utrudnia nieletnim oszukiwanie systemów zautomatyzowanych.
Użycie usług weryfikacji wieku opartych na selfie przez strony trzecie jest coraz bardziej popularne, nie tylko ze względu na ogólny globalny impetus w kierunku weryfikacji wieku online.
Na przykład w nowym reżimie egzekwowania, który teraz nakazuje brytyjska ustawa o bezpieczeństwie online, weryfikację wieku można przeprowadzić za pomocą różnych usług stron trzecich, używając różnych możliwych metod, w tym weryfikacji wieku opartej na wyglądzie, gdzie AI jest używana do przewidywania wieku użytkownika (zwykle z live mobilnego filmu). Usługi, które używają podejść tego rodzaju, obejmują Ondato, TrustStamp i Yoti.
Jednak szacowanie wieku nie jest niezawodne, a tradycyjna determinacja nastolatków do przewidywania praw dorosłości oznacza, że młodzi ludzie opracowali szereg skutecznych metod, aby wejść na strony randkowe, fora i inne środowiska, które zabraniają ich grupy wiekowej.
Jedną z tych metod, najczęściej używaną przez kobiety*, jest noszenie makijażu – taktyka znana z oszukiwania systemów zautomatyzowanego szacowania wieku, które generalnie przeszacowują wiek młodych ludzi i zaniżają wiek starszych ludzi.
Nie tylko dziewczęta
Przed protestem, który może powstać w związku z traktowaniem makijażu jako “zorientowanego na kobiety”, musimy zauważyć, że obecność kosmetyków na każdej twarzy jest bardzo niepewnym wskaźnikiem płci:

W artykule ‘Impact of Facial Cosmetics on Automatic Gender and Age Estimation Algorithms’ amerykańscy badacze odkryli, że systemy weryfikacji płci były oszukane przez makijaż zmieniający płeć. Źródło: https://cse.msu.edu/~rossarun/pubs/ChenCosmeticsGenderAge_VISAPP2014.pdf
W 2024 roku 72% amerykańskich konsumentów mężczyzn w wieku 18-24 lat szacowano, że włączają makijaż do swojej rutyny pielęgnacji, chociaż większość używa produktów kosmetycznych, aby poprawić wygląd zdrowej skóry, a nie do makijażu bardziej związanych z estetyką kobiet.
Więc nie możemy pomóc, ale traktować materiał badany w tym artykule wzdłuż linii najczęściej badanego scenariusza – tego, w którym dziewczęta używają makijażu, aby oszukać zautomatyzowane systemy weryfikacji wieku oparte na wyglądzie.
Skuteczne usuwanie makijażu – sposób AI
Badania wymienione powyżej pochodzą od trzech współautorów z Uniwersytetu Nowojorskiego, w postaci nowego artykułu DiffClean: Diffusion-based Makeup Removal for Accurate Age Estimation.
Celem projektu jest osiągnięcie metody napędzanej przez AI do usuwania wyglądu makijażu z obrazów (potencjalnie w tym filmów), aby uzyskać lepsze pojęcie o prawdziwym wieku osoby za makijażem.

Z nowego artykułu, przykład tego, jak usuwanie makijażu może znacząco zmienić przewidywanie wieku. Źródło: https://arxiv.org/pdf/2507.13292
Jednym z wyzwań rozwoju takiego systemu jest potencjalna wrażliwość wokół gromadzenia lub opracowywania obrazów nieletnich dziewcząt noszących makijaż dla dorosłych. Ostatecznie badacze użyli systemu opartego na sieciach generatywnych i przeciwnych (GAN) o nazwie EleGANt, aby sztucznie nałożyć style makijażu, co okazało się bardzo skuteczne:

System EleGANt z 2022 roku Tsinghua University używa sieci generatywnej i przeciwnej do nałożenia kosmetyków na zdjęcia źródłowe. Źródło: https://arxiv.org/pdf/2207.09840
Z pomocą danych syntetycznych uzyskanych w ten sposób, a także z pomocą różnych projektów i zbiorów danych, autorzy byli w stanie przewyższyć metody stanu sztuki w szacowaniu wieku, gdy spotykają się z makijażem wykonanym lub “widocznym”.
Metoda
Aby uniknąć pozyskiwania prawdziwych obrazów nieletnich w makijażu, autorzy użyli EleGANt, aby nałożyć syntetyczny makijaż na obrazy pochodzące z UTKFace dataset, produkując pary przed i po szkoleniu.

Przykłady z UTKFace dataset. Źródło: https://susanqq.github.io/UTKFace/
DiffClean został następnie przeszkolony, aby odwrócić tę transformację. Ponieważ algorytmy szacowania wieku popełniają najwięcej błędów przy radzeniu sobie z młodszymi grupami wiekowymi, badacze stwierdzili, że konieczne jest opracowanie klasyfikatora wieku proxy dopracowanego na docelowych wiekach (10-19 lat). W tym celu użyli SSRNet architektury przeszkolonej na UTKFace, z L1 loss ważonym.
Uproszczona wersja modelu dyfuzji z 2021 roku OpenAI zapewniła podstawę dla transformacji, z autorami, którzy zachowali rdzeń architektury, ale zmodyfikowali ją z dodatkowymi głowicami uwagi na różnych rozdzielczościach, głębszymi warstwami i blokami BigGAN, aby poprawić etapy upsamplingu i downsamplingu.
Kontrola kierunkowa została wprowadzona za pomocą CLIP promptów: konkretnie, twarz z makijażem i twarz bez makijażu, aby model nauczył się poruszać w pożądanym kierunku semantycznym, pozwalając usunąć makijaż bez kompromitowania szczegółów twarzy, wskazówek wieku lub tożsamości.

Sztuczny makijaż nałożony za pomocą EleGANt. Każda trójka pokazuje oryginalne zdjęcie UTKFace (po lewej), styl makijażu referencyjny (w środku) i wynik po przeniesieniu stylu (po prawej). Przeniesienie makijażu tego rodzaju jest powszechne w literaturze komputerowej, a ta funkcja jest również dostępna w filtrach neuralowych Adobe Photoshop, które mogą podobnie nałożyć makijaż z obrazu referencyjnego na obraz docelowy.
Cztery kluczowe funkcje strat kierowały usuwaniem makijażu bez wpływu na tożsamość twarzy lub wskazówki wieku. Poza wspomnianą powyżej stratą CLIP, tożsamość została zachowana za pomocą ważonej pary ArcFace strat pobranych z InsightFace biblioteki – strat, które mierzyły podobieństwo między wygenerowaną twarzą a oryginalnym czystym obrazem i “pomalowanym” wersją, zapewniając, że podmiot pozostał wizualnie spójny przed i po usunięciu makijażu.
Trzecia, stratą percepcyjną Learned Perceptual Similarity Metrics (LPIPS) użyła odległości L1, aby wymusić realizm na poziomie pikseli i zachować ogólny wygląd oryginalnego obrazu po usunięciu makijażu.
Wreszcie, wiek był nadzorowany za pomocą dopracowanego SSRNet przeszkolonego na UTKFace dataset, z modelem używającym straty L1 wygładzonej (z cięższymi karami za błędy w zakresie wieku 10–29, gdzie najczęstsze są błędy klasyfikacji). Wariant modelu zastąpił to stratą CLIP z podpowiedzią wieku, nakazując modelowi dopasowanie wyglądu do określonego wieku.
Do szacowania wieku w czasie inferencji (w przeciwieństwie do użycia SSRNet w czasie szkolenia) użyto ramy MiVOLO z 2023 roku.
Dane i testy
Dopracowany SSRNet z UTKFace zastosował zestaw szkoleniowy 15 364 obrazów, wobec zestawu testowego 6 701 obrazów. Oryginalne 20 000 obrazów zostało przefiltrowane, aby usunąć wszystkich powyżej 70 lat, a następnie podzielone 70:30.
Zgodnie z poprzednią metodą ustaloną przez projekt DiffAM z 2023 roku, szkolenie następnie przeszło dwuetapowo, z pierwszym sesją używając 300 obrazów makijażu z prawdziwego świata (tym razem 200/100 podziału między szkolenie a walidację) z MT dataset BeautyGAN.
Model został następnie udoskonalony dalej, używając 300 dodatkowych obrazów UTKFace, uzupełnionych syntetycznym makijażem za pomocą EleGANt. To stworzyło ostateczny zestaw szkoleniowy 600 przykładów, sparowanych w pięciu stylach referencyjnych z BeautyGAN. Ponieważ usuwanie makijażu obejmuje mapowanie wielu stylów makijażu na jedną czystą twarz, szkolenie koncentrowało się na szerokiej generalizacji zamiast pokrycia każdej możliwej odmiany kosmetycznej.
Wydajność została oceniona na obrazach syntetycznych i rzeczywistych. Testy syntetyczne używały 2 556 Flickr-Faces-HQ Dataset (FFHQ) obrazów, równomiernie wybranych w dziewięciu grupach wiekowych poniżej 70, i zmodyfikowanych za pomocą EleGANt.
Generalizacja została oceniona za pomocą 3 000 obrazów z BeautyFace i 355 z LADN, które zawierają autentyczny makijaż.

Przykłady z BeautyFace dataset, ilustrujące segmentację semantyczną, która definiuje różne obszary dotkniętej powierzchni twarzy. Źródło: https://li-chongyi.github.io/BeautyREC_files/
Metryki i implementacja
Do metryk autorzy użyli średniego błędu bezwzględnego (MAE) między wartościami wieku rzeczywistymi (obrazy rzeczywiste z ustalonymi faktami wieku) a przewidywanymi wartościami wieku, gdzie niższe wyniki są lepsze; dokładność grupy wiekowej została użyta do oceny, czy przewidywane wieki znalazły się w odpowiednich grupach (w tym przypadku niższe wyniki są lepsze); dokładność mniejszości/pełnoletności została użyta do oceny poprawnej identyfikacji osób pełnoletnich (w tym przypadku wyższy wynik jest lepszy).
Dodatkowo, chociaż nie dotyczy to konkretnie omawianego tematu, autorzy również zgłaszają metryki weryfikacji tożsamości w postaci True Match Rate (TMR) i False Match Rate (FMR), z dalszym raportem powiązanych wartości ROC.
SSRNet został dopracowany na 64×64px obrazach, używając rozmiaru partii 50 pod optymalizatorem Adam z wymiarem wygaszania 1e−4, a także harmonogramem cosine annealing i szybkością uczenia 1e−3 w ciągu 200 epok, z wczesnym zatrzymaniem.
Przeciwnie, moduł DiffClean otrzymał 256×256px obrazy wejściowe i został dopracowany przez pięć epok, używając Adam, przy bardziej szorstkiej szybkości uczenia 4e−3. Próbkowanie używało 40 kroków odwrotnych DDIM, i 6 kroków do przodu DDIM. Wszystkie szkolenia były wykonywane na jednej karcie graficznej NVIDIA A100 (nieokreślono, czy z 40GB czy 80GB pamięci VRAM).
Systemy rywalizujące były CLIP2Protect i wcześniej wymieniony DiffAM. Autorzy użyli “matowego” stylu makijażu w przepływie pracy, ponieważ zostało to zauważone w CLIP2Protect jako osiąganie wyższego współczynnika powodzenia (co prawdopodobnie pozwala na drogę do pokonania tego podejścia – ale to kwestia na inny raz).
Aby odtworzyć DiffAM jako bazę, użyto wstępnie wytrenowanego modelu z BeautyGAN, który został dopracowany na MT dataset. Dla przeniesienia makijażu przeciwnika użyto punktu kontrolnego z DiffAM, używając domyślnych parametrów dla modelu docelowego, obrazu referencyjnego i tożsamości.

Wydajność DiffClean w porównaniu z bazami w zadaniach szacowania wieku, używając MiVOLO. Metryki raportowane to dokładność klasyfikacji mniejszości/pełnoletności, dokładność grupy wiekowej i średni błąd bezwzględny (MAE). DiffClean z stratą wieku CLIP osiąga najlepsze wyniki we wszystkich metrykach.
Z tych wyników autorzy stwierdzają:
‘Nasza metoda DIFFCLEAN przewyższa obie bazy, CLIP2Protect i DiffAM, i może pomyślnie przywrócić wskazówki wieku zakłócone przez makijaż, zmniejszając MAE (do 5,71) i poprawiając ogólną dokładność przewidywania grupy wiekowej (do 37%).
‘Nasza ostateczność koncentrowała się na grupach wiekowych mniejszości, a wyniki wskazują, że osiągamy lepszą klasyfikację wieku mniejszości/pełnoletności w 88,6%.’

Wyniki usuwania makijażu z bazowych i proponowanych metod. Lewa kolumna pokazuje obrazy źródłowe, następna obrazy z CLIP2Protect i DiffAM. Trzecia kolumna pokazuje wyniki z DiffClean za pomocą SSRNet i straty wieku CLIP. Autorzy twierdzą, że DiffClean usuwa makijaż bardziej skutecznie, unikając dystorsji cech, jak widać w CLIP2Protect, i pozostałych kosmetyków, które DiffAM pominął.
Autorzy zauważają ponadto, że makijaż nie ma jednolitego wpływu na postrzegany wiek, ale może zwiększyć, zmniejszyć lub pozostawić niezmienionym wygląd twarzy. Dlatego DiffClean nie stosuje “powszechnego zmniejszenia” przewidywanego wieku, ale raczej próbuje odzyskać oryginalne wskazówki wieku, usuwając ślady kosmetyków:

Przykłady usuwania makijażu z CelebA-HQ i CACD dataset. Każda kolumna pokazuje parę obrazów przed (po lewej) i po (po prawej) usunięciu makijażu. W pierwszej kolumnie przewidywany wiek maleje po usunięciu makijażu; w drugiej pozostaje niezmieniony; a w trzeciej wzrasta.
Aby przetestować, jak dobrze DiffClean działa na nowych danych, został uruchomiony na BeautyFace i LADN dataset, które zawierają autentyczny makijaż, ale nie mają par obrazów tych samych osób bez kosmetyków. Przewidywania wieku dokonane przed i po usunięciu makijażu zostały porównane, aby ocenić, jak skutecznie DiffClean zmniejsza dystorsję wprowadzoną przez makijaż:

Wyniki usuwania makijażu na rzeczywistych obrazach z LADN (po lewej) i BeautyFace (po prawej) dataset. DiffClean zmniejsza przewidywane wieki, usuwając kosmetyki, zmniejszając lukę między wyglądem a rzeczywistym wiekiem. Białe liczby pokazują szacowane wieki przed i po przetworzeniu.
Wyniki pokazały, że DiffClean konsekwentnie zmniejszał lukę między wyglądem a rzeczywistym wiekiem. Na obu zbiorach danych zmniejszył on błąd przeszacowania i niedoszacowania o około trzy lata średnio, co sugeruje, że system generalizuje się dobrze do rzeczywistych stylów kosmetycznych.
Podsumowanie
Jest to interesujące, a może nieuniknione, że wykonany makijaż będzie używany w sposób przeciwny. Biorąc pod uwagę, że dziewczęta dojrzewają w różnym tempie, ale konsekwentnie dojrzewają szybciej jako grupa, zadanie identyfikacji progu między statusami mniejszości i dorosłości może być jednym z najbardziej ambitnych, jakie środowisko badawcze jeszcze sobie postawiło.
Niemniej, czas i dane mogą ostatecznie określić spójne znaki związane z wiekiem, które mogą być użyte do kotwiczenia systemów weryfikacji wieku opartych na wyglądzie.
* Ponieważ ten temat zaprasza do używania obciążonego języka, a ‘dziewczęta’ jest wykluczające (podczas gdy ‘kobiety i dziewczęta’, obecnie akceptowany termin dla osób płci żeńskiej, nie jest dokładnym opisem w tym przypadku), użyłem ‘kobiet’ jako najlepszy kompromis, jaki mogłem wymyślić – chociaż nie ujmuje on wszystkich subtelności demograficznych, za co przepraszam.
† W tym artykule używam ‘wykonanego’, aby wskazać makijaż, który jest widoczny i rozpoznawalny jako makijaż, taki jak mascara, eyeliner, róże i podkład, w przeciwieństwie do kryjących kremów i innych ‘ukrytych’ rodzajów aplikacji kosmetycznych.
Po raz pierwszy opublikowane w piątek, 18 lipca 2025












