Kąt Andersona
Narzędzie oparte na sztucznej inteligencji usuwa makijaż, aby uniemożliwić nieletnim ominięcie kontroli wieku

Pojawienie się kosmetyków do twarzy pozwala nieletnim użytkownikom, głównie dziewczynom, uniknąć weryfikacji wieku na podstawie selfie na platformach takich jak aplikacje randkowe i sklepy internetowe. Nowe narzędzie AI rozwiązuje tę lukę, wykorzystując dyskryminacyjny model wytrenowany do usuwania makijażu z zachowaniem tożsamości, co utrudnia nieletnim oszukanie zautomatyzowanych systemów.
Coraz częściej korzysta się z usług weryfikacji wieku stron trzecich, opartych na selfie, nie w ostatniej kolejności ze względu na ogólny globalny impuls w kierunku weryfikacji wieku online.
Na przykład w nowym systemie egzekwowania prawa, jakim jest brytyjska ustawa o bezpieczeństwie w Internecie, mandatyweryfikację wieku można przeprowadzić za pomocą różnych podmiotów zewnętrznych Branże, wykorzystując różne możliwe metody, w tym wizualna weryfikacja wieku, gdzie sztuczna inteligencja służy do wizualnego przewidywania wieku użytkownika (zazwyczaj na podstawie nagrań z kamer mobilnych na żywo). Usługi wykorzystujące tego typu podejścia obejmują ondato, Pieczęć zaufania, Yoti.
Jednakże ocena wieku nie jest nieomylna, a tradycyjna determinacja nastolatków do przewidywania praw dorosłości sprawia, że młodzi ludzie wykształcili różnorodność skutecznych metod do korzystania z serwisów randkowych, forów i innych miejsc, które są niedostępne dla osób w ich wieku.
Jedną z takich metod, najczęściej stosowaną przez kobiety*, jest noszenie makijażu twarzy – taktyka znany z tego, że oszukuje zautomatyzowane systemy szacowania wieku, które zazwyczaj przeceniają wiek młodych ludzi i niedoceniać wieku osób starszych.
Nie tylko dziewczyny
Zanim pojawi się protest przeciwko uznaniu makijażu za „skoncentrowany na kobietach”, musimy zauważyć, że obecność kosmetyków do twarzy na ktoś jest bardzo niepewny wskaźnik płci:

W artykule „Wpływ kosmetyków do twarzy na algorytmy automatycznego szacowania płci i wieku” amerykańscy naukowcy odkryli, że systemy weryfikacji płci były oszukiwane przez makijaż zmieniający płeć. Źródło: https://cse.msu.edu/~rossarun/pubs/ChenCosmeticsGenderAge_VISAPP2014.pdf
W 2024 roku 72% amerykańskich konsumentów płci męskiej w wieku 18–24 lat stanowili szacunkowa włączyć makijaż do swojej codziennej pielęgnacji – choć większość używa produktów kosmetycznych, aby poprawić wygląd zdrowej skóry, zamiast oddawać się temu rodzajowi performatywnego† kombinacje tuszu do rzęs i szminki bardziej powiązane z kobiecą estetyką wizualną.
Dlatego nie możemy powstrzymać się od potraktowania materiału badanego w tym artykule w kontekście najczęstszego scenariusza badanego w nowych badaniach – sytuacji, w której nieletnie dziewczynki używają makijażu, aby obejść automatyczne systemy wizualnej weryfikacji wieku.
Skuteczny demakijaż – sposób na sztuczną inteligencję
Wspomniane powyżej badania pochodzą od trzech autorów z Uniwersytetu Nowojorskiego, w formie nowy papier DiffClean: Dyfuzyjny demakijaż do dokładnego określania wieku.
Celem projektu jest opracowanie metody opartej na sztucznej inteligencji, która umożliwi usuwanie makijażu z obrazów (potencjalnie również z obrazów wideo), aby uzyskać lepszy obraz rzeczywistego wieku osoby noszącej makijaż.

W nowym artykule przedstawiono przykład, w jaki sposób demakijaż może znacząco zmienić prognozę wieku. Źródło: https://arxiv.org/pdf/2507.13292
Jednym z wyzwań związanych z opracowaniem takiego systemu jest potencjalna wrażliwość związana z gromadzeniem lub selekcją zdjęć nieletnich dziewcząt w makijażu dla dorosłych. Ostatecznie naukowcy wykorzystali zewnętrzny system oparty na sieci generatywnej adwersarza o nazwie Elegancki aby sztucznie narzucić style makijażu, technika, która okazała się bardzo skuteczna:

System EleGANt z 2022 roku na Uniwersytecie Tsinghua wykorzystuje generatywną sieć przeciwstawną (GAN) do nakładania kosmetyków w sposób autentyczny na zdjęcia źródłowe. Źródło: https://arxiv.org/pdf/2207.09840
Dzięki uzyskanym w ten sposób danym syntetycznym oraz pomocy różnorodnych projektów pomocniczych i zestawów danych autorzy byli w stanie przewyższyć najnowocześniejsze metody szacowania wieku w konfrontacji z makijażem performatywnym lub „oczywistym”.
Artykuł stwierdza:
„DiffClean [usuwa] ślady makijażu za pomocą modelu dyfuzji sterowanego tekstem, aby chronić przed atakami makijażu. [Poprawia] szacowanie wieku (dokładność w porównaniu z osobami dorosłymi o 4.8%) i weryfikację twarzy (TMR o 8.9% przy FMR = 0.01%) w porównaniu z konkurencyjnymi bazami danych na podstawie symulacji cyfrowych i rzeczywistych obrazów makijażu”.
Przyjrzyjmy się, jak podeszli do tego zadania.
Metoda wykonania
Aby uniknąć pozyskiwania prawdziwych obrazów nieletnich w makijażu, autorzy wykorzystali EleGANt do nałożenia syntetycznych kosmetyków na obrazy pochodzące z UTKFace zbiór danych, tworzący pary „przed” i „po” na potrzeby szkolenia.

Przykłady ze zbioru danych UTKFace. Źródło: https://susanqq.github.io/UTKFace/
Następnie wyszkolono DiffClean, aby odwrócić tę transformację. Ponieważ algorytmy szacowania wieku najczęściej popełniają błędy w przypadku młodszych grup wiekowych, naukowcy uznali za konieczne opracowanie zastępczego klasyfikatora wieku. dopracowane w grupie wiekowej docelowej (10-19 lat). W tym celu wykorzystano Sieć SSR architektura trenowana na UTKFace, z ważoną Strata L1.
Ograniczona wersja OpenAI z 2021 r. model dyfuzyjny zapewnił podstawę transformacji, a autorzy zachowali podstawową architekturę, ale zmodyfikowali ją, dodając dodatkowe elementy głowy uwagi w różnych rozdzielczościach, głębszych warstwach i BigGAN-bloki w stylu umożliwiające ulepszenie etapów próbkowania w górę i w dół.
Sterowanie kierunkowe wprowadzono za pomocą CLIP podpowiedzi: konkretnie, twarz z makijażem oraz twarz bez makijażu, dzięki czemu modelka nauczyła się poruszać w pożądanym kierunku semantycznym, co pozwoliło na usunięcie makijażu bez uszczerbku dla szczegółów twarzy, wskazówek dotyczących wieku czy tożsamości.

Syntetyczny makijaż nałożony za pomocą EleGANt. Każdy triplet przedstawia oryginalny obraz UTKFace (po lewej), referencyjny styl makijażu (w środku) oraz efekt po przeniesieniu stylu (po prawej). Transfer makijażu tego typu jest szeroko stosowany w literaturze poświęconej wizji komputerowej, a funkcja ta jest również dostępna w filtrach neuronowych programu Adobe Photoshop, które w podobny sposób mogą nakładać makijaż z obrazu referencyjnego na obraz docelowy.
Cztery klucze funkcje strat kontrolowany demakijaż bez wpływu na tożsamość twarzy lub wskazówki dotyczące wieku. Oprócz wspomnianej utraty opartej na CLIP, tożsamość została zachowana za pomocą ważonej pary ArcFace'a straty pobrane z WglądTwarz biblioteka – straty mierzące podobieństwo wygenerowanej twarzy zarówno do oryginalnego, czystego obrazu, jak i wersji „z makijażem”, co pozwalało upewnić się, że twarz osoby przed i po usunięciu makijażu pozostała spójna wizualnie.
Po trzecie, utrata percepcji Wyuczone wskaźniki podobieństwa percepcyjnego (LPIPS) wykorzystało odległość L1, aby wymusić realizm na poziomie pikseli i zachować ogólny wygląd oryginalnego obrazu po usunięciu makijażu.
Na koniec, wiek nadzorowano za pomocą precyzyjnie dostrojonej sieci SSRNet trenowanej na zbiorze danych UTKFace, z modelem wykorzystującym wygładzoną stratę L1 (z większymi karami za błędy w przedziale wiekowym 10–29 lat, gdzie błędna klasyfikacja jest najczęstsza). Wariant modelu zastąpił to monitem o wiek opartym na CLIP, który nakazywał modelowi dopasowanie się do wyglądu określonego wieku.
W przypadku szacowania wieku w momencie wnioskowania (w przeciwieństwie do wykorzystania sieci SSRNet w czasie szkolenia) MiVOLO zastosowano framework.
Dane i testy
Dokładne dostrojenie UTKFace przez SSRNet wykorzystano zestaw treningowy składający się z 15,364 XNUMX obrazów, zestaw testowy z 6,701 zdjęć. Oryginalne 20,000 70 zdjęć zostało przefiltrowanych w celu usunięcia osób powyżej 70. roku życia, a następnie ponownie podzielonych w stosunku 30:XNUMX.
Zgodnie z poprzednią metodą ustaloną w 2023 r. DiffAM projekt, szkolenie przebiegało w dwóch etapach, przy czym pierwsza sesja obejmowała 300 rzeczywistych obrazów makijażu (tym razem podział 200/100 między szkoleniem a walidacją) z BeautyGAN Zestaw danych MT.
Model został następnie udoskonalony z wykorzystaniem 300 dodatkowych obrazów UTKFace, uzupełnionych o makijaż syntetyczny za pomocą EleGANt. W ten sposób powstał ostateczny zestaw treningowy składający się z 600 przykładów, sparowanych w pięciu stylach referencyjnych z BeautyGAN. Ponieważ demakijaż polega na odwzorowaniu wielu stylów makijażu na jednej, czystej twarzy, trening koncentrował się na szerokim spektrum… uogólnienie zamiast obejmować każdą możliwą odmianę kosmetyczną.
Wydajność oceniano zarówno na obrazach syntetycznych, jak i rzeczywistych. Do testów syntetycznych wykorzystano 2,556 Flickr-Faces-HQ Obrazy z zestawu danych (FFHQ), równomiernie pobrane z dziewięciu grup wiekowych poniżej 70 lat i zmodyfikowane za pomocą EleGANt.
Generalizację oceniano przy użyciu 3,000 obrazów z BeautyFace i 355 z LADN, oba zawierają autentyczny makijaż.

Przykłady z zestawu danych BeautyFace ilustrujące segmentację semantyczną definiującą różne obszary dotkniętej chorobą powierzchni twarzy. Źródło: https://li-chongyi.github.io/BeautyREC_files/
Metryki i wdrażanie
Do celów metryk autorzy wykorzystali Średni błąd bezwzględny (MAE) pomiędzy prawdą podstawową (rzeczywiste obrazy z ustalonym faktycznym wiekiem) a przewidywanymi wartościami wieku, przy czym niższe wyniki oznaczają lepiej; dokładność grupy wiekowej służyła do oceny, czy przewidywane wieki zostały przydzielone do prawidłowych grup (w takim przypadku im niższy wynik, tym lepiej); dokładność w określaniu wieku dzieci i dorosłych służyła do oceny prawidłowej identyfikacji osób w wieku 18+ lat (im wyższy wynik, tym lepiej).
Ponadto, choć nie skupia się na konkretnym omawianym temacie, autorzy podają również wskaźniki weryfikacji tożsamości w postaci współczynnika prawdziwego dopasowania (TMR) i współczynnika fałszywego dopasowania (FMR), a także dalsze raporty dotyczące powiązanych Charakterystyka operacyjna odbiornika (ROC) wartości.
Sieć SSRNet została dostrojona na obrazach o wymiarach 64×64px przy użyciu wielkość partii z 50 pod Adam optymalizator z ubytek wagi 1e−4, a także harmonogram wyżarzania kosinusowegoi współczynnik uczenia się 1e−3 na 200 epokiZ wczesne zatrzymanie.
Natomiast moduł DiffClean otrzymał obrazy wejściowe o wymiarach 256×256 pikseli i został dostrojony do pięciu epok za pomocą programu Adam, z grubszą szybkością uczenia się 4e−3. Próbkowanie używało 40 Inwersja DDIM kroków i 6 kroków do przodu DDIM. Całe szkolenie przeprowadzono na pojedynczym procesorze graficznym NVIDIA A100 (nie określono, czy miał 40 GB, czy 80 GB pamięci VRAM).
Testowano konkurencyjne systemy CLIP2Protect i wspomnianego wcześniej DiffAM. Autorzy zastosowali w procesie pracy „matowe” style makijażu, ponieważ w CLIP2Protect zauważono, że zapewniają one wyższy wskaźnik sukcesu (prawdopodobnie dając szansę tym, którzy próbują obejść to podejście – ale to temat na inny raz).
Aby odtworzyć DiffAM jako punkt odniesienia, wstępnie wytrenowany model z BeautyGAN został dostrojony na zbiorze danych MT. Do transferu konfrontacyjnego makijażu użyto punktu kontrolnego z DiffAM z domyślnymi parametrami dla modelu docelowego, obrazu referencyjnego i tożsamości.

Wydajność narzędzia DiffClean w porównaniu z wartościami bazowymi w zadaniach szacowania wieku z wykorzystaniem narzędzia MiVOLO. Podane wskaźniki to dokładność klasyfikacji dzieci/dorosłych, dokładność grup wiekowych oraz średni błąd bezwzględny (MAE). Narzędzie DiffClean z utratą wieku CLIP osiąga najlepsze wyniki we wszystkich wskaźnikach.
Autorzy wyników piszą:
„[Nasza] metoda DIFFCLEAN przewyższa obie metody bazowe, CLIP2Protect i DiffAM, i może skutecznie przywrócić wskazówki dotyczące wieku zaburzone przez makijaż, obniżając MAE (do 5.71) i zwiększając ogólną dokładność przewidywania grupy wiekowej (do 37%).
„Nasz cel koncentrował się na grupach wiekowych dzieci, a wyniki wskazują, że osiągnęliśmy lepszy wynik w klasyfikacji dzieci w porównaniu do dorosłych, wynoszący 88.6%”.

Wyniki usuwania makijażu z wykorzystaniem metod bazowych i proponowanych. Kolumna po lewej stronie przedstawia obrazy źródłowe, a kolejne wyniki z CLIP2Protect i DiffAM. Trzecia kolumna przedstawia wyniki z DiffClean za pośrednictwem sieci SSRNet oraz z analizy starzenia opartej na CLIP. Autorzy twierdzą, że DiffClean skuteczniej usuwa makijaż, unikając zniekształceń rysów twarzy obserwowanych w CLIP2Protect oraz resztek kosmetyków pomijanych przez DiffAM.
Autorzy zauważają ponadto, że makijaż nie ma jednolitego wpływu na postrzegany wiek, lecz może go zwiększać, zmniejszać lub pozostawiać bez zmian. Dlatego DiffClean nie stosuje „całościowej redukcji” przewidywanego wieku, lecz stara się przywrócić pierwotne wskaźniki wieku poprzez usunięcie śladów kosmetycznych:

Przykłady demakijażu z zestawów danych CelebA-HQ i CACD. Każda kolumna przedstawia parę zdjęć przed (po lewej) i po (po prawej) demakijażu. W pierwszej kolumnie przewidywany wiek maleje po demakijażu; w drugiej pozostaje bez zmian; a w trzeciej wzrasta.
Aby sprawdzić skuteczność DiffClean w przypadku nowych danych, uruchomiono go na zbiorach danych BeautyFace i LADN, które zawierają autentyczny makijaż, ale nie zawierają sparowanych zdjęć tych samych osób bez kosmetyków. Porównano prognozy wieku przed i po demakijażu, aby ocenić, jak skutecznie DiffClean redukuje zniekształcenia spowodowane makijażem:

Wyniki demakijażu na podstawie rzeczywistych obrazów z zestawów danych LADN (para po lewej) i BeautyFace (para po prawej). DiffClean redukuje przewidywany wiek poprzez usunięcie kosmetyków, zmniejszając różnicę między wiekiem pozornym a rzeczywistym. Białe liczby pokazują szacowany wiek przed i po obróbce.
Wyniki pokazały, że DiffClean konsekwentnie zmniejszał różnicę między wiekiem pozornym a rzeczywistym. W obu zbiorach danych zmniejszył błędy przeszacowania i niedoszacowania średnio o około trzy lata, co sugeruje, że system dobrze generalizuje się na rzeczywisty styl kosmetyczny.
Podsumowanie
Ciekawe, a może i nieuniknione, że makijaż performatywny byłby wykorzystywany w sposób antagonistyczny. Biorąc pod uwagę, że dziewczęta dojrzewają w różnym tempie, ale konsekwentnie dojrzewają szybciej jako grupa, zadanie określenia granicy między statusem kobiety jako dziecka a statusem kobiety jako dorosłej może być jednym z najbardziej ambitnych, jakie do tej pory postawiła sobie scena badawcza.
Niemniej jednak czas i dane mogą w końcu pozwolić na ustalenie spójnych oznak wieku, które będzie można wykorzystać do zakotwiczenia systemów wizualnej weryfikacji wieku.
* Ponieważ temat ten prowokuje do użycia języka o wydźwięku kontrowersyjnym, a określenie „dziewczęta” ma charakter wykluczający (choć „kobiety i dziewczęta”, obecnie akceptowane określenie osób płci żeńskiej, nie jest w tym przypadku trafnym opisem), zdecydowałam się na określenie „kobiety” jako najlepszy kompromis, jaki udało mi się wymyślić – choć nie uwzględnia ono wszystkich subtelności demograficznych, za co przepraszam.
† W tym artykule używam słowa „performatywny” w odniesieniu do makijażu, który ma być postrzegany i rozpoznawany jako makijaż, np. tusz do rzęs, eyeliner, róż i podkład, w odróżnieniu od kremów kryjących i innych „dyskretnych” rodzajów kosmetyków.
Pierwsze opublikowanie w piątek, 18 lipca 2025 r.