Andersons vinkel
AI-værktøj fjerner makeup for at forhindre mindreåriges omgåelse af alderskontrol

Udseendet af ansigtskosmetik låser unge brugere, især piger, til at slippe forbi selvportræt-baserede alderskontroller på platforme som datingapps og e-handelswebsteder. Et nyt AI-værktøj løser denne løkke, ved at bruge en diskriminerende model, der er trænet til at fjerne makeup, samtidig med at den bevare identiteten, hvilket gør det sværere for mindreårige at narre automatiserede systemer.
Brugen af tredjeparts selvportræt-baserede aldersverifikationstjenester er på vej op, ikke mindst på grund af en generel global impuls mod online aldersbaseret verifikation.
For eksempel i den nye gennemførelsesregime, som Storbritanniens Online Safety Act nu pålægger, kan aldersverifikation udføres af en række tredjeparts tjenester, der bruger forskellige metoder, herunder visuel aldersverifikation, hvor AI bruges til at forudsige brugerens alder (som regel fra live mobilkameraoptagelser). Tjenester, der bruger tilgange af denne type, omfatter Ondato, TrustStamp og Yoti.
Imidlertid er aldersestimation ikke ufejlbarlig, og den traditionelle bestemmelse af teenageres rettigheder til at forudse voksenalderen betyder, at unge mennesker har udviklet en række effektive metoder til at komme ind på datingsites, fora og andre miljøer, der forbyder deres aldersgruppe.
En af disse metoder, der oftest bruges af kvinder*, er ved at bære ansigtsmakeup – en taktik kendt for at narre automatiserede aldersestimationssystemer, der generelt overestimerer alderen af unge mennesker og underestimerer alderen af ældre mennesker.
Ikke kun pigerne
Før der opstår protester mod at betragte makeup som ‘kvinde-fokuseret’, må vi bemærke, at tilstedeværelsen af ansigtskosmetik på enhver er en meget upålidelig indikator for køn:

I artiklen ‘Impact of Facial Cosmetics on Automatic Gender and Age Estimation Algorithms’ fandt amerikanske forskere, at kønsverifikationssystemer blev narret af køns-skiftende makeup. Kilde: https://cse.msu.edu/~rossarun/pubs/ChenCosmeticsGenderAge_VISAPP2014.pdf
I 2024 blev det estimeret, at 72% af de amerikanske mandlige forbrugere i alderen 18-24 år inkorporerede makeup i deres pleje-rutine – selvom de fleste bruger kosmetiske produkter til at forbedre udseendet af sundt hud, snarere end at nyde den slags performative mascara/læbestift-kombinationer mere forbundet med kvinders visuelle æstetik.
Så vi kan ikke undgå at behandle det materiale, der studeres i denne artikel, langs linjerne med den mest almindelige scenario, der er blevet undersøgt i ny forskning – det, at kvindelige mindreårige bruger makeup til at omgå automatiserede visuelle aldersverifikationssystemer.
Effektiv makeup-fjernelse – Den AI-måde
Den ovennævnte forskning kommer fra tre bidragydere ved New York University, i form af den nye artikel DiffClean: Diffusion-baseret makeup-fjernelse for præcis aldersestimation.
Formålet med projektet er at opnå en AI-dreven metode til at fjerne makeup-udseendet fra billeder (potentielt inklusive video-billeder), for at få en bedre idé om den virkelige alder af personen bag makeup.

Fra den nye artikel, et eksempel på, hvordan makeup-fjernelse kan ændre en aldersforudsigelse. Kilde: https://arxiv.org/pdf/2507.13292
En af udfordringerne ved at udvikle et sådant system er den potentielle følsomhed omkring indsamling eller kuratering af billeder af mindreårige piger, der bærer voksenmakeup. Til sidst brugte forskerne en tredjeparts Generative Adversarial Network-baseret system kaldet EleGANt til at påføre makeup-stilarter kunstigt, en teknik, der viste sig at være meget effektiv:

Tsinghua Universitets 2022 EleGANt-system bruger en Generative Adversarial Network (GAN) til at påføre kosmetik ægte på billeder. Kilde: https://arxiv.org/pdf/2207.09840
Med hjælp af syntetisk data, der er erhvervet på denne måde, og med hjælp fra en divers række hjælpeprojekter og datasæt, kunne forfatterne overgå state-of-the-art-metoder i aldersestimation, når de blev konfronteret med performative eller ‘åbenlyse’ makeup.
Artiklen fastslår:
‘DiffClean [fjerner] makeup-spore ved hjælp af en tekst-styret diffusion-model til at forsvare sig mod makeup-angreb. [Det] forbedrer aldersestimation (minor vs. voksen-nøjagtighed med 4,8%) og ansigtsverifikation (TMR med 8,9% ved FMR=0,01%) over sammenlignelige baseline på digitalt simulerede og virkelige makeup-billeder.’
Lad os se, hvordan de gik til opgaven.
Metode
For at undgå at indsamle virkelige billeder af mindreårige i makeup, brugte forfatterne EleGANt til at påføre syntetisk makeup til billeder fra UTKFace-datasættet, hvilket producerede før-og-efter-par til træning.

Eksempler fra UTKFace-datasættet. Kilde: https://susanqq.github.io/UTKFace/
DiffClean blev derefter trænet til at omvende denne transformation. Da aldersestimation-algoritmer fejler mest, når de har med yngre aldersgrupper at gøre, fandt forskerne det nødvendigt at udvikle en proxy-alder-klassifikator fine-tuned på målalderne (10-19 år). Til dette formål brugte de SSRNet-arkitekturen trænet på UTKFace, med en vægtet L1-tab.
En nedskaleret version af den 2021 OpenAI diffusion-model leverede ryggraden for transformationen, med forfatterne, der beholdt den grundlæggende arkitektur, men ændrede den med ekstra opmærksomheds-hoveder i forskellige opløsninger, dybere lag og BigGAN-lignende blokke til at forbedre op- og ned-sampling-stadierne.
Retningskontrol blev introduceret ved hjælp af CLIP-prompts: specifikt, ansigt med makeup og ansigt uden makeup, således at modellen lærte at bevæge sig i den ønskede semantiske retning, hvilket gjorde det muligt at fjerne makeup uden at kompromittere ansigtsdetaljer, alderskriterier eller identitet.

Kunstigt makeup påført ved hjælp af EleGANt. Hver triplet viser det originale UTKFace-billede (venstre), reference-makeup-stilen (midten) og resultatet efter stil-overførsel (højre). Makeup-overførsel af denne type er almindelig i computer-vision-litteraturen, og denne funktion er også tilgængelig i de neurale filtre i Adobe Photoshop, som kan påføre makeup fra en reference-billede til et mål-billede.
Fire nøgle tab-funktioner vejledte makeup-fjernelse uden at påvirke ansigtsidentitet eller alderskriterier. Ud over den ovennævnte CLIP-baserede tab, blev identitet bevaret ved hjælp af en vægtet par ArcFace-tab fra InsightFace-biblioteket – tab, der målte ligheden mellem den genererede ansigt og både det originale rene billede og det ‘malet’ version, hvilket sikrede, at emnet forblev visuelt konsistent før og efter makeup-fjernelse.
Tredje, den perceptuelle tab Lærte Perceptuelle Ligheds-målinger (LPIPS) brugte L1-afstand til at påtvinge pixel-niveau-realisme og bevare det overordnede udseende af det originale billede efter, at makeup var fjernet.
Til sidst blev alder overvåget ved hjælp af en fine-tuned SSRNet trænet på UTKFace-datasættet, med modellen, der brugte en glattet L1-tab (med tungere straffe for fejl i aldersgruppen 10-29 år, hvor mis klassificering er mest almindelig). En variant af modellen erstattede dette med en CLIP-baseret alder-prompt, der fik modellen til at matche udseendet af en bestemt alder.
Til aldersestimation på inference-tidspunkt (i modsætning til brugen af SSRNet på træningstidspunkt) blev 2023 MiVOLO-rammen brugt.
Data og tests
SSRNet-fine-tuning af UTKFace anvendte et træningssæt på 15.364 billeder mod en test-sæt på 6.701 billeder. De originale 20.000 billeder blev filtreret for at fjerne alle over 70 år og derefter lignende delt 70:30.
I overensstemmelse med den tidligere metode etableret af 2023 DiffAM-projektet, fortsatte træningen i to faser, med den første session, der brugte 300 virkelige makeup-billeder (denne gang en 200/100-split mellem træning og validering) fra BeautyGAN’s MT-datasæt.
Modellen blev derefter yderligere forfinet ved hjælp af 300 yderligere UTKFace-billeder, suppleret med syntetisk makeup via EleGANt. Dette skabte et endeligt træningssæt på 600 eksempler, parret på tværs af fem reference-stilarter fra BeautyGAN. Da makeup-fjernelse indebærer at kortlægge mange makeup-stilarter til et enkelt rent ansigt, fokuserede træningen på bred generalisering snarere end at dække alle mulige kosmetiske variationer.
Ydeevnen blev evaluere på både syntetiske og virkelige billeder. Syntetisk testning brugte 2.556 Flickr-Faces-HQ Dataset (FFHQ)-billeder, jævnt samplet på tværs af ni aldersgrupper under 70 og ændret med EleGANt.
Generalisering blev vurderet ved hjælp af 3.000 billeder fra BeautyFace og 355 fra LADN, begge indeholdende ægte makeup.

Eksempler fra BeautyFace-datasættet, der viser den semantiske segmentering, der definerer forskellige områder af påvirket ansigts-overflade. Kilde: https://li-chongyi.github.io/BeautyREC_files/
Mål og implementering
Til mål brugte forfatterne Gennemsnitlig absolut fejl (MAE) mellem sandheden (virkelige billeder med faktiske aldre fastsat) og de forudsigede aldersværdier, hvor lavere resultater er bedre; alder-gruppe-nøjagtighed blev brugt til at evaluere, om de forudsigede aldre endte i de korrekte grupperinger (hvor lavere resultater er bedre); minor/voksen-nøjagtighed blev brugt til at evaluere korrekt identifikation af 18+ personer (hvor en højere værdi er bedre).
Derudover, selv om det ikke er centreret om det specifikke emne, der er under diskussion, rapporterer forfatterne også identitetsverifikations-mål i form af Sandt Match Rate (TMR) og Falsk Match Rate (FMR), samt yderligere rapportering af relaterede Modtager-Operatør-Kurver (ROC)-værdier.
SSRNet blev fine-tuned på 64×64px billeder ved hjælp af en batch-størrelse på 50 under Adam-optimerings-algoritmen med en vægt-forfald på 1e−4, samt en cosine-annealing-tidsplan og en læringsrate på 1e−3 over 200 epoch, med tidlig stop.
I modsætning hertil modtog DiffClean-modulet 256×256px input-billeder og blev fine-tuned i fem epoch med Adam, ved en grovere læringsrate på 4e−3. Sampling brugte 40 DDIM-inversion-trin og 6 DDIM-forward-trin. Alt træning blev udført på en enkelt NVIDIA A100 GPU (enten med 40GB eller 80GB RAM var ikke specificeret).
Modsat systemer, der blev testet, var CLIP2Protect og den tidligere nævnte DiffAM. Forfatterne brugte ‘matte’ makeup-stilarter i arbejdsgangen, da dette er blevet noteret i CLIP2Protect som opnående en højere succesrate (presumably allowing an avenue of opportunity for those seeking to defeat this approach – but that is a matter for another time).
Til at replikere DiffAM som en baseline, blev den pre-trænede model fra BeautyGAN fine-tuned på MT-datasættet. Til adversarial makeup-overførsel blev checkpointet fra DiffAM brugt med standardparametre for mål-modellen, reference-billedet og identiteten.

Ydeevnen for DiffClean i forhold til baseline på aldersestimation-opgaver, ved hjælp af MiVOLO. Mål, der rapporteres, er minor/voksen-klassificerings-nøjagtighed, alder-gruppe-nøjagtighed og gennemsnitlig absolut fejl (MAE). DiffClean med CLIP-alder-tab opnår de bedste resultater på tværs af alle mål.
Af disse resultater siger forfatterne:
‘[Vores] metode DIFFCLEAN overgår både baselines, CLIP2Protect og DiffAM, og kan med held genskabe alderskriterierne, der blev ødelagt på grund af makeup, ved at reducere MAE (til 5,71) og forbedre den samlede alder-gruppe-præcision (til 37%).
‘Vores mål var fokuseret på mindreåriges aldersgrupper, og resultaterne viser, at vi opnår en overlegen minor vs voksen-alders-klassificering på 88,6%.’

Makeup-fjernelse-resultater fra baseline og foreslåede metoder. Den venstre kolonne viser kilde-billeder, den næste viser output fra CLIP2Protect og DiffAM. Den tredje kolonne viser resultater fra DiffClean via SSRNet og CLIP-baseret alder-tab. Forfatterne påstår, at DiffClean fjerner makeup mere effektivt, undgår feature-forvrængning set i CLIP2Protect og oversete kosmetik, som DiffAM ikke fik fjernet.
Forfatterne bemærker yderligere, at makeup ikke har en ensartet effekt på den opfattede alder, men kan øge, reducere eller lade uændret den åbenlyse alder af et ansigt. Derfor søger DiffClean ikke at anvende en ‘blanket-reduktion’ i forudsiget alder, men søger i stedet at genskabe de oprindelige alderskriterier ved at fjerne kosmetik-spore:

Makeup-fjernelse-eksempler fra CelebA-HQ og CACD-datasættene. Hver kolonne viser et par billeder før (venstre) og efter (højre) makeup-fjernelse. I den første kolonne reduceres den forudsigede alder efter makeup-fjernelse; i den anden forbliver den uændret; og i den tredje øges den.
Til at teste, hvor godt DiffClean fungerede på nye data, blev det kørt på BeautyFace og LADN-datasættene, der indeholder ægte makeup, men ingen par-billeder af de samme emner uden kosmetik. Aldersforudsigelser, der blev lavet før og efter makeup-fjernelse, blev sammenlignet for at evaluere, hvor godt DiffClean reducerede forvrængningen, der blev introduceret af makeup:

Makeup-fjernelse-resultater på virkelige billeder fra LADN (venstre par) og BeautyFace (højre par) datasættene. DiffClean reducerer den forudsigede alder ved at fjerne kosmetik, hvilket mindsker afstanden mellem den åbenlyse og den faktiske alder. Hvide tal viser estimerede aldre før og efter behandling.
Resultaterne viste, at DiffClean konsekvent reducerede afstanden mellem den åbenlyse og den faktiske alder. På tværs af begge datasæt reducerede det over- og under-estimerings-fejl med omkring tre år i gennemsnit, hvilket tyder på, at systemet generaliserer godt til virkelige kosmetiske stilarter.
Konklusion
Det er interessant, og måske uundgåeligt, at performative kosmetisk makeup ville blive brugt på en modstander-måde. Givet, at piger udvikler sig i forskellige tempi, men konsekvent udvikler sig hurtigere som en gruppe, kan opgaven med at identificere grænsen mellem mindreårig og voksen kvindelig status være en af de mest ambitiøse, som forskningsscenen endnu har sat sig for.
Ikke desto mindre kan tid og data måske en dag fastlægge konsistente alders-relaterede tegn, der kan bruges til at fastgøre visuelle aldersverifikationssystemer.
* Siden dette emne inviterer til belastet sprog, og siden ‘piger’ er eksklusivt (mens ‘kvinder og piger’, den nu accepterede betegnelse for kvindelige personer, ikke er en præcis beskrivelse i dette tilfælde), har jeg valgt ‘kvinder’ som den bedste kompromis, jeg kunne finde – selv om det ikke fanger alle demografiske nuancer, for hvilket jeg undskuldiger.
† I denne artikel bruger jeg ‘performative’ til at indikere makeup, der er beregnet til at være synlig og genkendelig som makeup, såsom mascara, eyeliner, kinderødt og foundation, i modsætning til skjule-krem og andre ‘hemmelige’ former for kosmetiske ansøgninger.
Først udgivet fredag, 18. juli 2025












