Andersons vinkel
AI-værktøj fjerner makeup for at forhindre mindreårige i at omgå alderskontrol

Udseendet af ansigtskosmetik låser unge brugere, mest piger, slippe forbi selvportræt-baseret alderskontrol på platforme som datingapps og e-handelssteder. Et nyt AI-værktøj adresserer denne løkke, ved at bruge en diskriminerende model, der er trænet til at fjerne makeup, mens identiteten bibeholdes, og gør det sværere for mindreårige at narre automatiserede systemer.
Brugen af tredjeparts, selvportræt-baseret aldersverificeringstjenester er stigende, ikke mindst på grund af en generel global impuls mod online aldersbaseret verificering.
For eksempel i den nye gennemførelsesregime, som Storbritanniens Online Safety Act nu pålægger, kan aldersverificering udføres af en række tredjeparts tjenester, der bruger forskellige mulige metoder, herunder visuel aldersverificering, hvor AI bruges til at forudse brugerens alder (som regel fra live mobilkameraoptagelser). Tjenester, der bruger tilgange af denne type, omfatter Ondato, TrustStamp og Yoti.
Men aldersestimation er ikke ufejlbarlig, og den traditionelle bestemmelse af teenageres forventning om at antage rettighederne i voksenlivet betyder, at unge mennesker har udviklet en række effektive metoder til at komme ind på datingsteder, fora og andre miljøer, der forbyder deres aldersgruppe.
En af disse metoder, der mest bruges af kvinder*, er ved at bære ansigtsmakeup – en taktik kendt for at narre automatiserede aldersestimationssystemer, der generelt overestimerer alderen af unge mennesker og underestimerer alderen af ældre mennesker.
Ikke kun piger
Før protester opstår ved at overveje makeup som ‘kvinde-fokuseret’, skal vi bemærke, at tilstedeværelsen af ansigtskosmetik på enhver er en meget upålidelig indikator for køn:

I papiret ‘Impact of Facial Cosmetics on Automatic Gender and Age Estimation Algorithms’ fandt amerikanske forskere, at kønsverificeringssystemer blev narret af kønsskiftende makeup. Kilde: https://cse.msu.edu/~rossarun/pubs/ChenCosmeticsGenderAge_VISAPP2014.pdf
I 2024 blev det estimeret, at 72% af amerikanske mandlige forbrugere i alderen 18-24 år inkorporerede makeup i deres pleje-rutine – selvom de fleste bruger kosmetiske produkter til at forbedre udseendet af sundt hud, snarere end at deltage i den slags performative† mascara/læbestift-kombinationer mere associeret med kvinders visuelle æstetik.
Så vi kan ikke undgå at behandle det materiale, der er studeret i denne artikel, langs linjerne af den mest almindelige scenario, der er udforsket i ny forskning – det, at kvindelige mindreårige bruger makeup til at omgå automatiserede visuelle aldersverificeringssystemer.
Effektiv makeup-fjernelse – Den AI-måde
Forskningen ovenfor kommer fra tre bidragydere på New York University, i form af den nye artikel DiffClean: Diffusion-baseret makeup-fjernelse til nøjagtig aldersestimation.
Formålet med projektet er at opnå en AI-dreven metode til at fjerne udseendet af makeup fra billeder (potentielt inklusive videooptagelser), for at få en bedre idé om den sande alder af personen bag makeup.

Fra den nye artikel, et eksempel på, hvordan makeup-fjernelse kan mærkbart ændre en aldersforudsigelse. Kilde: https://arxiv.org/pdf/2507.13292
En af udfordringerne ved at udvikle sådant et system er den potentielle følsomhed omkring indsamling eller kuratering af billeder af mindreårige piger, der bærer voksenmakeup. Til sidst brugte forskerne en tredjeparts Generative Adversarial Network-baseret system kaldet EleGANt til at påføre makeup-stilarter kunstigt, en teknik, der viste sig at være meget effektiv:

Tsinghua Universitets 2022 EleGANt-system bruger en Generative Adversarial Network (GAN) til at påføre kosmetik ægte på kildebilleder. Kilde: https://arxiv.org/pdf/2207.09840
Med hjælp af syntetisk data, der er erhvervet på denne måde, og med hjælp fra en divers række af hjælpeprojekter og datasæt, kunne forfatterne overgå state-of-the-art-metoder i aldersestimation, når de konfronteres med performative eller ‘tydelig’ makeup.
Artiklen siger:
‘DiffClean [fjerner] makeup-spor ved hjælp af en tekst-guidet diffusion-model til at forsvare mod makeup-angreb. [Det] forbedrer aldersestimation (minor vs. voksen-nøjagtighed med 4,8%) og ansigtsverificering (TMR med 8,9% ved FMR=0,01%) over konkurrerende baselines på digitalt simulerede og ægte makeup-billeder.’
Lad os se, hvordan de gik til opgaven.
Metode
For at undgå at indsamle ægte billeder af mindreårige i makeup, brugte forfatterne EleGANt til at påføre syntetisk kosmetik til billeder fra UTKFace-datasættet, og producerede før-og-efter-par til træning.

Eksempler fra UTKFace-datasættet. Kilde: https://susanqq.github.io/UTKFace/
DiffClean blev derefter trænet til at omvende denne transformation. Da aldersestimation-algoritmer fejler mest, når de har med yngre aldersgrupper at gøre, fandt forskerne det nødvendigt at udvikle en proxy-alder-klassifikator fine-tuned på målalderne (10-19 år). Til dette formål brugte de SSRNet-arkitekturen trænet på UTKFace, med en vægtet L1-tab.
En nedskaleret version af 2021 OpenAI diffusion-model leverede rygningen til transformationen, med forfatterne, der beholdt den grundlæggende arkitektur, men modificerede den med ekstra opmærksomheds-hoveder på forskellige opløsninger, dybere lag og BigGAN-blokke til at forbedre op-sampling og down-sampling-stadierne.
Retningskontrol blev introduceret ved hjælp af CLIP-prompts: specifikt, ansigt med makeup og ansigt uden makeup, således at modellen lærte at bevæge sig i den ønskede semantiske retning, og tillod makeup at blive fjernet uden at kompromittere ansigtsdetaljer, alder-signaler eller identitet.

Syntetisk makeup påført ved hjælp af EleGANt. Hver triplet viser det originale UTKFace-billede (venstre), reference-makeup-stilen (midten) og resultatet efter stil-overførsel (højre). Makeup-overførsel af denne type er almindelig i computer-vision-litteraturen, og denne facilitet er også tilgængelig i de neurale filtre i Adobe Photoshop, der kan påføre makeup fra en reference-billede på et mål-billede.
Fire nøgle tab-funktioner vejledte makeup-fjernelse uden at påvirke ansigtsidentitet eller alder-signaler. Ud over den ovennævnte CLIP-baserede tab, blev identitet bevaret ved hjælp af en vægtet par af ArcFace-tab, der blev trukket fra InsightFace-biblioteket – tab, der målte ligheden mellem det genererede ansigt og både det originale rene billede og det ‘malet’ version, og sikrede, at subjektet forblev visuelt konsistent før og efter makeup-fjernelse.
Tredje, den perciperede tab Learnt Perceptual Similarity Metrics (LPIPS) brugte L1-afstand til at påtvinge pixel-niveau-realisme, og bevare det overordnede udseende af det originale billede efter, at makeup var fjernet.
Til sidst blev alder overvåget ved hjælp af en fine-tuned SSRNet trænet på UTKFace-datasættet, med modellen, der brugte en glattet L1-tab (med tungere straffe for fejl i aldersgruppen 10-29 år, hvor mis klassificering er mest almindelig). En variant af modellen erstattede dette med en CLIP-baseret alder-prompt, der fik modellen til at matche udseendet af en bestemt alder.
Til aldersestimation på inference-tidspunkt (i modsætning til brugen af SSRNet på træningstidspunktet) blev 2023 MiVOLO-rammen brugt.
Data og tests
SSRNet fine-tune af UTKFace anvendte et træningssæt på 15.364 billeder, imod et test-sæt på 6.701 billeder. De originale 20.000 billeder blev filtreret for at fjerne alle over 70 år, og derefter lignende splittet 70:30.
I overensstemmelse med den tidligere metode etableret af 2023 DiffAM-projektet, gik træningen derefter i to faser, med den første session, der brugte 300 ægte makeup-billeder (denne gang en 200/100-splitning mellem træning og validering) fra BeautyGANs MT-datasæt.
Modellen blev derefter forfinet yderligere ved hjælp af 300 yderligere UTKFace-billeder, suppleret med syntetisk makeup via EleGANt. Dette skabte et endeligt træningssæt på 600 eksempler, parret over fem reference-stilarter fra BeautyGAN. Fordi makeup-fjernelse indebærer mapping af mange makeup-stilarter til et enkelt rent ansigt, fokuserede træningen på bred generalisering snarere end at dække alle mulige kosmetiske variationer.
Præstationen blev vurderet på både syntetiske og ægte billeder. Syntetisk testning brugte 2.556 Flickr-Faces-HQ Dataset (FFHQ)-billeder, jævnt sampet over ni aldersgrupper under 70, og modificeret med EleGANt.
Generalisering blev vurderet ved hjælp af 3.000 billeder fra BeautyFace og 355 fra LADN, der begge indeholder ægte makeup.

Eksempler fra BeautyFace-datasættet, der eksemplificerer den semantiske segmentering, der definerer forskellige områder af påvirket ansigts-overflade. Kilde: https://li-chongyi.github.io/BeautyREC_files/
Metrikker og implementering
Til metrikker brugte forfatterne Gennemsnitslig absolut fejl (MAE) mellem sandheden (ægte billeder med faktiske aldre etableret) og de forudsagte aldersværdier, hvor lavere resultater er bedre; alder-gruppe-nøjagtighed blev brugt til at vurderer, om de forudsagte aldre endte i de korrekte grupper (hvor lavere resultater er bedre); minor/voksen-nøjagtighed blev brugt til at evaluere korrekt identificering af 18+ personer (hvor højere resultater er bedre).
Derudover, selvom det ikke centrerer sig om det specifikke emne, der er under diskussion, rapporterer forfatterne også identitetsverificeringsmetrikker i form af True Match Rate (TMR) og False Match Rate (FMR), samt yderligere rapportering af relaterede Receiver Operating Characteristic (ROC)-værdier.
SSRNet blev fine-tuned på 64×64px billeder ved hjælp af en batch-størrelse på 50 under Adam-optimeringsalgoritmen med en vægt-forfald på 1e−4, samt en cosine annealing-scheduler, og en læringsrate på 1e−3 over 200 epoch, med tidlig stop.
I modsætning hertil modtog DiffClean-modulen 256×256px input-billeder, og blev fine-tuned i fem epoch ved hjælp af Adam, med en grovere læringsrate på 4e−3. Sampling brugte 40 DDIM-inversion-trin, og 6 DDIM-forward-trin. Alt træning blev udført på en enkelt NVIDIA A100 GPU (uanset om det var 40GB eller 80GB VRAM, blev ikke specificeret).
Konkurrerende systemer, der blev testet, var CLIP2Protect og den tidligere nævnte DiffAM. Forfatterne brugte ‘matte’ makeup-stilarter i arbejdsgangen, da dette er blevet noteret i CLIP2Protect som opnående en højere succesrate (presumably giver en vej til muligheder for dem, der søger at besejre denne tilgang – men det er en sag for en anden tid).
For at replikere DiffAM som en baseline, blev den pre-trænede model fra BeautyGAN fine-tuned på MT-datasættet. Til adversarial makeup-overførsel blev checkpointet fra DiffAM brugt med standardparametre for målmodellen, referencebilledet og identiteten.

Præstation af DiffClean i forhold til baselines på aldersestimation-opgaver, ved hjælp af MiVOLO. Metrikker, der rapporteres, er minor/voksen-klassificering-nøjagtighed, alder-gruppe-nøjagtighed og gennemsnitlig absolut fejl (MAE). DiffClean med CLIP-alder-tab opnår de bedste resultater på tværs af alle metrikker.
Af disse resultater siger forfatterne:
‘[Vores] metode DIFFCLEAN overgår både baselines, CLIP2Protect og DiffAM, og kan med held genskabe alder-signalerne, der blev forstyrret på grund af makeup, ved at reducere MAE (til 5,71) og forbedre den overordnede alder-gruppe-forudsigelse-nøjagtighed (til 37%).
‘Vores mål fokuserede på mindreårige aldersgrupper, og resultaterne indikerer, at vi opnår overlegen minor vs voksen-alder-klassificering på 88,6%.’

Makeup-fjernelsesresultater fra baseline- og foreslåede metoder. Den venstre kolonne viser kildebilleder, den næste outputs fra CLIP2Protect og DiffAM. Den tredje kolonne viser resultater fra DiffClean via SSRNet og CLIP-baseret alder-tab. Forfatterne påstår, at DiffClean fjerner makeup mere effektivt, undgår feature-forvrængning set i CLIP2Protect, og residual kosmetik, der blev overset af DiffAM.
Forfatterne bemærker yderligere, at makeup ikke har en ensartet effekt på opfattet alder, men kan øge, reducere eller lade uforandret den åbenlyse alder af et ansigt. Derfor søger DiffClean ikke at anvende en ‘blanket-reduktion’ i forudsiget alder, men søger i stedet at genskabe de originale alder-signaler ved at fjerne kosmetik-spore:

Makeup-fjernelseseksempler fra CelebA-HQ og CACD-datasættene. Hver kolonne viser et par billeder før (venstre) og efter (højre) makeup-fjernelse. I den første kolonne reduceres den forudsagte alder efter, at makeup er fjernet; i den anden forbliver den uforandret; og i den tredje øges den.
For at teste, hvor godt DiffClean fungerede på nye data, blev det kørt på BeautyFace og LADN-datasættene, der indeholder ægte makeup, men ingen parrede billeder af de samme subjekter uden kosmetik. Aldersforudsigelser, der blev lavet før og efter makeup-fjernelse, blev sammenlignet for at vurderer, hvor effektivt DiffClean reducerede forvrængningen, der blev introduceret af makeup:

Makeup-fjernelsesresultater på ægte billeder fra LADN (venstre par) og BeautyFace (højre par) datasættene. DiffClean reducerer de forudsagte aldre ved at fjerne kosmetik, og reducerer afstanden mellem åbenlyse og faktiske aldre. Hvide tal viser estimerede aldre før og efter behandling.
Resultaterne viste, at DiffClean konsekvent reducerede afstanden mellem åbenlyse og faktiske aldre. På tværs af begge datasæt reducerede det overestimerings- og underestimeringsfejl med omkring tre år i gennemsnit, hvilket tyder på, at systemet generaliserer godt til ægte kosmetiske stilarter.
Konklusion
Det er interessant, og måske uundgåeligt, at performative kosmetisk makeup ville blive brugt på en modsætningsfuld måde. Givet, at piger modner i forskellige hastigheder, men konsekvent modner hurtigere som en gruppe, kan opgaven med at identificere skellet mellem mindreårige og voksne kvinders status være en af de mest ambitiøse, som forskningsscenen endnu har sat sig for.
Alligevel kan tid og data måske til sidst bestemme konsekvente aldersrelaterede tegn, der kan bruges til at fæstne visuelle aldersverificeringssystemer.
* Da dette emne inviterer til opladet sprog, og da ‘piger’ er eksklusivt (mens ‘kvinder og piger’, den nuværende accepterede term for kvindelige-kønnede mennesker, ikke er en præcis beskrivelse i dette tilfælde), har jeg valgt ‘kvinder’ som den bedste kompromis, som jeg kunne udvikle – selvom det ikke fanger alle demografiske nuancer, for hvilke jeg undskylder.
† I denne artikel bruger jeg ‘performative’ til at indikere makeup, der er ment til at blive set og genkendt som makeup, såsom mascara, eyeliner, kinderødt og foundation, i modsætning til skjulte cremer og andre ‘hemmelige’ former for kosmetiske ansøgninger.
Først udgivet fredag, 18. juli 2025












