Andersons hoek
AI-hulpmiddel verwijdert make-up om minderjarigen te stoppen die leeftijdscontroles omzeilen

Het uiterlijk van gezichtscosmetica laat onderjarige gebruikers, meestal meisjes, langs selfie-gebaseerde leeftijdscontroles op platforms zoals datingapps en e-commerce-sites glippen. Een nieuw AI-hulpmiddel adresseert deze lacune, gebruikmakend van een discriminatief model dat is getraind om make-up te verwijderen terwijl de identiteit wordt behouden, waardoor het moeilijker wordt voor minderjarigen om geautomatiseerde systemen te misleiden.
Het gebruik van zelfstandige, selfie-gebaseerde leeftijdsverificatiediensten neemt toe, niet in de laatste plaats vanwege een algemene mondiale impuls naar online leeftijdsverificatie.
Bijvoorbeeld, in het nieuwe handhavingsregime dat de Online Safety Act van het VK nu verplicht, kan leeftijdsverificatie worden uitgevoerd door een verscheidenheid aan derdepartij diensten, met behulp van verschillende mogelijke methoden, inclusief visuele leeftijdsverificatie, waarbij AI wordt gebruikt om de leeftijd van de gebruiker visueel te voorspellen (meestal vanuit live mobiele camera-opnames). Diensten die benaderingen van deze soort gebruiken, zijn onder andere Ondato, TrustStamp en Yoti.
Echter, leeftijdschatting is niet onfeilbaar, en de traditionele bepaling van tieners om de rechten van volwassenheid te anticiperen, betekent dat jonge mensen een verscheidenheid aan effectieve methoden hebben ontwikkeld om toegang te krijgen tot datingsites, forums en andere omgevingen die hun leeftijdsgroep verbieden.
Een van deze methoden, meestal gebruikt door vrouwen*, is door het dragen van gezichtsmake-up – een tactiek bekend om geautomatiseerde leeftijdschattingssystemen te misleiden, die over het algemeen de leeftijd van jonge mensen overschatten en de leeftijd van oudere mensen onderschatten.
Niet alleen de meisjes
Voordat protesten ontstaan over het beschouwen van make-up als ‘vrouwgericht’, moeten we opmerken dat de aanwezigheid van gezichtscosmetica op iedereen een zeer onbetrouwbare indicator van geslacht is:

In het paper ‘Impact of Facial Cosmetics on Automatic Gender and Age Estimation Algorithms’ vonden Amerikaanse onderzoekers dat geslachtsverificatiesystemen werden misleid door geslachtsverwisselende make-up. Bron: https://cse.msu.edu/~rossarun/pubs/ChenCosmeticsGenderAge_VISAPP2014.pdf
In 2024 werd geschat dat 72% van de Amerikaanse mannelijke consumenten tussen de 18-24 jaar make-up in hun verzorgingsroutine opnamen – hoewel de meeste cosmetische producten gebruiken om de verschijning van gezonde huid te verbeteren, in plaats van zich te laten gaan aan het soort uitvoerende mascara/lippenstift-combinaties meer geassocieerd met de visuele esthetiek van vrouwen.
Dus kunnen we niet anders dan het materiaal dat in dit artikel wordt bestudeerd, behandelen langs de lijnen van het meest voorkomende scenario dat in nieuw onderzoek wordt onderzocht – dat van minderjarige meisjes die make-up gebruiken om geautomatiseerde visuele leeftijdsverificatiesystemen te omzeilen.
Effectieve make-upverwijdering – De AI-manier
Het onderzoek dat hierboven wordt genoemd, komt van drie bijdragers aan de New York University, in de vorm van het nieuwe paper DiffClean: Diffusion-based Makeup Removal for Accurate Age Estimation.
Het doel van het project is om een AI-gestuurde methode te bereiken om de verschijning van make-up uit beelden te verwijderen (potentieel inclusief video-beelden), om een beter idee te krijgen van de ware leeftijd van de persoon achter de make-up.

Uit het nieuwe paper, een voorbeeld van hoe make-upverwijdering de leeftijdsvoorspelling aanzienlijk kan veranderen. Bron: https://arxiv.org/pdf/2507.13292
Een van de uitdagingen bij het ontwikkelen van een dergelijk systeem is de potentiële gevoeligheid rond het verzamelen of cureren van beelden van minderjarige meisjes met volwassen make-up. Uiteindelijk gebruikten de onderzoekers een derdepartij Generative Adversarial Network-gebaseerd systeem genaamd EleGANt om make-upstijlen kunstmatig op te leggen, een techniek die zeer effectief bleek:

Tsinghua University’s 2022 EleGANt-systeem gebruikt een Generative Adversarial Network (GAN) om cosmetica authentiek op bronfoto’s te superponeren. Bron: https://arxiv.org/pdf/2207.09840
Met de hulp van synthetische gegevens verkregen op deze manier, en met de hulp van een diverse reeks aanvullende projecten en datasets, konden de auteurs de state-of-the-art-methoden in leeftijdschatting overtreffen wanneer geconfronteerd met performante of ‘zichtbare’ make-up.
Het paper vermeldt:
‘DiffClean [verwijdert] make-upsporen met behulp van een tekstgeleid diffusiemodel om make-upaanvallen te weerstaan. [Het] verbetert de leeftijdschatting (minderjarige vs. volwassene-nauwkeurigheid met 4,8%) en gezichtsverificatie (TMR met 8,9% bij FMR=0,01%) ten opzichte van concurrerende baselines op digitaal gesimuleerde en echte make-upbeelden.’
Laten we eens kijken hoe ze deze taak aanpakten.
Methode
Om echte beelden van minderjarigen met make-up te vermijden, gebruikten de auteurs EleGANt om synthetische cosmetica toe te passen op beelden uit de UTKFace-dataset, waardoor voor- en na-paren voor training ontstonden.

Voorbeelden uit de UTKFace-dataset. Bron: https://susanqq.github.io/UTKFace/
DiffClean werd vervolgens getraind om deze transformatie om te keren. Aangezien leeftijdschatting-algoritmen het meest fout gaan bij het omgaan met jongere leeftijdsgroepen, vonden de onderzoekers het noodzakelijk om een proxy-leeftijdsclassificator fine-tuned op de doelleeftijden (10-19 jaar) te ontwikkelen. Hiervoor gebruikten ze de SSRNet-architectuur getraind op UTKFace, met een gewogen L1-verlies.
Een gestripte versie van het diffusiemodel van OpenAI uit 2021 diffusion model vormde de basis voor de transformatie, waarbij de auteurs de kernarchitectuur behielden, maar deze aanpasten met extra aandachtshoofden op diverse resoluties, diepere lagen en BigGAN-stijl-blokken om de upsampling- en downsampling-fasen te verbeteren.
Richtingscontrole werd geïntroduceerd met behulp van CLIP-prompts: specifiek, gezicht met make-up en gezicht zonder make-up, zodat het model leerde om in de gewenste semantische richting te bewegen, waardoor make-up kon worden verwijderd zonder de gezichtsdetails, leeftijdscues of identiteit te schaden.

Synthetische make-up toegepast met behulp van EleGANt. Elke triplet toont het originele UTKFace-beeld (links), de referentie-make-upstijl (midden) en het resultaat na stijltransfer (rechts). Make-uptransfer van deze soort is overvloedig in computerzichtliteratuur, en deze faciliteit is ook beschikbaar in de neurale filters van Adobe Photoshop, die make-up van een referentiebeeld op een doelbeeld kunnen overdragen.
Vier belangrijke verliesfuncties leidden make-upverwijdering zonder de gezichtsidentiteit of leeftijds cues te beïnvloeden. Behalve de hierboven genoemde CLIP-gebaseerde verlies, werd identiteit behouden met een gewogen paar ArcFace-verliezen afgeleid van de InsightFace-bibliotheek – verliezen die de gelijkenis tussen het gegenereerde gezicht en zowel het originele schone beeld als het ‘opgemaakte’ versie maten, waardoor werd gegarandeerd dat het onderwerp visueel consistent bleef voordat en na make-upverwijdering.
Ten derde werd het perceptuele verlies LPIPS gebruikt om pixelniveau-realisme af te dwingen en het algemene uiterlijk van het originele beeld te behouden nadat de make-up was verwijderd.
Ten slotte werd leeftijd gesuperviseerd met behulp van een fine-tuned SSRNet getraind op de UTKFace-dataset, waarbij het model een glad L1-verlies (met zwaardere straffen voor fouten in de leeftijdsgroep 10-29, waar misclassificatie het meest voorkomt) gebruikte. Een variant van het model verving dit met een CLIP-gebaseerde leeftijdsprompt, waardoor het model werd aangezet om de verschijning van een specifieke leeftijd te evenaren.
Voor leeftijdschatting tijdens inferentie (in tegenstelling tot het gebruik van SSRNet tijdens de training), werd het MiVOLO-framework uit 2023 gebruikt.
Gegevens en tests
De SSRNet-fine-tune van UTKFace gebruikte een trainingsset van 15.364 beelden, tegen een testset van 6.701 beelden. De originele 20.000 beelden werden gefilterd om iedereen boven de 70 te verwijderen en vervolgens opnieuw gesplitst in 70:30.
In overeenstemming met de eerder vastgestelde methode door het DiffAM-project uit 2023, vond de training plaats in twee fasen, waarbij de eerste sessie 300 echte make-upbeelden (dit keer een 200/100-splitsing tussen training en validatie) van BeautyGAN’s MT-dataset gebruikte.
Het model werd vervolgens verfijnd met behulp van 300 extra UTKFace-beelden, aangevuld met synthetische make-up via EleGANt. Dit creëerde een definitieve trainingsset van 600 voorbeelden, gekoppeld over vijf referentiestijlen van BeautyGAN. Omdat make-upverwijdering het omzetten van veel make-upstijlen naar één schoon gezicht betreft, richtte de training zich op brede generalisatie in plaats van het dekken van elke mogelijke cosmetische variatie.
De prestaties werden beoordeeld op zowel synthetische als echte beelden. Synthetische tests gebruikten 2.556 Flickr-Faces-HQ-dataset (FFHQ)-beelden, gelijkmatig bemonsterd over negen leeftijdsgroepen onder de 70, en gewijzigd met EleGANt.
Generalisatie werd beoordeeld met behulp van 3.000 beelden uit BeautyFace en 355 uit LADN, die authentieke make-up bevatten.

Voorbeelden uit de BeautyFace-dataset, die de semantische segmentatie laten zien die verschillende gebieden van het beïnvloede gezichtsoppervlak definieert. Bron: https://li-chongyi.github.io/BeautyREC_files/
Metrieken en implementatie
Voor metrieken werden Mean Absolute Error (MAE) tussen de grondwaarheid (echte beelden met feitelijke leeftijden vastgesteld) en de voorspelde leeftijdsWaarden gebruikt, waarbij lagere resultaten beter zijn; leeftijdsgroepnauwkeurigheid werd gebruikt om te beoordelen of de voorspelde leeftijden in de juiste groepen terechtkwamen (in welk geval lagere resultaten beter zijn); minderjarige/volwassene-nauwkeurigheid werd gebruikt om de juiste identificatie van 18+-personen te beoordelen (waarbij een hoger resultaat beter is).
Bovendien, hoewel het niet centraal staat in het onderwerp in kwestie, melden de auteurs ook identificatieverificatiemetrieken in de vorm van True Match Rate (TMR) en False Match Rate (FMR), met verdere rapportage van gerelateerde Receiver Operating Characteristic (ROC)-waarden.
SSRNet werd fijngesteld op 64×64px-beelden met een batchgrootte van 50 onder de Adam-optimizer met een gewichtsverval van 1e−4, evenals een cosine annealing scheduler en een leeraanpassing van 1e−3 over 200 epochs, met vroege stopzetting.
In tegenstelling tot DiffClean ontving het 256×256px-ingangsbeelden en werd het fijngesteld voor vijf epochs met Adam, bij een grovere leeraanpassing van 4e−3. Sampling gebruikte 40 DDIM-inversiestappen en 6 DDIM-voorwaartse stappen. Alle training vond plaats op één enkele NVIDIA A100 GPU (of het nu 40GB of 80GB VRAM was, werd niet gespecificeerd).
Concurrerende systemen die werden getest, waren CLIP2Protect en het eerder genoemde DiffAM. De auteurs gebruikten ‘matte’ make-upstijlen in de workflow, aangezien dit in CLIP2Protect als een hogere succesratio heeft (hoewel dit een mogelijkheid kan bieden voor diegenen die deze aanpak proberen te omzeilen – maar dat is een kwestie voor een andere keer).
Om DiffAM als baseline te repliceren, werd het voorgetrainde model van BeautyGAN fijngesteld op de MT-dataset. Voor adversariële make-uptransfer werd het checkpoint van DiffAM gebruikt met standaardparameters voor het doelmodel, referentiebeeld en identiteit.

Prestaties van DiffClean in vergelijking met baselines op leeftijdschattingstaken, met behulp van MiVOLO. De gemelde metrieken zijn minderjarige/volwassene-classificatie, leeftijdsgroepnauwkeurigheid en gemiddelde absolute fout (MAE). DiffClean met CLIP-leeftijdsverlies behaalt de beste resultaten over alle metrieken.
Van deze resultaten stellen de auteurs:
‘Onze methode DIFFCLEAN presteert beter dan beide baselines, CLIP2Protect en DiffAM, en kan de leeftijds cues die door make-up worden verstoord, succesvol herstellen door de MAE (tot 5,71) te verlagen en de algehele leeftijdsgroepvoorspellingnauwkeurigheid (tot 37%) te verbeteren.’
‘Ons doel was gericht op minderjarige leeftijdsgroepen, en de resultaten geven aan dat we een superieure minderjarige vs. volwassene-leeftijdsclassificatie van 88,6% bereiken.’

Make-upverwijderingsresultaten van baseline- en voorgestelde methoden. De linkerste kolom toont bronbeelden, de volgende uitvoer van CLIP2Protect en DiffAM. De derde kolom toont resultaten van DiffClean via SSRNet en CLIP-gebaseerd leeftijdsverlies. De auteurs beweren dat DiffClean make-up effectiever verwijdert, zonder de functievervorming die wordt aangetroffen in CLIP2Protect en de resterende cosmetica die door DiffAM wordt gemist.
De auteurs merken verder op dat make-up geen uniform effect op de waargenomen leeftijd heeft, maar kan de schijnbare leeftijd van een gezicht verhogen, verlagen of ongewijzigd laten. Daarom past DiffClean geen ‘algemene reductie’ van de voorspelde leeftijd toe, maar probeert het in plaats daarvan de oorspronkelijke leeftijds cues te herstellen door cosmetische sporen te verwijderen:

Make-upverwijderingsvoorbeelden uit de CelebA-HQ- en CACD-datasets. Elke kolom toont een paar beelden voor (links) en na (rechts) make-upverwijdering. In de eerste kolom neemt de voorspelde leeftijd af na make-upverwijdering; in de tweede blijft deze ongewijzigd; en in de derde neemt deze toe.
Om te testen hoe goed DiffClean presteerde op nieuwe gegevens, werd het uitgevoerd op de BeautyFace- en LADN-datasets, die authentieke make-up bevatten, maar geen gepaarde beelden van dezelfde onderwerpen zonder cosmetica. Leeftijdsvoorspellingen gedaan voor en na make-upverwijdering werden vergeleken, om te beoordelen hoe effectief DiffClean de vertekening die door make-up werd geïntroduceerd, kon verminderen:

Make-upverwijderingsresultaten op echte beelden uit de LADN (linker paar) en BeautyFace (rechter paar) datasets. DiffClean vermindert de voorspelde leeftijden door cosmetica te verwijderen, waardoor de kloof tussen schijnbare en werkelijke leeftijd wordt verkleind. Witte cijfers tonen de geschatte leeftijden voor en na verwerking.
De resultaten toonden aan dat DiffClean consequent de kloof tussen schijnbare en werkelijke leeftijd verkleinde. Over beide datasets verlaagde het de overschatting- en onderschattingfouten met ongeveer drie jaar gemiddeld, wat suggereert dat het systeem goed generaliseert naar echte cosmetische stijlen.
Conclusie
Het is interessant, en misschien onvermijdelijk, dat performante cosmetische make-up op een tegenstrijdige manier zou worden gebruikt. Gezien het feit dat meisjes op verschillende snelheden volwassen worden, maar consistent sneller volwassen worden als groep, kan de taak van het identificeren van de grens tussen minderjarige en volwassen vrouwelijke status een van de meest ambitieuze zijn die de onderzoekssector zich ooit heeft gesteld.
Niettemin kunnen tijd en gegevens uiteindelijk consistente leeftijdsgebonden tekenen bepalen die kunnen worden gebruikt om visuele leeftijdsverificatiesystemen te ondersteunen.
* Aangezien dit onderwerp gevoelige taal uitlokt, en aangezien ‘meisjes’ uitsluitend is (terwijl ‘vrouwen en meisjes’, de momenteel aanvaardbare term voor vrouwelijk-geslachte personen, in dit geval geen accurate beschrijving is), heb ik voor ‘vrouwelijk’ gekozen als de beste compromis die ik kon verzinnen – hoewel het niet alle demografische nuances vangt, waarvoor ik mijn excuses aanbied.
† In dit artikel gebruik ik ‘performant’ om make-up aan te duiden die bedoeld is om te worden gezien en herkend als make-up, zoals mascara, eyeliner, blusher en foundation, in tegenstelling tot verhullende crèmes en andere ‘stille’ soorten cosmetische toepassingen.
Eerst gepubliceerd op vrijdag 18 juli 2025












