Vernetzen Sie sich mit uns

Andersons Blickwinkel

KI-Tool entfernt Make-up, um zu verhindern, dass Minderjährige Altersprüfungen umgehen

mm
Flux, SDXL, Photoshop-Neuralfilter, Firefly, Krita usw.

Das Auftauchen von Gesichtskosmetik führt dazu, dass minderjährige Nutzer, meist Mädchen, Selfie-basierte Altersprüfungen auf Plattformen wie Dating-Apps und E-Commerce-Websites umgehen können. Ein neues KI-Tool schließt diese Lücke. Es verwendet ein diskriminierendes Modell, das Make-up entfernt und gleichzeitig die Identität bewahrt. Dadurch wird es für Minderjährige schwieriger, automatisierte Systeme auszutricksen.

 

Die Nutzung von Altersverifizierungsdiensten Dritter auf Basis von Selfies nimmt zu, nicht zuletzt aufgrund einer allgemeine globale Impulse hin zu einer Online-Altersverifizierung.

Zum Beispiel in der neuen Durchsetzungsregelung, die der britische Online Safety Act jetzt MandateDie Altersüberprüfung kann durch eine Vielzahl von Drittanbietern durchgeführt werden Leistungen, unter Verwendung verschiedener möglicher Methoden, inklusive optischer Altersverifizierung, bei dem KI verwendet wird, um das Alter des Nutzers visuell vorherzusagen (in der Regel anhand von Live-Aufnahmen mobiler Kameras). Zu den Diensten, die solche Ansätze verwenden, gehören Ondato, Vertrauensstempelund Yoti.

Allerdings ist die Altersschätzung nicht unfehlbar, und die traditionelle Entschlossenheit der Teenager, die Rechte des Erwachsenenalters vorwegzunehmen, bedeutet, dass junge Menschen eine Vielzahl wirksamer Methoden Dating-Sites, Foren und andere Umgebungen zu betreten, die ihre Altersgruppe ausschließen.

Eine dieser Methoden, die am häufigsten von Frauen* verwendet wird, ist das Tragen von Gesichts-Make-up – eine Taktik bekannt zum Narren automatisierte Altersschätzungssysteme, die das Alter junger Menschen im Allgemeinen überschätzen und das Alter unterschätzen älterer Menschen.

Nicht nur die Mädchen

Bevor Proteste gegen die Vorstellung aufkommen, dass Make-up „auf Frauen ausgerichtet“ sei, müssen wir feststellen, dass die Anwesenheit von Gesichtskosmetik auf jemand ist eine sehr unzuverlässiger Indikator des Geschlechts:

In der Studie „Impact of Facial Cosmetics on Automatic Gender and Age Estimation Algorithms“ stellten US-Forscher fest, dass Systeme zur Geschlechtsverifizierung durch geschlechtsveränderndes Make-up manipuliert wurden. Quelle: https://cse.msu.edu/~rossarun/pubs/ChenCosmeticsGenderAge_VISAPP2014.pdf

In der Arbeit „Impact of Facial Cosmetics on Automatic Gender and Age Estimation Algorithms“ stellten US-Forscher fest, dass Systeme zur Geschlechtsverifizierung durch geschlechtsumwandelndes Make-up manipuliert wurden. Quelle: https://cse.msu.edu/~rossarun/pubs/ChenCosmeticsGenderAge_VISAPP2014.pdf

Im Jahr 2024 waren 72 % der männlichen US-Konsumenten im Alter zwischen 18 und 24 Jahren geschätzt Make-up in ihre Pflegeroutine zu integrieren – obwohl die meisten Kosmetikprodukte verwenden, um das Aussehen gesunder Haut zu verbessern, anstatt sich der Art von performativem Mascara/Lippenstift-Kombinationen assoziierter mit der visuellen Ästhetik von Frauen.

Wir können daher nicht anders, als das in diesem Artikel untersuchte Material anhand des in neueren Forschungsarbeiten am häufigsten untersuchten Szenarios zu behandeln: dem Szenario, in dem minderjährige Mädchen Make-up verwenden, um automatisierte visuelle Altersverifizierungssysteme zu unterlaufen.

Effektives Make-up-Entfernen – mit KI

Die oben erwähnte Forschung stammt von drei Mitarbeitern der New York University, in Form der neues Papier DiffClean: Diffusionsbasierte Make-up-Entfernung für eine genaue Altersbestimmung.

Ziel des Projekts ist die Entwicklung einer KI-gestützten Methode zur Entfernung von Make-up aus Bildern (ggf. auch Videobildern), um eine bessere Vorstellung vom wahren Alter der Person hinter dem Make-up zu erhalten.

Aus dem neuen Artikel: Ein Beispiel für das Abschminken. Quelle: https://arxiv.org/pdf/2507.13292

Aus dem neuen Artikel geht ein Beispiel hervor, wie das Entfernen von Make-up eine Altersvorhersage deutlich verändern kann. Quelle: https://arxiv.org/pdf/2507.13292

Eine der Herausforderungen bei der Entwicklung eines solchen Systems ist die potenzielle Sensibilität bei der Erfassung oder Kuratierung von Bildern minderjähriger Mädchen mit Erwachsenen-Make-up. Letztendlich verwendeten die Forscher ein auf Generative Adversarial Networks basierendes System eines Drittanbieters namens Elegant um Make-up-Stile künstlich aufzuzwingen, eine Technik, die sich als sehr effektiv erwies:

Das EleGANt-System der Tsinghua-Universität (2022) nutzt Generative Adversarial Networks (GANs), um Originalfotos authentisch mit kosmetischen Elementen zu überlagern. Quelle: https://arxiv.org/pdf/2207.09840

Das EleGANt-System 2022 der Tsinghua-Universität verwendet ein Generative Adversarial Network (GAN), um Kosmetika authentisch auf Quellfotos zu projizieren. Quelle: https://arxiv.org/pdf/2207.09840

Mithilfe der auf diese Weise gewonnenen synthetischen Daten und einer Vielzahl von Nebenprojekten und Datensätzen gelang es den Autoren, modernste Methoden der Altersbestimmung bei performativem oder „evidentem“ Make-up zu übertreffen.

Das Papier sagt:

„DiffClean [löscht] Make-up-Spuren mithilfe eines textbasierten Diffusionsmodells, um Make-up-Angriffe abzuwehren. [Es] verbessert die Altersschätzung (Genauigkeit Minderjähriger vs. Erwachsener um 4.8 %) und die Gesichtsverifizierung (TMR um 8.9 % bei FMR=0.01 %) gegenüber konkurrierenden Basiswerten auf digital simulierten und echten Make-up-Bildern.“

Schauen wir uns an, wie sie die Aufgabe angegangen sind.

Methodik

Um zu vermeiden, dass es sich bei der Quelle um echte Bilder von Minderjährigen mit Make-up handelt, verwendeten die Autoren EleGANt, um synthetische Kosmetika auf Bilder anzuwenden, die aus dem UTKGesicht Datensatz, der Vorher-Nachher-Paare für das Training erstellt.

Beispiele aus dem UTKFace-Datensatz. Quelle: https://susanqq.github.io/UTKFace/

Beispiele aus dem UTKFace-Datensatz. Quelle: https://susanqq.github.io/UTKFace/

DiffClean wurde dann trainiert, diese Transformation rückgängig zu machen. Da Altersschätzungsalgorithmen bei jüngeren Altersgruppen am häufigsten Fehler machen, hielten es die Forscher für notwendig, einen Proxy-Altersklassifizierer zu entwickeln. fein abgestimmt auf die Zielgruppe (10-19 Jahre). Zu diesem Zweck nutzten sie die SSRNet Architektur trainiert auf UTKFace, mit einer gewichteten L1-Verlust.

Eine abgespeckte Version der OpenAI 2021 Diffusionsmodell bildete das Rückgrat der Transformation, wobei die Autoren die Kernarchitektur beibehielten, sie aber mit zusätzlichen Aufmerksamkeitsköpfe in unterschiedlichen Auflösungen, tieferen Schichten und BigGAN-Stilblöcke zur Verbesserung der Upsampling- und Downsampling-Phasen.

Die Richtungssteuerung wurde eingeführt durch CLIP Eingabeaufforderungen: insbesondere Gesicht mit Make-up und Gesicht ohne Make-up, sodass das Modell lernte, sich in die gewünschte semantische Richtung zu bewegen, wodurch das Make-up entfernt werden konnte, ohne Gesichtsdetails, Altershinweise oder Identität zu beeinträchtigen.

Synthetisches Make-up, aufgetragen mit EleGANt. Jedes Tripel zeigt das Originalbild von UTKFace (links), den Referenz-Make-up-Stil (Mitte) und das Ergebnis nach der Stilübertragung (rechts).

Synthetisches Make-up, aufgetragen mit EleGANt. Jedes Tripel zeigt das ursprüngliche UTKFace-Bild (links), den Referenz-Make-up-Stil (Mitte) und das Ergebnis nach Stilübertragung (rechts). Make-up-Übertragungen dieser Art sind in der Computer-Vision-Literatur weit verbreitet und bieten diese Funktion auch in den neuronalen Filtern von Adobe Photoshop, die auf ähnliche Weise Make-up von einem Referenzbild auf ein Zielbild übertragen können.

Vier Schlüssel Verlustfunktionen Geführte Make-up-Entfernung, ohne die Gesichtsidentität oder Altersmerkmale zu beeinträchtigen. Neben dem oben erwähnten CLIP-basierten Verlust wurde die Identität mithilfe eines gewichteten Paars von ArcFace Verluste aus der InsightFace Bibliothek – Verluste, die die Ähnlichkeit zwischen dem generierten Gesicht und sowohl dem ursprünglichen sauberen Bild als auch der „geschminkten“ Version maßen und sicherstellten, dass das Motiv vor und nach dem Entfernen des Make-ups optisch konsistent blieb.

Drittens der Wahrnehmungsverlust Erlernte Wahrnehmungsähnlichkeitsmetriken (LPIPS) verwendete L1-Distanz, um Realismus auf Pixelebene zu erzwingen und das Gesamtbild des Originalbilds beizubehalten, nachdem das Make-up entfernt wurde.

Schließlich wurde das Alter mithilfe eines fein abgestimmten SSRNet überwacht, das mit dem UTKFace-Datensatz trainiert wurde. Das Modell verwendete dabei einen geglätteten L1-Verlust (mit höheren Strafen für Fehler im Altersbereich von 10 bis 29 Jahren, wo Fehlklassifizierungen am häufigsten vorkommen). Eine Variante des Modells ersetzte dies durch eine CLIP-basierte Altersabfrage, die das Modell dazu veranlasste, das Erscheinungsbild eines bestimmten Alters abzugleichen.

Für die Altersschätzung zum Zeitpunkt der Inferenz (im Gegensatz zur Verwendung von SSRNet zum Zeitpunkt des Trainings) ist die 2023 MiVOLO Rahmen wurde verwendet.

Daten und Tests

Die SSRNet-Feinabstimmung von UTKFace verwendete einen Trainingssatz von 15,364 Bildern, gegenüber einem Test-Set von 6,701 Bildern. Die ursprünglichen 20,000 Bilder wurden gefiltert, um alle über 70-Jährigen zu entfernen, und dann ebenfalls im Verhältnis 70:30 aufgeteilt.

In Übereinstimmung mit der bisherigen Methode, die im Jahr 2023 festgelegt wurde DiffAM Im Rahmen des Projekts wurde das Training in zwei Phasen durchgeführt. In der ersten Sitzung wurden 300 reale Make-up-Bilder (diesmal eine 200/100-Aufteilung zwischen Training und Validierung) von BeautyGAN verwendet. MT-Datensatz.

Das Modell wurde anschließend mithilfe von 300 zusätzlichen UTKFace-Bildern und synthetischem Make-up von EleGANt weiter verfeinert. Dadurch entstand ein finaler Trainingssatz mit 600 Beispielen, gepaart mit fünf Referenzstilen von BeautyGAN. Da beim Abschminken viele Make-up-Stile auf ein einzelnes sauberes Gesicht abgebildet werden müssen, konzentrierte sich das Training auf breite Verallgemeinerung anstatt jede mögliche kosmetische Variation abzudecken.

Die Leistung wurde sowohl anhand synthetischer als auch realer Bilder bewertet. Für synthetische Tests wurden 2,556 Flickr-Faces-HQ Datensatzbilder (FFHQ), gleichmäßig über neun Altersgruppen unter 70 Jahren verteilt und mit EleGANt modifiziert.

Die Generalisierung wurde anhand von 3,000 Bildern aus SchönheitGesicht und 355 von LADN, beide enthalten authentisches Make-up.

Beispiele aus dem BeautyFace-Datensatz, die die semantische Segmentierung veranschaulichen, die verschiedene Bereiche der betroffenen Gesichtsoberfläche definiert. Quelle: https://li-chongyi.github.io/BeautyREC_files/

Beispiele aus dem BeautyFace-Datensatz, die die semantische Segmentierung veranschaulichen, die verschiedene Bereiche der betroffenen Gesichtsoberfläche definiert. Quelle: https://li-chongyi.github.io/BeautyREC_files/

Metriken und Implementierung

Als Messgrößen verwendeten die Autoren Mittlerer absoluter Fehler (MAE) zwischen der Grundwahrheit (echte Bilder mit ermittelten tatsächlichen Alterswerten) und den vorhergesagten Alterswerten, wobei niedrigere Ergebnisse besser sind; Genauigkeit der Altersgruppe wurde verwendet, um zu beurteilen, ob die vorhergesagten Altersgruppen in den richtigen Gruppen landeten (in diesem Fall sind niedrigere Ergebnisse besser); die Genauigkeit bei Minderjährigen/Erwachsenen wurde verwendet, um die korrekte Identifizierung von Personen ab 18 Jahren zu beurteilen (wobei ein höheres Ergebnis besser ist).

Darüber hinaus berichten die Autoren, obwohl sie sich nicht auf das jeweilige Thema konzentrieren, auch über Identitätsüberprüfungsmetriken in Form von True Match Rate (TMR) und False Match Rate (FMR), mit weiteren Berichten über verwandte Betriebseigenschaften des Empfängers (ROC)-Werte.

SSRNet wurde auf 64×64px Bilder optimiert mit einem Losgröße von 50 unter dem Marcus Optimierer mit einem Gewichtsverlust von 1e−4, sowie eine Cosinus-Annealing-Schedulerund eine Lernrate von 1e−3 über 200 Epochen, mit frühes Anhalten.

Im Gegensatz dazu erhielt das DiffClean-Modul 256×256px große Eingabebilder und wurde für fünf Epochen mit Adam mit einer gröberen Lernrate von 4e−3 feinabgestimmt. Die Stichprobennahme erfolgte mit 40 DDIM-Inversion Schritte und 6 DDIM-Vorwärtsschritte. Das gesamte Training wurde auf einer einzelnen NVIDIA A100 GPU durchgeführt (ob mit 40 GB oder 80 GB VRAM wurde nicht angegeben).

Die getesteten Konkurrenzsysteme waren CLIP2Protect und das bereits erwähnte DiffAM. Die Autoren verwendeten im Arbeitsablauf „matte“ Make-up-Stile, da dies laut CLIP2Protect eine höhere Erfolgsquote erzielte (was vermutlich eine Möglichkeit für diejenigen bietet, die diesen Ansatz zunichtemachen wollen – aber das ist ein Thema für ein anderes Mal).

Um DiffAM als Basis zu replizieren, wurde das vortrainierte Modell von BeautyGAN anhand des MT-Datensatzes optimiert. Für die Übertragung des kontradiktorischen Make-ups wurde der Checkpoint von DiffAM mit Standardparametern für Zielmodell, Referenzbild und Identität verwendet.

Leistung von DiffClean im Vergleich zu Basiswerten bei Altersschätzungsaufgaben mit MiVOLO. Die gemeldeten Messgrößen sind die Genauigkeit der Klassifizierung Minderjähriger/Erwachsener, die Genauigkeit der Altersgruppe und der mittlere absolute Fehler (MAE). DiffClean mit CLIP-Altersverlust erzielt über alle Messgrößen hinweg die besten Ergebnisse.

Leistung von DiffClean im Vergleich zu Basiswerten bei Altersschätzungsaufgaben mit MiVOLO. Die gemeldeten Messgrößen sind die Genauigkeit der Klassifizierung Minderjähriger/Erwachsener, die Genauigkeit der Altersgruppe und der mittlere absolute Fehler (MAE). DiffClean mit CLIP-Altersverlust erzielt über alle Messgrößen hinweg die besten Ergebnisse.

Zu diesen Ergebnissen geben die Autoren an:

„[Unsere] Methode DIFFCLEAN übertrifft beide Basiswerte, CLIP2Protect und DiffAM, und kann die durch Make-up gestörten Altershinweise erfolgreich wiederherstellen, indem sie den MAE senkt (auf 5.71) und die allgemeine Genauigkeit der Altersgruppenvorhersage verbessert (auf 37 %).

„Unser Ziel war die Altersgruppe der Minderjährigen, und die Ergebnisse zeigen, dass wir eine bessere Altersklassifizierung der Minderjährigen im Vergleich zu den Erwachsenen von 88.6 % erreichen.“

Ergebnisse der Make-up-Entfernung mit Basis- und vorgeschlagenen Methoden. Die linke Spalte zeigt die Quellbilder, die nächsten Ergebnisse von CLIP2Protect und DiffAM. Die dritte Spalte zeigt die Ergebnisse von DiffClean über SSRNet und CLIP-basierten Altersverlust. Die Autoren behaupten, dass DiffClean Make-up effektiver entfernt und die in CLIP2Protect beobachtete Gesichtsverzerrung sowie die von DiffAM übersehenen kosmetischen Reste vermeidet.

Ergebnisse der Make-up-Entfernung mit Basis- und vorgeschlagenen Methoden. Die linke Spalte zeigt die Quellbilder, die nächsten Ergebnisse von CLIP2Protect und DiffAM. Die dritte Spalte zeigt die Ergebnisse von DiffClean über SSRNet und CLIP-basierten Altersverlust. Die Autoren behaupten, dass DiffClean Make-up effektiver entfernt und die in CLIP2Protect beobachtete Gesichtsverzerrung sowie die von DiffAM übersehenen kosmetischen Reste vermeidet.

Die Autoren weisen außerdem darauf hin, dass Make-up keinen einheitlichen Einfluss auf das wahrgenommene Alter hat, sondern das scheinbare Alter eines Gesichts eher erhöhen, verringern oder unverändert lassen kann. Daher führt DiffClean keine pauschale Reduzierung des vorhergesagten Alters durch, sondern versucht, die ursprünglichen Altersindikatoren durch die Entfernung kosmetischer Spuren wiederherzustellen:

Beispiele für das Abschminken aus den Datensätzen CelebA-HQ und CACD. Jede Spalte zeigt ein Bildpaar vor (links) und nach (rechts) dem Abschminken. In der ersten Spalte sinkt das prognostizierte Alter nach dem Abschminken; in der zweiten bleibt es unverändert; in der dritten steigt es an.

Beispiele für das Abschminken aus den Datensätzen CelebA-HQ und CACD. Jede Spalte zeigt ein Bildpaar vor (links) und nach (rechts) dem Abschminken. In der ersten Spalte sinkt das prognostizierte Alter nach dem Abschminken; in der zweiten bleibt es unverändert; in der dritten steigt es an.

Um die Leistung von DiffClean bei neuen Daten zu testen, wurde es mit den Datensätzen BeautyFace und LADN durchgeführt. Diese enthalten authentisches Make-up, aber keine gepaarten Bilder derselben Personen ohne Make-up. Altersvorhersagen vor und nach dem Abschminken wurden verglichen, um zu beurteilen, wie effektiv DiffClean die durch Make-up verursachte Verzerrung reduzierte:

Ergebnisse der Make-up-Entfernung auf realen Bildern aus den Datensätzen LADN (linkes Paar) und BeautyFace (rechtes Paar). DiffClean reduziert das vorhergesagte Alter durch Entfernen von Kosmetika und verringert so die Lücke zwischen scheinbarem und tatsächlichem Alter. Weiße Zahlen zeigen das geschätzte Alter vor und nach der Verarbeitung.

Ergebnisse der Make-up-Entfernung auf realen Bildern aus den Datensätzen LADN (linkes Paar) und BeautyFace (rechtes Paar). DiffClean reduziert das vorhergesagte Alter durch Entfernen von Kosmetika und verringert so die Lücke zwischen scheinbarem und tatsächlichem Alter. Weiße Zahlen zeigen das geschätzte Alter vor und nach der Verarbeitung.

Die Ergebnisse zeigten, dass DiffClean die Lücke zwischen scheinbarem und tatsächlichem Alter kontinuierlich verringerte. Über beide Datensätze hinweg reduzierte es die Über- und Unterschätzungsfehler im Durchschnitt um etwa drei Jahre. Dies deutet darauf hin, dass sich das System gut auf reale Kosmetikstile übertragen lässt.

Fazit

Es ist interessant und vielleicht unvermeidlich, dass performatives Make-up in einer kontroversen Weise eingesetzt wird. Angesichts der Tatsache, dass Mädchen unterschiedlich schnell reifen, aber durchweg schneller reifen Die Aufgabe, den Übergang zwischen dem Status einer minderjährigen und einer erwachsenen Frau zu bestimmen, dürfte für die Forschergruppe eine der ehrgeizigsten sein, die sie sich bisher gestellt haben.

Dennoch könnten sich mit der Zeit und mithilfe der Daten letztendlich einheitliche altersbezogene Merkmale herauskristallisieren, die zur Verankerung visueller Altersverifizierungssysteme verwendet werden können.

 

* Da dieses Thema zu einer aufgeladenen Sprache einlädt und „Mädchen“ ausgrenzend ist (während „Frauen und Mädchen“, die derzeit übliche Bezeichnung für Menschen weiblichen Geschlechts, in diesem Fall keine zutreffende Beschreibung darstellt), habe ich mich für „weiblich“ entschieden, da dies der beste Kompromiss ist, den ich mir ausdenken konnte – obwohl dies nicht alle demografischen Feinheiten erfasst, wofür ich mich entschuldige.

In diesem Artikel verwende ich den Begriff „performativ“, um Make-up zu bezeichnen, das als solches gesehen und erkannt werden soll, wie etwa Mascara, Eyeliner, Rouge und Grundierung, im Gegensatz zu Abdeckcremes und anderen „heimlichen“ Arten kosmetischer Anwendungen.

Erstveröffentlichung: Freitag, 18. Juli 2025

Autor zum Thema maschinelles Lernen, Fachspezialist für die Synthese menschlicher Bilder. Ehemaliger Leiter für Forschungsinhalte bei Metaphysic.ai.
Persönliche Seite: martinanderson.ai
Kontakt: [E-Mail geschützt]
Twitter: @manders_ai