Angle d’Anderson
Outil IA qui enlève le maquillage pour empêcher les mineurs de contourner les vérifications d’âge

L’apparence des cosmétiques faciaux permet aux utilisateurs mineurs, principalement des filles, de passer inaperçus des vérifications d’âge basées sur les selfies sur des plateformes telles que les applications de rencontres et les sites de commerce électronique. Un nouvel outil IA remédie à cette faille, en utilisant un modèle discriminatif formé pour effacer le maquillage tout en préservant l’identité, ce qui rend plus difficile pour les mineurs de tromper les systèmes automatisés.
L’utilisation de services de vérification d’âge basés sur les selfies de tiers est en augmentation, notamment en raison d’une impulsion globale générale vers la vérification d’âge en ligne.
Par exemple, dans le nouveau régime d’application que la loi sur la sécurité en ligne du Royaume-Uni oblige maintenant, la vérification d’âge peut être effectuée par une variété de services tiers services, en utilisant diverses méthodes possibles, y compris la vérification visuelle de l’âge, où l’IA est utilisée pour prédire visuellement l’âge de l’utilisateur (généralement à partir de footage de caméra mobile en direct). Les services qui utilisent des approches de ce type incluent Ondato, TrustStamp et Yoti.
Cependant, l’estimation de l’âge n’est pas infaillible, et la détermination traditionnelle des adolescents pour anticiper les droits de l’âge adulte signifie que les jeunes ont développé une variété de méthodes efficaces pour entrer sur des sites de rencontres, des forums et d’autres environnements qui interdisent leur groupe d’âge.
L’une de ces méthodes, la plus couramment utilisée par les filles*, est de porter du maquillage facial – une tactique connue pour tromper les systèmes de estimation d’âge automatisés, qui surestiment généralement l’âge des jeunes et sous-estiment l’âge des personnes âgées.
Non seulement les filles
Avant que les protestations ne surgissent en considérant le maquillage comme « axé sur les filles », nous devons noter que la présence de cosmétiques faciaux sur quelqu’un est un indicateur très peu fiable de genre :

Dans le document ‘Impact of Facial Cosmetics on Automatic Gender and Age Estimation Algorithms’ des chercheurs américains ont constaté que les systèmes de vérification de genre étaient trompés par le maquillage de changement de sexe. Source : https://cse.msu.edu/~rossarun/pubs/ChenCosmeticsGenderAge_VISAPP2014.pdf
En 2024, 72 % des consommateurs masculins américains âgés de 18 à 24 ans étaient estimés à incorporer du maquillage dans leur routine de soins personnels – bien que la plupart utilisent des produits cosmétiques pour améliorer l’apparence d’une peau saine, plutôt que de s’adonner aux combinaisons de mascara/lèvres plus associées à l’esthétique visuelle des femmes.
Nous ne pouvons donc pas nous empêcher de traiter la matière étudiée dans cet article le long des lignes du scénario le plus courant exploré dans les nouvelles recherches – celui des mineures utilisant du maquillage pour contourner les systèmes de vérification visuelle d’âge automatisés.
Suppression de maquillage efficace – La voie IA
La recherche mentionnée ci-dessus provient de trois contributeurs de l’Université de New York, sous la forme du nouvel article DiffClean : suppression de maquillage basée sur la diffusion pour une estimation d’âge précise.
L’objectif du projet est de parvenir à une méthode IA pour supprimer l’apparence du maquillage des images (potentiellement y compris des images vidéo), afin d’obtenir une meilleure idée de l’âge réel de la personne derrière le maquillage.

Extrait du nouvel article, un exemple de la façon dont la suppression de maquillage peut notablement modifier une prédiction d’âge. Source : https://arxiv.org/pdf/2507.13292
L’un des défis du développement d’un tel système est la sensibilité potentielle autour de la collecte ou de la curation d’images de mineures portant du maquillage adulte. Finalement, les chercheurs ont utilisé un système basé sur un réseau antagoniste génératif appelé EleGANt pour imposer artificiellement des styles de maquillage, une technique qui s’est avérée très efficace :

Le système EleGANt de l’Université Tsinghua de 2022 utilise un réseau antagoniste génératif (GAN) pour superposer authentiquement des cosmétiques sur des photos sources. Source : https://arxiv.org/pdf/2207.09840
Avec l’aide de données synthétiques obtenues de cette manière, et avec l’aide d’une gamme diversifiée de projets et de jeux de données auxiliaires, les auteurs ont pu dépasser les méthodes de pointe dans l’estimation de l’âge lorsqu’ils sont confrontés à du maquillage « performant » ou « évident ».
Le document indique :
‘DiffClean [supprime] les traces de maquillage en utilisant un modèle de diffusion guidé par du texte pour se défendre contre les attaques de maquillage. [Il] améliore l’estimation de l’âge (précision mineure par rapport à l’âge adulte de 4,8 %) et la vérification faciale (TMR de 8,9 % à FMR = 0,01 %) sur des images de maquillage numériquement simulées et réelles.’
Examinons comment ils ont abordé la tâche.
Méthode
Pour éviter de puiser dans de vraies images de mineures en maquillage, les auteurs ont utilisé EleGANt pour appliquer des cosmétiques synthétiques à des images provenant du dataset UTKFace, produisant des paires avant et après pour la formation.

Exemples du dataset UTKFace. Source : https://susanqq.github.io/UTKFace/
DiffClean a ensuite été formé pour inverser cette transformation. Puisque les algorithmes d’estimation de l’âge se trompent le plus lorsqu’ils traitent de groupes d’âge plus jeunes, les chercheurs ont trouvé nécessaire de développer un classificateur d’âge proxy affiné sur les âges cibles (10-19 ans). À cette fin, ils ont utilisé l’architecture SSRNet formée sur UTKFace, avec une perte L1 pondérée.
Une version simplifiée du modèle de diffusion OpenAI de 2021 a fourni la colonne vertébrale de la transformation, avec les auteurs conservant l’architecture de base, mais en la modifiant avec des têtes d’attention supplémentaires à des résolutions diverses, des couches plus profondes et des blocs de type BigGAN pour améliorer les étapes de suréchantillonnage et de sous-échantillonnage.
Le contrôle directionnel a été introduit en utilisant des invites CLIP : plus précisément, visage avec maquillage et visage sans maquillage, afin que le modèle apprenne à se déplacer dans la direction sémantique souhaitée, permettant de supprimer le maquillage sans compromettre les détails du visage, les indices d’âge ou l’identité.

Maquillage synthétique appliqué en utilisant EleGANt. Chaque triplet montre l’image UTKFace d’origine (à gauche), le style de maquillage de référence (au centre) et le résultat après le transfert de style (à droite). Le transfert de maquillage de ce type est répandu dans la littérature de la vision par ordinateur, et cette fonctionnalité est également disponible dans les filtres neuronaux d’Adobe Photoshop, qui peuvent de la même manière imposer du maquillage à partir d’une image de référence sur une image cible.
Quatre fonctions de perte clés guidaient la suppression du maquillage sans affecter l’identité faciale ou les indices d’âge. Outre la perte CLIP basée sur la perte mentionnée ci-dessus, l’identité a été préservée en utilisant une paire pondérée de pertes ArcFace tirées de la bibliothèque InsightFace – des pertes qui mesuraient la similarité entre le visage généré et à la fois l’image propre d’origine et la version « maquillée », en veillant à ce que le sujet reste visuellement cohérent avant et après la suppression du maquillage.
Troisièmement, la perte perceptive Learned Perceptual Similarity Metrics (LPIPS) a utilisé la distance L1 pour imposer la réalisme au niveau des pixels et conserver l’apparence générale de l’image d’origine après que le maquillage ait été supprimé.
Enfin, l’âge a été supervisé en utilisant un classificateur d’âge SSRNet affiné sur le dataset UTKFace, avec le modèle utilisant une perte L1 lissée (avec des pénalités plus lourdes pour les erreurs dans la plage d’âge de 10 à 29 ans, où la fausse classification est la plus courante). Une variante du modèle a remplacé cela par une invite d’âge basée sur CLIP, en invitant le modèle à correspondre à l’apparence d’un âge spécifique.
Pour l’estimation de l’âge au moment de l’inférence (par opposition à l’utilisation de SSRNet au moment de la formation), le cadre MiVOLO de 2023 a été utilisé.
Données et tests
Le réglage fin de UTKFace a employé un ensemble de formation de 15 364 images, contre un ensemble de test de 6 701 images. Les 20 000 images d’origine ont été filtrées pour supprimer toute personne âgée de plus de 70 ans, puis divisées à 70:30.
Conformément à la méthode antérieure établie par le projet DiffAM de 2023, la formation a ensuite procédé en deux étapes, avec la session initiale utilisant 300 images de maquillage du monde réel (cette fois une division de 200/100 entre la formation et la validation) à partir du dataset MT de BeautyGAN.
Le modèle a ensuite été affiné en utilisant 300 images UTKFace supplémentaires, augmentées de maquillage synthétique via EleGANt. Cela a créé un ensemble de formation final de 600 exemples, appariés sur cinq styles de référence à partir de BeautyGAN. Puisque la suppression du maquillage implique de mapper de nombreux styles de maquillage à un seul visage propre, la formation s’est concentrée sur une généralisation large plutôt que sur la couverture de toutes les variations cosmétiques possibles.
Les performances ont été évaluées sur des images synthétiques et du monde réel. Les tests synthétiques ont utilisé 2 556 images du dataset Flickr-Faces-HQ (FFHQ), échantillonnées uniformément sur neuf groupes d’âge inférieurs à 70, et modifiées avec EleGANt.
La généralisation a été évaluée en utilisant 3 000 images de BeautyFace et 355 de LADN, qui contiennent tous deux du maquillage authentique.

Exemples du dataset BeautyFace, montrant la segmentation sémantique qui définit diverses zones de surface faciale affectée. Source : https://li-chongyi.github.io/BeautyREC_files/
Métriques et mise en œuvre
Pour les métriques, les auteurs ont utilisé l’erreur absolue moyenne (MAE) entre la vérité terrain (images réelles avec des âges établis) et les valeurs d’âge prédites, où des résultats plus faibles sont meilleurs ; la précision du groupe d’âge a été utilisée pour évaluer si les âges prédits se sont retrouvés dans les groupes corrects (dans ce cas, des résultats plus faibles sont meilleurs) ; la précision mineure/majeure a été utilisée pour évaluer l’identification correcte des personnes de 18 ans et plus (dans ce cas, un résultat plus élevé est meilleur).
De plus, même si cela ne concerne pas spécifiquement le sujet en question, les auteurs rapportent également des métriques de vérification d’identité sous la forme d’un taux de correspondance réel (TMR) et d’un taux de correspondance fausse (FMR), avec un rapport supplémentaire de valeurs de courbe ROC connexes.
SSRNet a été affiné sur des images de 64×64 px en utilisant une taille de lot de 50 sous l’optimiseur Adam avec une décroissance de poids de 1e-4, ainsi qu’un planificateur d’annealing cosinus, et un taux d’apprentissage de 1e-3 sur 200 époques, avec arrêt anticipé.
Par contre, le module DiffClean a reçu des images d’entrée de 256×256 px, et a été affiné pendant cinq époques en utilisant Adam, à un taux d’apprentissage plus grossier de 4e-3. L’échantillonnage a utilisé 40 étapes d’inversion DDIM, et 6 étapes DDIM avant. Toutes les formations ont été effectuées sur une seule carte graphique NVIDIA A100 (que la quantité de VRAM soit de 40 Go ou 80 Go n’a pas été spécifiée).
Les systèmes concurrents testés étaient CLIP2Protect et le DiffAM mentionné précédemment. Les auteurs ont utilisé des styles de maquillage « mates » dans le flux de travail, car cela a été noté dans CLIP2Protect comme réalisant un taux de réussite plus élevé (ce qui présume une voie d’opportunité pour ceux qui cherchent à vaincre cette approche – mais cela relève d’un autre sujet).
Pour reproduire DiffAM en tant que référence, le modèle préformé de BeautyGAN a été affiné sur le dataset MT. Pour le transfert de maquillage antagoniste, le point de contrôle de DiffAM a été utilisé avec des paramètres par défaut pour le modèle cible, l’image de référence et l’identité.

Performances de DiffClean par rapport aux références sur les tâches d’estimation d’âge, en utilisant MiVOLO. Les métriques signalées sont la précision de classification mineure/majeure, la précision du groupe d’âge et l’erreur absolue moyenne (MAE). DiffClean avec la perte d’âge CLIP atteint les meilleurs résultats dans tous les métriques.
Sur ces résultats, les auteurs déclarent :
‘Notre méthode DIFFCLEAN surpasse les deux références, CLIP2Protect et DiffAM, et peut avec succès restaurer les indices d’âge perturbés en raison du maquillage en réduisant l’erreur absolue moyenne (à 5,71) et en améliorant la précision globale de prédiction du groupe d’âge (à 37 %).’
‘Notre objectif s’est concentré sur les groupes d’âge mineurs, et les résultats indiquent que nous atteignons une classification d’âge mineure/majeure supérieure de 88,6 %.’

Résultats de suppression de maquillage des méthodes de référence et proposées. La colonne la plus à gauche montre les images sources, la suivante les sorties de CLIP2Protect et DiffAM. La troisième colonne montre les résultats de DiffClean via SSRNet et la perte d’âge basée sur CLIP. Les auteurs soutiennent que DiffClean supprime le maquillage plus efficacement, en évitant la distorsion des fonctionnalités observée dans CLIP2Protect et les cosmétiques résiduels manqués par DiffAM.
Les auteurs notent en outre que le maquillage n’a pas d’effet uniforme sur l’âge perçu, mais peut augmenter, diminuer ou laisser inchangé l’âge apparent d’un visage. Par conséquent, DiffClean n’applique pas une « réduction globale » de l’âge prédit, mais tente plutôt de récupérer les véritables indices d’âge en supprimant les traces de maquillage :

Exemples de suppression de maquillage des datasets CelebA-HQ et CACD. Chaque colonne montre une paire d’images avant (à gauche) et après (à droite) la suppression du maquillage. Dans la première colonne, l’âge prédit diminue après la suppression du maquillage ; dans la deuxième, il reste inchangé ; et dans la troisième, il augmente.
Pour tester combien bien DiffClean se comportait sur des données nouvelles, il a été exécuté sur les datasets BeautyFace et LADN, qui contiennent du maquillage authentique, mais pas d’images appariées des mêmes sujets sans cosmétiques. Les prédictions d’âge faites avant et après la suppression du maquillage ont été comparées, pour évaluer combien efficacement DiffClean réduisait la distorsion introduite par le maquillage :

Résultats de suppression de maquillage sur des images du monde réel des datasets LADN (paire de gauche) et BeautyFace (paire de droite). DiffClean réduit les âges prédits en supprimant les cosmétiques, en réduisant l’écart entre l’âge apparent et l’âge réel. Les nombres blancs montrent les âges estimés avant et après le traitement.
Les résultats ont montré que DiffClean réduit de manière cohérente l’écart entre l’âge apparent et l’âge réel. Sur les deux datasets, il a réduit les erreurs de surestimation et de sous-estimation de environ trois ans en moyenne, suggérant que le système se généralise bien aux styles cosmétiques du monde réel.
Conclusion
Il est intéressant, et peut-être inévitable, que le maquillage cosmétique « performant » soit utilisé de manière antagoniste. Étant donné que les filles mûrissent à des rythmes différents, mais mûrissent de manière cohérente plus rapidement en tant que groupe, la tâche d’identifier le seuil entre le statut mineur et adulte féminin peut être l’une des plus ambitieuses que la scène de la recherche s’est encore fixée.
Néanmoins, le temps et les données détermineront peut-être finalement des signes d’âge cohérents qui peuvent être utilisés pour ancrer les systèmes de vérification visuelle d’âge.
* Puisque ce sujet invite un langage chargé, et puisque « filles » est exclusif (alors que « femmes et filles », le terme actuellement acceptable pour les personnes de genre féminin, n’est pas une description précise dans ce cas), j’ai opté pour « femelles » comme le meilleur compromis que j’ai pu concevoir – bien qu’il ne capture pas toutes les subtilités démographiques, pour lesquelles je m’excuse.
† Dans cet article, j’utilise « performant » pour indiquer du maquillage destiné à être vu et reconnu en tant que maquillage, tel que le mascara, le crayon à yeux, le fard et la fondation, par opposition aux applications cosmétiques « furtives » telles que les crèmes de dissimulation et autres types d’applications cosmétiques.
Publié pour la première fois vendredi 18 juillet 2025












