Connect with us

Herramienta de IA elimina maquillaje para evitar que menores evadan controles de edad

Ángulo de Anderson

Herramienta de IA elimina maquillaje para evitar que menores evadan controles de edad

mm
Flux, SDXL, Photoshop Neural filters, Firefly, Krita et al.

La apariencia de cosméticos faciales está permitiendo que usuarios menores de edad, en su mayoría niñas, se deslicen por controles de edad basados en selfies en plataformas como aplicaciones de citas y sitios de comercio electrónico. Una nueva herramienta de IA aborda esta laguna, utilizando un modelo discriminatorio entrenado para borrar el maquillaje mientras conserva la identidad, lo que hace que sea más difícil para los menores engañar a los sistemas automatizados.

 

El uso de servicios de verificación de edad basados en selfies de terceros está en aumento, no solo debido a un impulso global general hacia la verificación de edad en línea.

Por ejemplo, en el nuevo régimen de aplicación que la Ley de Seguridad en Línea del Reino Unido ahora exige, la verificación de edad puede realizarse mediante una variedad de servicios de terceros servicios, que utilizan varios métodos posibles, incluyendo la verificación visual de la edad, donde se utiliza la IA para predecir visualmente la edad del usuario (generalmente a partir de footage de cámara móvil en vivo). Los servicios que utilizan enfoques de este tipo incluyen Ondato, TrustStamp y Yoti.

Sin embargo, la estimación de la edad no es infalible, y la determinación tradicional de los adolescentes para anticipar los derechos de la edad adulta significa que los jóvenes han desarrollado una variedad de métodos efectivos para ingresar a sitios de citas, foros y otros entornos que prohíben su grupo de edad.

Uno de estos métodos, utilizado más comúnmente por las mujeres*, es el uso de maquillaje facial – una táctica conocida por engañar a los sistemas de estimación de edad automatizados, que generalmente sobreestiman la edad de los jóvenes y subestiman la edad de las personas mayores.

No solo las niñas

Antes de que surja una protesta por considerar el maquillaje como “enfocado en las mujeres”, debemos tener en cuenta que la presencia de cosméticos faciales en cualquiera es un indicador muy poco fiable de género:

En el papel 'Impacto de los cosméticos faciales en los algoritmos de estimación de género y edad automáticos' los investigadores estadounidenses encontraron que los sistemas de verificación de género fueron engañados por el maquillaje de cambio de género. Fuente: https://cse.msu.edu/~rossarun/pubs/ChenCosmeticsGenderAge_VISAPP2014.pdf

En el papel ‘Impacto de los cosméticos faciales en los algoritmos de estimación de género y edad automáticos’ los investigadores estadounidenses encontraron que los sistemas de verificación de género fueron engañados por el maquillaje de cambio de género. Fuente: https://cse.msu.edu/~rossarun/pubs/ChenCosmeticsGenderAge_VISAPP2014.pdf

En 2024, se estimó que el 72% de los consumidores masculinos estadounidenses entre las edades de 18-24 incorporaban maquillaje en su rutina de aseo – aunque la mayoría usa productos cosméticos para mejorar la apariencia de la piel saludable, en lugar de disfrutar de las combinaciones de mascara/lápiz labial más asociadas con la estética visual de las mujeres.

Así que no podemos evitar tratar el material estudiado en este artículo a lo largo de las líneas del escenario más común explorado en la nueva investigación – el de las menores que utilizan maquillaje para subvertir los sistemas de verificación visual de edad automatizados.

Eliminación efectiva de maquillaje – La forma en que lo hace la IA

La investigación mencionada anteriormente proviene de tres contribuyentes de la Universidad de Nueva York, en la forma del nuevo papel DiffClean: Eliminación de maquillaje basada en difusión para una estimación de edad precisa.

El objetivo del proyecto es lograr un método impulsado por la IA para eliminar la apariencia de maquillaje de las imágenes (potencialmente incluyendo imágenes de video), con el fin de obtener una mejor idea de la verdadera edad de la persona detrás del maquillaje.

Del nuevo papel, un ejemplo de eliminación de maquillaje. Fuente: https://arxiv.org/pdf/2507.13292

Del nuevo papel, un ejemplo de cómo la eliminación de maquillaje puede alterar notablemente una predicción de edad. Fuente: https://arxiv.org/pdf/2507.13292

Uno de los desafíos de desarrollar tal sistema es la posible sensibilidad alrededor de la recopilación o curación de imágenes de menores de edad con maquillaje para adultos. Al final, los investigadores utilizaron un sistema de red generativa adversaria basado en terceros llamado EleGANt para imponer estilos de maquillaje de manera artificial, una técnica que resultó muy efectiva:

El sistema EleGANt de la Universidad Tsinghua de 2022 utiliza Redes Generativas Adversarias (GAN) para superponer cosméticos de manera auténtica sobre fotos de origen. Fuente: https://arxiv.org/pdf/2207.09840

El sistema EleGANt de la Universidad Tsinghua de 2022 utiliza una Red Generativa Adversaria (GAN) para superponer cosméticos de manera auténtica sobre fotos de origen. Fuente: https://arxiv.org/pdf/2207.09840

Con la ayuda de datos sintéticos obtenidos de esta manera, y con la ayuda de una variedad de proyectos y conjuntos de datos auxiliares, los autores pudieron superar los métodos de estado del arte en la estimación de la edad cuando se enfrentan a maquillaje “evidente” o “performático”.

El papel establece:

‘DiffClean [borra] las huellas de maquillaje utilizando un modelo de difusión guiado por texto para defenderse contra ataques de maquillaje. [Mejora] la estimación de la edad (precisión menor vs. adulto en un 4,8%) y la verificación facial (TMR en un 8,9% en FMR=0,01%) sobre las líneas de base en competencia en imágenes de maquillaje digitalmente simuladas y reales.’

Veamos cómo se llevaron a cabo la tarea.

Método

Para evitar la búsqueda de imágenes reales de menores con maquillaje, los autores utilizaron EleGANt para aplicar cosméticos sintéticos a imágenes obtenidas del conjunto de datos UTKFace, produciendo pares antes y después para el entrenamiento.

Ejemplos del conjunto de datos UTKFace. Fuente: https://susanqq.github.io/UTKFace/

Ejemplos del conjunto de datos UTKFace. Fuente: https://susanqq.github.io/UTKFace/

DiffClean se entrenó entonces para revertir esta transformación. Dado que los algoritmos de estimación de la edad se equivocan más cuando lidian con grupos de edad más jóvenes, los investigadores encontraron necesario desarrollar un clasificador de edad proxy ajustado en las edades objetivo (10-19 años). Para ello utilizaron la arquitectura SSRNet entrenada en UTKFace, con una pérdida L1 ponderada.

Un modelo simplificado del modelo de difusión de OpenAI de 2021 proporcionó la columna vertebral para la transformación, con los autores reteniendo la arquitectura central, pero modificándola con cabezas de atención adicionales en diversas resoluciones, capas más profundas y bloques BigGAN para mejorar las etapas de muestreo y submuestreo.

El control direccional se introdujo utilizando CLIP prompts: específicamente, rostro con maquillaje y rostro sin maquillaje, para que el modelo aprendiera a moverse en la dirección semántica deseada, permitiendo que el maquillaje se eliminara sin comprometer los detalles faciales, las pistas de edad o la identidad.

Maquillaje sintético aplicado utilizando EleGANt. Cada tríada muestra la imagen original UTKFace (izquierda), el estilo de maquillaje de referencia (centro) y el resultado después de la transferencia de estilo (derecha).

Maquillaje sintético aplicado utilizando EleGANt. Cada tríada muestra la imagen original UTKFace (izquierda), el estilo de maquillaje de referencia (centro) y el resultado después de la transferencia de estilo (derecha). La transferencia de maquillaje de este tipo es común en la literatura de visión por computadora, y esta facilidad también está disponible en los filtros neuronales de Adobe Photoshop, que pueden imponer maquillaje de una imagen de referencia a una imagen objetivo.

Cuatro funciones de pérdida clave guiaron la eliminación de maquillaje sin afectar la identidad facial o las pistas de edad. Además de la pérdida CLIP mencionada anteriormente, se preservó la identidad utilizando un par ponderado de pérdidas ArcFace extraídas de la biblioteca InsightFace – pérdidas que midieron la similitud entre el rostro generado y tanto la imagen original limpia como la “maquillada”, asegurando que el sujeto permaneciera visualmente coherente antes y después de la eliminación del maquillaje.

En tercer lugar, la pérdida perceptual Métricas de similitud perceptual aprendidas (LPIPS) utilizó la distancia L1 para imponer realismo a nivel de píxel y conservar la apariencia general de la imagen original después de que se eliminó el maquillaje.

Finalmente, la edad se supervisó utilizando un clasificador de edad proxy ajustado en el conjunto de datos UTKFace, con el modelo utilizando una pérdida L1 suavizada (con penalizaciones más pesadas para errores en el rango de edad de 10-29 años, donde la mala clasificación es más común). Una variante del modelo reemplazó esto con una llamada de edad CLIP, que instaba al modelo a coincidir con la apariencia de una edad específica.

Para la estimación de la edad en el momento de la inferencia (en lugar del uso de SSRNet en el momento del entrenamiento), se utilizó el marco MiVOLO de 2023.

Datos y pruebas

El ajuste de SSRNet de UTKFace empleó un conjunto de entrenamiento de 15,364 imágenes, contra un conjunto de prueba de 6,701 imágenes. Las 20,000 imágenes originales se filtraron para eliminar a cualquier persona mayor de 70 años, y luego se dividieron en una proporción de 70:30.

De acuerdo con el método anterior establecido por el proyecto DiffAM de 2023, el entrenamiento se llevó a cabo en dos etapas, con la sesión inicial que utilizó 300 imágenes de maquillaje del mundo real (esta vez una división de 200/100 entre entrenamiento y validación) del conjunto de datos MT de BeautyGAN.

El modelo se refinó aún más utilizando 300 imágenes adicionales de UTKFace, aumentadas con maquillaje sintético a través de EleGANt. Esto creó un conjunto de entrenamiento final de 600 ejemplos, emparejados a través de cinco estilos de referencia de BeautyGAN. Dado que la eliminación de maquillaje implica mapear muchos estilos de maquillaje a un solo rostro limpio, el entrenamiento se centró en la generalización amplia en lugar de cubrir todas las posibles variaciones cosméticas.

El rendimiento se evaluó en imágenes sintéticas y del mundo real. La prueba sintética utilizó 2,556 imágenes del conjunto de datos Flickr-Faces-HQ (FFHQ), muestreadas uniformemente en nueve grupos de edad por debajo de 70, y modificadas con EleGANt.

La generalización se evaluó utilizando 3,000 imágenes del conjunto de datos BeautyFace y 355 del conjunto de datos LADN, que contienen maquillaje auténtico.

Ejemplos del conjunto de datos BeautyFace, que ejemplifican la segmentación semántica que define varias áreas de la superficie facial afectada. Fuente: https://li-chongyi.github.io/BeautyREC_files/

Ejemplos del conjunto de datos BeautyFace, que ejemplifican la segmentación semántica que define varias áreas de la superficie facial afectada. Fuente: https://li-chongyi.github.io/BeautyREC_files/

Métricas e implementación

Para las métricas, los autores utilizaron Error absoluto medio (MAE) entre la verdad de referencia (imágenes reales con edades establecidas) y los valores de edad predichos, donde los resultados más bajos son mejores; precisión de grupo de edad se utilizó para evaluar si las edades predichas terminaron en los grupos correctos (en cuyo caso, los resultados más bajos son mejores); la precisión menor/mayor se utilizó para evaluar la identificación correcta de personas mayores de 18 años (donde un resultado más alto es mejor).

Además, aunque no se centra en el tema particular en cuestión, los autores también informan las métricas de verificación de identidad en la forma de Tasa de coincidencia verdadera (TMR) y Tasa de coincidencia falsa (FMR), con informes adicionales de valores relacionados Curva de características operativas del receptor (ROC).

SSRNet se ajustó en imágenes de 64x64px utilizando un tamaño de lote de 50 bajo el optimizador Adam con un decaimiento de peso de 1e−4, así como un programador de annealing coseno, y una tasa de aprendizaje de 1e−3 durante 200 épocas, con parada temprana.

Por el contrario, el módulo DiffClean recibió imágenes de entrada de 256x256px y se ajustó durante cinco épocas utilizando Adam, a una tasa de aprendizaje más gruesa de 4e−3. El muestreo utilizó 40 pasos de inversión DDIM, y 6 pasos de DDIM hacia adelante. Todo el entrenamiento se realizó en una sola GPU NVIDIA A100 (ya sea con 40GB o 80GB de VRAM no se especificó).

Los sistemas rivales probados fueron CLIP2Protect y el anteriormente mencionado DiffAM. Los autores utilizaron estilos de maquillaje “matte” en el flujo de trabajo, ya que se ha observado en CLIP2Protect que logra una tasa de éxito más alta (presumiblemente permitiendo una oportunidad para aquellos que buscan derrotar este enfoque – pero eso es un tema para otra ocasión).

Para replicar DiffAM como una línea de base, se ajustó el modelo preentrenado de BeautyGAN en el conjunto de datos MT. Para la transferencia de maquillaje adversaria, se utilizó el punto de control de DiffAM con parámetros predeterminados para el modelo objetivo, la imagen de referencia y la identidad.

Rendimiento de DiffClean en comparación con las líneas de base en tareas de estimación de edad, utilizando MiVOLO. Las métricas informadas son precisión de clasificación menor/mayor, precisión de grupo de edad y error absoluto medio (MAE). DiffClean con pérdida de edad CLIP logra los mejores resultados en todas las métricas.

Rendimiento de DiffClean en comparación con las líneas de base en tareas de estimación de edad, utilizando MiVOLO. Las métricas informadas son precisión de clasificación menor/mayor, precisión de grupo de edad y error absoluto medio (MAE). DiffClean con pérdida de edad CLIP logra los mejores resultados en todas las métricas.

De estos resultados, los autores establecen:

‘[Nuestro] método DIFFCLEAN supera a ambas líneas de base, CLIP2Protect y DiffAM, y puede restaurar con éxito las pistas de edad perturbadas debido al maquillaje al disminuir el MAE (a 5,71) y mejorar la precisión general de la predicción del grupo de edad (al 37%).

‘Nuestro objetivo se centró en los grupos de edad menores, y los resultados indican que logramos una clasificación superior de menor vs. adulto del 88,6%.’

Resultados de eliminación de maquillaje de los métodos de línea de base y propuestos. La columna más a la izquierda muestra las imágenes de origen, la siguiente las salidas de CLIP2Protect y DiffAM. La tercera columna muestra los resultados de DiffClean a través de SSRNet y pérdida de edad CLIP. Los autores sostienen que DiffClean elimina el maquillaje de manera más efectiva, evitando la distorsión de características vista en CLIP2Protect y los cosméticos residuales que DiffAM no detecta.

Resultados de eliminación de maquillaje de los métodos de línea de base y propuestos. La columna más a la izquierda muestra las imágenes de origen, la siguiente las salidas de CLIP2Protect y DiffAM. La tercera columna muestra los resultados de DiffClean a través de SSRNet y pérdida de edad CLIP. Los autores sostienen que DiffClean elimina el maquillaje de manera más efectiva, evitando la distorsión de características vista en CLIP2Protect y los cosméticos residuales que DiffAM no detecta.

Los autores también observan que el maquillaje no tiene un efecto uniforme en la edad aparente, sino que puede aumentar, disminuir o dejar sin cambios la edad aparente de un rostro. Por lo tanto, DiffClean no aplica una “reducción en blanco” en la edad predicha, sino que intenta recuperar las pistas de edad originales eliminando las huellas de maquillaje:

Ejemplos de eliminación de maquillaje de los conjuntos de datos CelebA-HQ y CACD. Cada columna muestra un par de imágenes antes (izquierda) y después (derecha) de la eliminación del maquillaje. En la primera columna, la edad predicha disminuye después de que se elimina el maquillaje; en la segunda, permanece sin cambios; y en la tercera, aumenta.

Ejemplos de eliminación de maquillaje de los conjuntos de datos CelebA-HQ y CACD. Cada columna muestra un par de imágenes antes (izquierda) y después (derecha) de la eliminación del maquillaje. En la primera columna, la edad predicha disminuye después de que se elimina el maquillaje; en la segunda, permanece sin cambios; y en la tercera, aumenta.

Para probar qué tan bien DiffClean se desempeñaba en datos nuevos, se ejecutó en los conjuntos de datos BeautyFace y LADN, que contienen maquillaje auténtico, pero no tienen imágenes emparejadas de los mismos sujetos sin cosméticos. Las predicciones de edad realizadas antes y después de la eliminación del maquillaje se compararon para evaluar qué tan efectivamente DiffClean redujo la distorsión introducida por el maquillaje:

Resultados de eliminación de maquillaje en imágenes del mundo real de los conjuntos de datos LADN (par izquierdo) y BeautyFace (par derecho). DiffClean reduce las edades predichas al eliminar los cosméticos, estrechando la brecha entre la edad aparente y la edad real. Los números blancos muestran las edades estimadas antes y después del procesamiento.

Resultados de eliminación de maquillaje en imágenes del mundo real de los conjuntos de datos LADN (par izquierdo) y BeautyFace (par derecho). DiffClean reduce las edades predichas al eliminar los cosméticos, estrechando la brecha entre la edad aparente y la edad real. Los números blancos muestran las edades estimadas antes y después del procesamiento.

Los resultados mostraron que DiffClean redujo consistentemente la brecha entre la edad aparente y la edad real. En ambos conjuntos de datos, redujo los errores de sobreestimación y subestimación en aproximadamente tres años en promedio, lo que sugiere que el sistema se generaliza bien a estilos cosméticos del mundo real.

Conclusión

Es interesante, y quizás inevitable, que el maquillaje cosmético “performático” se utilice de manera adversaria. Dado que las niñas maduran a ritmos diferentes, pero maduran consistentemente más rápido como grupo, la tarea de identificar el umbral entre el estatus de menor y adulto femenino puede ser una de las más ambiciosas que el escenario de investigación se ha planteado.

Sin embargo, el tiempo y los datos pueden determinar eventualmente signos relacionados con la edad que se puedan utilizar para anclar sistemas de verificación visual de edad.

 

* Dado que este tema invita a un lenguaje cargado, y dado que ‘niñas’ es excluyente (mientras que ‘mujeres y niñas’, el término actualmente aceptable para personas de género femenino, no es una descripción precisa en este caso), he optado por ‘femenino’ como el mejor compromiso que pude idear – aunque no capture todas las sutilezas demográficas, por lo que me disculpo.

En este artículo, utilizo ‘performático’ para indicar maquillaje que está destinado a ser visto y reconocido como maquillaje, como el rímel, el lápiz de ojos, el rubor y la base, en lugar de cremas de cobertura y otros tipos de aplicaciones cosméticas ‘sigilosas’.

Publicado por primera vez el viernes 18 de julio de 2025

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.