Inteligencia artificial

Estimación de la Predicción de Atractivo Facial para Transmisiones en Vivo

Published January 8, 2025

Updated April 26, 2026

Martin Anderson

Image by ChatGPT, with superimposed image from the paper https://arxiv.org/pdf/2501.02509

Hasta la fecha, la Predicción de Atractivo Facial (FAP) ha sido estudiada principalmente en el contexto de la investigación psicológica, en la industria de la belleza y la cosmética, y en el contexto de la cirugía cosmética. Es un campo de estudio desafiante, ya que los estándares de belleza tienden a ser nacionales más que globales.

Esto significa que no hay un conjunto de datos basado en inteligencia artificial (IA) efectivo, ya que los promedios obtenidos al muestrear caras y calificaciones de todas las culturas serían muy sesgados (donde las naciones más pobladas ganarían tracción adicional), o aplicables a ninguna cultura en absoluto (donde el promedio de múltiples razas y calificaciones equivaldría a ninguna raza real).

En su lugar, el desafío es desarrollar metodologías conceptuales y flujos de trabajo en los que se puedan procesar datos específicos de país o cultura, para permitir el desarrollo de modelos de FAP efectivos por región.

Los casos de uso de FAP en la investigación de la belleza y la psicología son bastante marginales, o específicos de la industria; por lo tanto, la mayoría de los conjuntos de datos curados hasta la fecha contienen solo datos limitados, o no han sido publicados en absoluto.

La fácil disponibilidad de predictores de atractivo en línea, dirigidos principalmente a audiencias occidentales, no necesariamente representan el estado actual de la FAP, que parece estar dominado actualmente por la investigación de Asia oriental (principalmente China), y los conjuntos de datos correspondientes de Asia oriental.

Ejemplos del conjunto de datos del papel de 2020 ‘Predicción de la belleza facial femenina asiática utilizando redes neuronales profundas a través del aprendizaje de transferencia y la fusión de características multi-canal’. Fuente: https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30

Usos comerciales más amplios para la estimación de la belleza incluyen aplicaciones de citas en línea, y sistemas de inteligencia artificial generativa diseñados para ‘retocar’ imágenes reales de personas (ya que tales aplicaciones requieren un estándar cuantificado de belleza como métrica de efectividad).

Dibujando Rostros

Las personas atractivas siguen siendo un activo valioso en la publicidad y la creación de influencia, lo que hace que los incentivos financieros en estos sectores sean una clara oportunidad para avanzar en los conjuntos de datos y marcos de FAP de vanguardia.

Por ejemplo, un modelo de IA entrenado con datos del mundo real para evaluar y calificar la belleza facial podría potencialmente identificar eventos o individuos con un alto potencial de impacto publicitario. Esta capacidad sería especialmente relevante en contextos de transmisión de video en vivo, donde métricas como ‘seguidores’ y ‘me gustas’ sirven actualmente como indicadores implícitos de la capacidad de una persona (o incluso de un tipo de rostro) para atraer a una audiencia.

Esto es una métrica superficial, por supuesto, y la voz, la presentación y el punto de vista también juegan un papel significativo en la reunión de la audiencia. Por lo tanto, la curación de conjuntos de datos de FAP requiere supervisión humana, así como la capacidad de distinguir la atracción facial de la ‘especiosa’ (sin la cual, influyentes fuera de dominio como Alex Jones podrían afectar la curva promedio de FAP para una colección diseñada únicamente para estimar la belleza facial).

LiveBeauty

Para abordar la escasez de conjuntos de datos de FAP, investigadores de China están ofreciendo el primer conjunto de datos de FAP a gran escala, que contiene 100,000 imágenes de rostros, junto con 200,000 anotaciones humanas que estiman la belleza facial.

Muestras del nuevo conjunto de datos LiveBeauty. Fuente: https://arxiv.org/pdf/2501.02509

Denominado LiveBeauty, el conjunto de datos cuenta con 10,000 identidades diferentes, todas capturadas desde (plataformas de transmisión en vivo no especificadas) en marzo de 2024.

Los autores también presentan FPEM, un método de FAP multi-modal novel. FPEM integra conocimiento holístico de prioridad facial y características estéticas semánticas multi-modales a través de un Módulo de Prioridad de Atractivo Personalizado (PAPM), un Módulo de Codificador de Atractivo Multi-modal (MAEM) y un Módulo de Fusión de Modalidad Cruzada (CMFM).

El artículo sostiene que FPEM logra un rendimiento de vanguardia en el nuevo conjunto de datos LiveBeauty y otros conjuntos de datos de FAP. Los autores señalan que la investigación tiene aplicaciones potenciales para mejorar la calidad de video, la recomendación de contenido y el retoque facial en la transmisión en vivo.

Los autores también prometen hacer que el conjunto de datos esté disponible ‘pronto’ – aunque debe admitirse que cualquier restricción de licencia inherente al dominio de origen parece probable que se transmita a la mayoría de los proyectos aplicables que puedan utilizar el trabajo.

El nuevo artículo se titula Predicción de Atractivo Facial en Transmisión en Vivo: Un Nuevo Estándar y Método Multi-modal, y proviene de diez investigadores de todo el Grupo Alibaba y la Universidad Jiao Tong de Shanghai.

Método y Datos

De cada transmisión de 10 horas de las plataformas de transmisión en vivo, los investigadores recopilaron una imagen por hora durante las primeras tres horas. Se seleccionaron las transmisiones con las vistas de página más altas.

Los datos recopilados se sometieron luego a varias etapas de pre-procesamiento. La primera de estas es la medición del tamaño de la región facial, que utiliza el modelo de detección de 2018 basado en CPU FaceBoxes para generar una caja delimitadora alrededor de los lineamientos faciales. El flujo de trabajo garantiza que el lado más corto de la caja delimitadora supere los 90 píxeles, evitando regiones faciales pequeñas o poco claras.

El segundo paso es la detección de desenfoque, que se aplica a la región facial utilizando la varianza del operador laplaciano en el canal de altura (Y) de la cosecha facial. Esta varianza debe ser mayor que 10, lo que ayuda a filtrar las imágenes borrosas.

El tercer paso es la estimación de la pose facial, que utiliza el modelo de estimación de pose de 2021 3DDFA-V2:

Ejemplos del modelo de estimación 3DDFA-V2. Fuente: https://arxiv.org/pdf/2009.09960

Aquí, el flujo de trabajo garantiza que el ángulo de inclinación de la cara recortada no sea mayor que 20 grados, y el ángulo de guiñada no sea mayor que 15 grados, lo que excluye las caras con poses extremas.

El cuarto paso es la evaluación de la proporción facial, que también utiliza las capacidades de segmentación del modelo 3DDFA-V2, garantizando que la proporción de la región facial recortada sea mayor que el 60% de la imagen, excluyendo imágenes donde la cara no es prominente. es decir, pequeña en la imagen general.

Finalmente, el quinto paso es la eliminación de personajes duplicados, que utiliza un modelo de reconocimiento facial de vanguardia (no acreditado), para casos en los que la misma identidad aparece en más de una de las tres imágenes recopiladas para un video de 10 horas.

Evaluación y Anotación Humana

Se reclutaron veinte anotadores, que consistían en seis hombres y 14 mujeres, reflejando la demografía de la plataforma en vivo utilizada*. Las caras se mostraron en la pantalla de 6,7 pulgadas de un iPhone 14 Pro Max, en condiciones de laboratorio consistentes.

La evaluación se dividió en 200 sesiones, cada una de las cuales empleó 50 imágenes. A los sujetos se les pidió que calificaran la atracción facial de las muestras en una puntuación de 1 a 5, con un descanso de cinco minutos entre cada sesión, y todos los sujetos participaron en todas las sesiones.

Por lo tanto, la totalidad de las 10,000 imágenes se evaluaron a través de veinte sujetos humanos, llegando a 200,000 anotaciones.

Análisis y Pre-procesamiento

Primero, se realizó una pantalla de sujeto posterior utilizando la relación de valor atípico y el coeficiente de correlación de rango de Spearman (SROCC). Los sujetos cuyas calificaciones tenían un SROCC menor que 0,75 o una relación de valor atípico mayor que el 2% se consideraron poco confiables y se eliminaron, con 20 sujetos obtenidos finalmente..

Se calculó una Puntuación de Opinión Media (MOS) para cada imagen de rostro, promediando las puntuaciones obtenidas por los sujetos válidos. La MOS sirve como la etiqueta de verdad de atractivo para cada imagen, y la puntuación se calcula promediando todas las puntuaciones individuales de cada sujeto válido.

Finalmente, el análisis de las distribuciones de MOS para todas las muestras, así como para las muestras femeninas y masculinas, indicó que exhibían una forma de estilo gaussiano, que es consistente con las distribuciones reales de atractivo facial:

Ejemplos de distribuciones de MOS de LiveBeauty.

La mayoría de las personas tienden a tener un atractivo facial promedio, con menos personas en los extremos de muy bajo o muy alto atractivo.

Además, el análisis de sesgo y curtosis mostró que las distribuciones se caracterizaban por colas delgadas y se concentraban alrededor de la puntuación promedio, y que el alto atractivo era más prevalente entre las muestras femeninas en los videos de transmisión en vivo recopilados.

Arquitectura

Se utilizó una estrategia de entrenamiento de dos etapas para el modelo de FAP multi-modal mejorado facial (FPEM) y la fase de fusión híbrida en LiveBeauty, dividida en cuatro módulos: un Módulo de Prioridad de Atractivo Personalizado (PAPM), un Módulo de Codificador de Atractivo Multi-modal (MAEM), un Módulo de Fusión de Modalidad Cruzada (CMFM) y el Módulo de Fusión de Decisión (DFM).

Esquema conceptual para el flujo de entrenamiento de LiveBeauty.

El módulo PAPM toma una imagen como entrada y extrae características visuales multi-escala utilizando un Swin Transformer, y también extrae características conscientes de la cara utilizando un modelo FaceNet pre-entrenado. Estas características se combinan utilizando un bloque de atención cruzada para crear una característica de ‘atractivo’ personalizada.

También en la Fase de Entrenamiento Preliminar, MAEM utiliza una imagen y descripciones de texto de atractivo, aprovechando CLIP para extraer características estéticas semánticas multi-modales.

Las descripciones de texto están en la forma de ‘una foto de una persona con {a} atractivo’ (donde {a} puede ser mal, pobre, justo, buen o perfecto). El proceso estima la similitud del coseno entre incrustaciones de texto y visuales para llegar a una probabilidad de nivel de atractivo.

En la Fase de Fusión Híbrida, CMFM refina las incrustaciones de texto utilizando la característica de atractivo personalizado generada por PAPM, generando así incrustaciones de texto personalizadas. Luego utiliza una estrategia de regresión de similitud para hacer una predicción.

Finalmente, DFM combina las predicciones individuales de PAPM, MAEM y CMFM para producir una sola puntuación de atractivo final, con el objetivo de lograr un consenso sólido.

Funciones de Pérdida

Para métricas de pérdida, PAPM se entrena utilizando una pérdida L1, una medida de la diferencia absoluta entre la puntuación de atractivo predicha y la puntuación de atractivo real (verdad).

El módulo MAEM utiliza una función de pérdida más compleja que combina una pérdida de puntuación (LS) con una pérdida de clasificación combinada (LR). La pérdida de clasificación (LR) comprende una pérdida de fidelidad (LR1) y una pérdida de clasificación bidireccional (LR2).

LR1 compara la atracción relativa de pares de imágenes, mientras que LR2 garantiza que la distribución de probabilidad de niveles de atractivo predicha tenga un solo pico y disminuya en ambos sentidos. Este enfoque combinado apunta a optimizar tanto la puntuación precisa como la clasificación correcta de imágenes según el atractivo.

CMFM y DFM se entrenan utilizando una simple pérdida L1.

Pruebas

En pruebas, los investigadores enfrentaron LiveBeauty contra nueve enfoques anteriores: ComboNet; 2D-FAP; REX-INCEP; CNN-ER (presentado en REX-INCEP); MEBeauty; AVA-MLSP; TANet; Dele-Trans; y EAT.

Los métodos de línea de base que se ajustan a un protocolo de Evaluación de la Estética de la Imagen (IAA) también se probaron. Estos fueron ViT-B; ResNeXt-50; y Inception-V3.

Además de LiveBeauty, los otros conjuntos de datos probados fueron SCUT-FBP5000 y MEBeauty. A continuación, se comparan las distribuciones de MOS de estos conjuntos de datos:

Distribuciones de MOS de los conjuntos de datos de referencia.

Respectivamente, estos conjuntos de datos invitados se dividen 60%-40% y 80%-20% para el entrenamiento y la prueba, por separado, para mantener la coherencia con sus protocolos originales. LiveBeauty se dividió en una base de 90%-10%.

Para la inicialización del modelo en MAEM, VT-B/16 y GPT-2 se utilizaron como codificadores de imagen y texto, respectivamente, inicializados por configuraciones de CLIP. Para PAPM, Swin-T se utilizó como codificador de imagen trainable, de acuerdo con SwinFace.

Se utilizó el optimizador AdamW, y un programador de tasa de aprendizaje configurado con calentamiento lineal bajo un esquema de anulación coseno. Las tasas de aprendizaje difirieron en las diferentes fases de entrenamiento, pero cada una tenía un tamaño de lote de 32, durante 50 épocas.

Resultados de las pruebas

Los resultados de las pruebas en los tres conjuntos de datos de FAP se muestran arriba. De estos resultados, el artículo establece:

‘Nuestro método propuesto logra el primer lugar y supera al segundo lugar en aproximadamente 0,012, 0,081, 0,021 en términos de valores de SROCC en LiveBeauty, MEBeauty y SCUT-FBP5500, respectivamente, lo que demuestra la superioridad de nuestro método propuesto.

‘[Los] métodos de IAA son inferiores a los métodos de FAP, lo que manifiesta que los métodos de evaluación estética genérica pasan por alto las características faciales involucradas en la naturaleza subjetiva del atractivo facial, lo que lleva a un mal rendimiento en las tareas de FAP.

‘[El] rendimiento de todos los métodos disminuye significativamente en MEBeauty. Esto se debe a que las muestras de entrenamiento son limitadas y las caras son étnicamente diversas en MEBeauty, lo que indica que hay una gran diversidad en el atractivo facial.

‘Todos estos factores hacen que la predicción del atractivo facial en MEBeauty sea más desafiante.’

Consideraciones Éticas

La investigación sobre el atractivo es una empresa potencialmente divisiva, ya que al establecer estándares empíricos supuestamente de belleza, tales sistemas tenderán a reforzar sesgos en torno a la edad, la raza y muchos otros sectores de la investigación de visión por computadora relacionada con los humanos.

Se podría argumentar que un sistema de FAP está inherentemente predispuesto a reforzar y perpetuar perspectivas parciales y sesgadas sobre el atractivo. Estos juicios pueden surgir de anotaciones humanas lideradas – a menudo realizadas en escalas demasiado limitadas para una generalización de dominio efectiva – o del análisis de patrones de atención en entornos en línea como plataformas de transmisión, que están, arguablemente, lejos de ser meritocráticos.

* El artículo se refiere al dominio de origen no nombrado tanto en singular como en plural.

Publicado por primera vez el miércoles 8 de enero de 2025