Ángulo de Anderson

La búsqueda de la belleza por parte de la IA

Published March 19, 2026

Updated April 25, 2026

Martin Anderson

AI-generated image featuring a woman whose face is being analyzed by a Terminator-style HUD. GPT-1.5.

Un nuevo sistema de evaluación de belleza impulsado por IA califica lo atractivo que parecen las caras, mientras se entrena más rápido que los modelos de aprendizaje profundo típicos, lo que podría hacer que la puntuación de belleza automatizada a gran escala sea más práctica.

La predicción de belleza facial (FBP) es un gran negocio y un hilo bastante fuerte en la literatura de investigación. Aunque rompe prácticamente todos los principios detrás de combatir los sesgos en las prácticas de IA y aprendizaje automático, y aunque de muchas maneras apoya la objetivación y el reduccionismo en las percepciones algorítmicas de las mujeres, sin embargo, atrae el interés de varias industrias de varios miles de millones de dólares, la mayoría de las cuales están dirigidas directamente a las mujeres, como los cosméticos, la cirugía facial cosmética, las transmisiones en vivo y la moda, entre otros:

Mujeres calificadas del 1 al 5, del artículo ‘Predicción de belleza facial femenina asiática utilizando redes neuronales profundas a través del aprendizaje de transferencia y la fusión de características multicanal’. Fuente

Más allá de estos obvios enclaves empresariales centrados en las mujeres, la publicidad y varias otras industrias, incluyendo el entretenimiento y la publicación, tienen intereses notables en comprender qué es lo que tanto los hombres como las mujeres encuentran ‘atractivo’, necesariamente sobre una base por cultura.

El hecho de que las percepciones agregadas de belleza varíen según la región significa que no se pueden obtener conjuntos de datos definitivos y globalmente aplicables, y que la nueva investigación debe permanecer parroquial o concentrarse en métodos de ‘alto nivel’ que puedan aplicarse en diversas franjas de datos culturales.

Una interfaz para un sistema de evaluación de belleza facial para el proyecto SCUT-FBP de 2015. Fuente

A menudo, la ubicación geográfica no es la única restricción, ya que los conjuntos de datos centrados en la atracción pueden luchar por proporcionar eficacia igual en ambos sexos, o pueden haber sido curados con una aplicación particular en mente, y esto puede restringir el uso de la colección en otros dominios.

Por ejemplo, en 2025 informé sobre el desarrollo de un conjunto de datos relativamente grande (100,000+ identidades) para evaluar la atracción en transmisiones en vivo, cuyos estándares de recorte cercano pueden necesitar una adaptación notable para proyectos más amplios, a pesar del enorme esfuerzo detrás de la iniciativa.

Representación facial

Como puede ser evidente a partir de los enlaces y las imágenes anteriores, los organismos de investigación asiáticos a menudo no operan bajo las mismas restricciones culturales que sus homólogos occidentales, quienes se esforzarían por publicar una ilustración científica que califique a cinco mujeres occidentales desde menos a más atractivas, como vemos en el estudio ilustrado anteriormente.

Se podría argumentar que donde los sistemas de este tipo de origen asiático se demuestran efectivos en público, sin miedo a la censura local, los intereses occidentales pueden utilizar o adaptar dicha investigación en implementaciones privadas y propietarias. La tarea de ‘calificar a las mujeres’ en ese escenario se rendirá a un lugar donde se pueda perseguir sin críticas.

Ya sea que esto sea común o que los sistemas equivalentes occidentales menos publicitados tienden a desarrollarse lejos de la colaboración de código abierto y de la supervisión pública, es razonable asumir que el objetivo es de interés global, debido al gran número de sectores profesionales que pueden o podrían beneficiarse de evaluaciones precisas de atracción.

Supervivencia del más apto

Puede parecer que los grandes corpus que se pueden extraer de la web, como Tik Tok, Instagram y YouTube, probarían excelentes árbitros de belleza, correlacionando seguidores, likes y tráfico con atractivo, ya que esta es una asociación común y razonable (aunque con algunas excepciones).

De la misma manera, las colecciones existentes, como ImageNet y LAION, que presentan actores y modelos que han ‘llegado a la cima’, generalmente presentarán individuos atractivos (aunque a menudo con demasiados puntos de datos de demasiadas personas), lo que permite que los mecanismos culturales más amplios actúen como un proxy para la atracción.

Sin embargo, esto no tiene en cuenta los gustos cambiantes en lo que la gente encuentra atractivo con el tiempo (ni siquiera geográficamente). Por lo tanto, nuevamente, se necesitan sistemas de alto nivel y agnósticos de datos, no colecciones o curaciones individuales y especiosas que no lograrán reflejar los gustos cambiantes.

Piel combinada

La última entrada académica para abordar estos desafíos proviene de China, donde se combinan aprendizaje de transferencia y Sistema de aprendizaje amplio (BLS) para abordar el comercio tradicional entre precisión y costo computacional.

Las redes neuronales convencionales tienden a lograr resultados sólidos solo con un entrenamiento pesado, mientras que los sistemas más ligeros como BLS se entrenan rápidamente, pero luchan por capturar suficiente detalle. El nuevo trabajo bridga esta brecha utilizando un modelo visual preentrenado para extraer características faciales, que luego se pasan a un sistema BLS rápido para puntuación, lo que permite que las características se reutilicen en lugar de aprenderse desde cero, manteniendo al mismo tiempo una eficiencia en el entrenamiento:

Imágenes de muestra del conjunto de datos LSAFBD, que muestran caras femeninas agrupadas por puntuaciones de belleza asignadas por humanos del 1 al 5. Las calificaciones se obtuvieron de múltiples anotadores y se utilizaron como etiquetas supervisadas para el entrenamiento y la evaluación de modelos de predicción de belleza facial a través de variaciones en pose, iluminación y apariencia. Fuente

La primera de las dos variaciones introducidas en el trabajo (E-BLS, véase abajo), alimenta las características extraídas directamente al sistema ligero, mientras que la segunda, ER-BLS (también véase abajo), agrega un paso intermedio simple que estandariza y refina esas características antes de la evaluación, lo que ayuda a mejorar la consistencia sin ralentizar el proceso.

Las pruebas realizadas por los autores demuestran, según afirman, que su enfoque es superior a cualquiera de los métodos por sí solo y a otros métodos competidores.

El nuevo artículo se titula Predicción de belleza facial que fusiona el aprendizaje de transferencia y el sistema de aprendizaje amplio, y proviene de seis investigadores de la Universidad de Wuyi, Jiangmen.

Método

El mencionado Sistema de aprendizaje amplio es una alternativa ligera a las redes neuronales profundas, que salta la pila de múltiples capas y, en cambio, extiende el aprendizaje a través de un conjunto amplio de conexiones más simples, lo que permite que los modelos se entrenen rápidamente, pero generalmente a costa de perder detalles visuales más finos.

La primera de las dos variantes, E-BLS, combina aprendizaje de transferencia basado en EfficientNet con BLS, extrayendo características visuales detalladas de una cara y luego pasándolas a BLS, lo que implica una predicción final que evita la necesidad de entrenar una red neuronal profunda completa desde cero:

Esquema de arquitectura para el modelo E-BLS.

EfficientNet, preentrenado en ImageNet-1k y en gran medida mantenido sin cambios, convierte cada imagen de entrada en un conjunto compacto de valores de características que describen la cara de una manera estructurada, mientras que BLS toma esos valores y los procesa a través de una red de nodos simples y aleatoriamente conectados que transforman y combinan la información, antes de producir la puntuación de atractivo final.

Debido a que BLS no depende de estructuras en capas, E-BLS se puede actualizar agregando más nodos en lugar de volver a entrenar todo el sistema, lo que mantiene el entrenamiento rápido y facilita la mejora del modelo a medida que se introduce nueva información.

La segunda de las dos variantes, ER-BLS, se basa en E-BLS agregando una etapa de procesamiento adicional entre el extractor de características EfficientNet y BLS, con el objetivo de mejorar cómo se preparan esas características extraídas antes de ser utilizadas para la predicción:

Arquitectura del modelo ER-BLS.

En lugar de enviar las características brutos de EfficientNet directamente a BLS, ER-BLS primero las pasa a través de una capa de refinamiento que estandariza y reconfigura los datos, lo que ayuda a reducir el ruido y a hacer que las características sean más consistentes en diferentes imágenes. Este paso está diseñado para mejorar cómo generaliza el sistema, especialmente cuando las caras varían en iluminación, pose u otras condiciones visuales que de otro modo podrían introducir inestabilidad en las predicciones.

Las características refinadas se alimentan luego a la misma estructura BLS utilizada en E-BLS, donde los nodos de características y los nodos de mejora transforman y combinan la información para producir la puntuación de atractivo final.

Datos y pruebas

Para probar su enfoque, los autores utilizaron el conjunto de datos SCUT-FBP5500, una colección de predicción de belleza facial de la Universidad de China Meridional, que contiene 5,500 imágenes de caras frontales a 350x350px, con diversas razas, sexos y edades:

Imágenes faciales de muestra del conjunto de datos SCUT-FBP5500 calificadas desde menos (1) hasta más (5) atractivas.

Cada imagen se calificó con una puntuación de belleza por 60 voluntarios, en una escala de 1 a 5, que va desde extremadamente poco atractiva (1) hasta extremadamente atractiva (5):

La división de proporciones de imágenes por calificación de belleza.

El otro conjunto de datos utilizado fue el conjunto de datos grande de belleza femenina asiática (LSAFBD), una colección curada por los autores mismos.

Imágenes faciales de muestra del conjunto de datos LSAFBD calificadas desde menos (1) hasta más (5) atractivas.

La colección consiste en 80,000 imágenes no etiquetadas a una resolución de 144x144px, con variaciones en pose y fondo, así como en edad. Estas fueron calificadas por 75 voluntarios por los mismos criterios que el conjunto de datos anterior, esta vez en una escala de 0 a 4:

Las divisiones para el conjunto de datos LSAFBD.

Cada conjunto de datos se dividió en segmentos de entrenamiento y prueba en una proporción de 8/20, y se utilizó validación cruzada para estabilizar los resultados en las ejecuciones. El componente BLS se configuró a través del número de ventanas de características; el número de nodos por ventana; y el número de nodos de mejora, con Hyperopt utilizado para buscar combinaciones efectivas.

Para establecer una referencia, se entrenó un modelo BLS estándar en configuraciones idénticas, después de lo cual se introdujeron una serie de modelos de aprendizaje de transferencia, incluyendo ResNet50, Inception-V3, DenseNet121, InceptionResNetV2, EfficientNetB7, MobileNetV2, NASNet y Xception – todos inicializados con pesos de ImageNet-1k y entrenados con sus capas finales desbloqueadas.

El entrenamiento utilizó una tasa de aprendizaje de 0,001 (reducida cuando se estancó el progreso), y un tamaño de lote de 16, a través de 50 épocas, con regularización y activación lineal rectificada (ReLU) aplicada en todo.

El rendimiento se evaluó utilizando precisión y correlación de Pearson, junto con el tiempo total de entrenamiento, con los resultados promediados en cinco ejecuciones.

Los autores informan la configuración de entrenamiento como un CPU Intel-i7 de 3,6 GHz y 64GB de RAM en una ‘computadora de escritorio’:

Comparación de rendimiento en SCUT-FBP5500, donde E-BLS y ER-BLS logran una precisión competitiva contra modelos CNN profundos, incluyendo ResNet50, EfficientNetB7, InceptionV3 y Xception, mientras requieren sustancialmente menos tiempo de entrenamiento – lo que destaca las ganancias de eficiencia de combinar el aprendizaje de transferencia con un Sistema de aprendizaje amplio.

Los resultados indicaron que E-BLS mejoró la precisión del 65,85% al 73,13%, mientras que ER-BLS alcanzó el 74,69%, superando a todos los modelos comparados. El tiempo de entrenamiento permaneció notablemente más bajo que el de los CNN profundos, en aproximadamente 1.300 segundos, versus varios miles hasta más de 25.000 segundos.

Para las pruebas en LSAFBD, los resultados mostraron que E-BLS mejoró la precisión sobre el BLS plano, mientras que ER-BLS logró la mayor precisión entre todos los métodos comparados:

Rendimiento en LSAFBD, donde ER-BLS y E-BLS entregan una mayor precisión que todos los modelos de referencia y de aprendizaje de transferencia, mientras requieren solo una fracción de su tiempo de entrenamiento, lo que indica una ventaja consistente en eficiencia sin sacrificar la calidad predictiva.

Ambas variantes mantuvieron un tiempo de entrenamiento sustancialmente más bajo que los modelos CNN profundos, lo que indica un equilibrio más eficiente entre rendimiento y costo computacional.

Conclusión

Esta es algo así como una publicación ‘retro’, como se evidencia por su uso de favoritos pre-boom como los CNN, y por el equipo de entrenamiento de nivel más bajo que he encontrado en un artículo nuevo en muchos años.

Sin embargo, aborda un objetivo sorprendentemente resistente en visión por computadora; uno que toca profundamente la experiencia humana y la interpretación subjetiva, y que exige un esquema que trascienda las tendencias estéticas del momento, y que pueda proporcionar una tubería verdaderamente resistente para la tarea.

Publicado por primera vez el jueves 19 de marzo de 2026