Inteligencia artificial
Un sistema de IA que puede hacer que las imágenes de las personas sean más ‘hermosas’

Los investigadores de China han desarrollado un nuevo sistema de mejora de imágenes basado en IA que es capaz de hacer que las imágenes de una persona sean más ‘hermosas’, basado en un enfoque novedoso de aprendizaje por refuerzo.

El nuevo enfoque utiliza una ‘red de predicción de belleza facial’ para iterar a través de variaciones de una imagen basada en una serie de factores, entre los que la ‘iluminación’ y las posiciones de los ojos pueden ser factores críticos. Aquí las fuentes originales (en la parte izquierda de cada columna) son del sistema EigenGAN, con los nuevos resultados a la derecha de estos. Fuente: https://arxiv.org/pdf/2208.04517.pdf
La técnica se basa en innovaciones descubiertas para el generador EigenGAN, otro proyecto chino, de 2021, que hizo avances notables en la identificación y el control de los diversos atributos semánticos dentro del espacio latente de las Redes Generativas Adversarias (GAN).

El generador EigenGAN de 2021 pudo individuar conceptos de alto nivel como ‘color de cabello’ dentro del espacio latente de una red generativa adversaria. El nuevo trabajo se basa en este instrumento innovador para entregar un sistema que pueda ’embellecer’ las imágenes de origen, pero sin cambiar la identidad reconocible – un problema en los enfoques anteriores. Fuente: https://arxiv.org/pdf/2104.12476.pdf
El sistema utiliza una ‘red de puntuación de estética’ derivada de SCUT-FBP5500 (SCUT), un conjunto de datos de referencia de 2018 para la predicción de belleza facial, de la Universidad de Tecnología de China del Sur en Guangzhou.

Del artículo de 2018 ‘SCUT-FBP5500: Un conjunto de datos diverso para la predicción de belleza facial de múltiples paradigmas’, que presentó una ‘red de predicción de belleza facial’ (FBP) capaz de clasificar caras en términos de atractivo percibido, pero que no podía transformar o ‘mejorar’ las caras. Fuente: https://arxiv.org/pdf/1801.06345.pdf
A diferencia del nuevo trabajo, el proyecto de 2018 no puede ejecutar transformaciones, pero contiene juicios de valor algorítmicos para 5.500 caras, proporcionados por 60 etiquetadores de género mixto (una división 50/50). Estos se han incorporado al nuevo sistema como un discriminador efectivo, para informar transformaciones que probablemente mejoren el ‘atractivo’ de una imagen.
Es interesante que el nuevo artículo se titule Generación de caras caucásicas hermosas controlables por atributos mediante aprendizaje por refuerzo guiado por estética. La razón por la que todas las razas excepto la caucásica están excluidas del sistema (considerando también que los investigadores mismos son chinos) es porque los datos de origen de SCUT se inclinan notablemente hacia fuentes asiáticas (4.000 asiáticos divididos uniformemente entre hombres y mujeres, 1.500 caucásicos divididos uniformemente entre hombres y mujeres), lo que hace que la ‘persona promedio’ en ese conjunto de datos tenga cabello y ojos marrones.
Por lo tanto, para acomodar la variación de color al menos dentro de una raza, fue necesario excluir el componente asiático de los datos originales, o de lo contrario ir al considerable gasto de reconstruir los datos para desarrollar un método que podría no haber funcionado. Además, la variación en las percepciones culturales de la belleza inevitablemente significa que tales sistemas necesitarán algún grado de configurabilidad geográfica en cuanto a lo que constituye ‘atractivo’.
Atributos pertinentes
Para determinar los factores principales que contribuyen a una foto ‘atractiva’ de una persona, los investigadores también probaron el efecto de varios cambios en las imágenes, en términos de cómo bien tales aumentos mejoraban la percepción algorítmica de ‘belleza’. Encontraron que al menos uno de los aspectos es más central para la buena fotografía que para la buena genética:

Además de la iluminación, los aspectos que tuvieron el mayor impacto en la puntuación de belleza fueron los flequillos (que, en el caso de los hombres, pueden ser equivalentes a tener todo el cabello), la postura del cuerpo y la disposición de los ojos (donde el compromiso con el punto de vista de la cámara es un estímulo para el atractivo).
(En cuanto al ‘color de lápiz de labios’, el nuevo sistema, que puede funcionar efectivamente en presentaciones de género masculino y femenino, no individúa la apariencia de género, sino que confía en el nuevo sistema de discriminador como un ‘filtro’ en este respecto)
Método
La función de recompensa en el mecanismo de aprendizaje por refuerzo en el nuevo sistema está impulsada por una regresión simple sobre los datos SCUT, que produce predicciones de belleza facial.
El sistema de entrenamiento itera sobre las imágenes de entrada de datos (en la parte inferior izquierda del esquema a continuación). Inicialmente, un modelo ResNet18 preentrenado (entrenado en ImageNet) extrae características de las cinco imágenes idénticas (‘y’). A continuación, se deriva una acción transformadora potencial del estado oculto de una capa completamente conectada (GRUCell, en la imagen a continuación), y se aplican las transformaciones, lo que lleva a cinco imágenes alteradas que se alimentan en la red de puntuación de estética, cuyas clasificaciones, al estilo de Darwin, determinarán qué variaciones se desarrollarán y cuáles se descartarán.
La red de puntuación de estética utiliza un módulo de atención de canal eficiente (ECA), mientras que una adaptación de una instancia preentrenada de EfficientNet-B4 se encarga de extraer 1.792 características de cada imagen.
Después de la normalización a través de una función de activación ReLU, se obtiene un vector de cuatro dimensiones de regreso del módulo ECA, que luego se aplanó a un vector unidimensional después de la activación y promediación de media adaptativa. Finalmente, los resultados se alimentan en la red de regresión, que recupera una puntuación de estética.

Una comparación cualitativa de la salida del sistema. En la fila inferior, vemos la suma agregada de todos los aspectos individuados que han sido identificados por el método EigenGAN y posteriormente mejorados. Las puntuaciones FID promedio para las imágenes están a la izquierda de las filas de imágenes (más alto es mejor).
Pruebas y estudio de usuario
Se evaluaron cinco variantes del método propuesto algorítmicamente (ver imagen arriba), con puntuaciones de distancia de Fréchet (FID, controvertida en algunos cuartos) asignadas a un total de 1.000 imágenes que pasaron por el sistema.
Los investigadores señalan que mejorar la iluminación logró una mejor puntuación de atractivo para los sujetos en las fotos que varios otros cambios posibles (es decir, al aspecto real de la persona representada).
Hasta cierto punto, probar el sistema de esta manera está limitado por las excentricidades de los datos SCUT, que no tienen muchas ‘sonrisas brillantes’, y los autores argumentan que esto podría sobrevalorar excesivamente la apariencia más ‘enigmática’ en los datos, en comparación con las preferencias probables de los usuarios finales objetivo (presumiblemente, en este caso, un mercado occidental).
Sin embargo, dado que todo el sistema se basa en las opiniones promedio de solo 60 personas (en el artículo EigenGAN), y dado que la calidad que se estudia está lejos de ser empírica, se podría argumentar que el procedimiento es más sólido que el conjunto de datos.
Aunque se trata muy brevemente en el artículo, las imágenes del EigenGAN y las cinco variantes del sistema se mostraron en un estudio de usuario limitado (ocho participantes), a quienes se les pidió que seleccionaran la ‘mejor imagen’ (se evitó la palabra ‘atractiva’).

Arriba, la GUI presentada al pequeño grupo de estudio; abajo, los resultados.
Los resultados indican que la salida del nuevo sistema logró la tasa de selección más alta entre los participantes (‘MAES’ en la imagen arriba).
La búsqueda (sin rumbo?) de la belleza
La utilidad de tal sistema es difícil de establecer, a pesar de lo que parece ser un notable lugar de esfuerzo en China hacia estos objetivos. Ninguno se describe en la nueva publicación.
El artículo anterior EigenGAN sugiere* que un sistema de reconocimiento de belleza podría usarse en sistemas de recomendación de síntesis de maquillaje facial, cirugía estética, embellecimiento de caras, o recuperación de imágenes basada en contenido.
Presumiblemente, tal enfoque también podría usarse en sitios de citas, por parte de los usuarios, para ‘mejorar’ sus propias fotos de perfil en una ‘foto afortunada’ garantizada, como alternativa a usar fotos antiguas o fotos de otras personas.
Asimismo, los sitios de citas también podrían ‘puntuar’ a sus clientes para crear calificaciones y incluso niveles de acceso restringido, aunque esto presumiblemente solo funcionaría a través de una captura de autenticación en vivo, en lugar de fotos presentadas (que también podrían ser ‘mejoradas’ por los clientes, si el enfoque se volviera popular).
En publicidad, un método algorítmico para evaluar la belleza (una tecnología predicha por el fallecido autor de ciencia ficción Michael Crichton en su película de 1982 Looker) podría usarse para seleccionar la salida creativa no mejorada más probable de atraer a una audiencia objetivo, mientras que la capacidad de maximizar realmente el impacto estético de las imágenes de caras, sin sobrescribirlos en el estilo de los deepfakes, podría mejorar las imágenes ya efectivas destinadas a atraer el interés público.
El nuevo trabajo es apoyado por la Fundación Nacional de Ciencias Naturales de China, el Proyecto de Apoyo Abierto del Laboratorio Estatal de Gestión y Control de Sistemas Complejos, y el Proyecto de Investigación de Filosofía y Ciencias Sociales del Ministerio de Educación de China, entre otros apoyos.
* Muchas de las recomendaciones del artículo EigenGAN apuntan hacia un libro comercialmente disponible de 2016 titulado ‘Modelos de computadora para el análisis de la belleza facial’, en lugar de recursos académicos.
Publicado por primera vez el 11 de agosto de 2022.













