Contáctenos

Un sistema de inteligencia artificial que puede hacer que las imágenes de personas sean más 'hermosas'

Inteligencia Artificial

Un sistema de inteligencia artificial que puede hacer que las imágenes de personas sean más 'hermosas'

mm
Actualizado on
Imagen de fondo: DALL-E 2 'Fotografía 8K galardonada de la modelo de pasarela caucásica más hermosa del mundo' - https://labs.openai.com/s/kRXusxOR5GcYyb6pqZjNH2AA
Imagen de fondo: DALL-E 2 'Fotografía 8K galardonada de la modelo de pasarela caucásica más hermosa del mundo' - https://labs.openai.com/s/kRXusxOR5GcYyb6pqZjNH2AA

Investigadores de China han desarrollado un nuevo sistema de mejora de imágenes basado en IA que es capaz de hacer que las imágenes de una persona sean más "hermosas", basándose en un enfoque novedoso para el aprendizaje por refuerzo.

El nuevo enfoque utiliza una "red de predicción de la belleza facial" para iterar a través de las variaciones de una imagen en función de una serie de factores, entre los que la "iluminación" y las posturas de los ojos pueden ser factores críticos. Aquí las fuentes originales (a la izquierda de cada columna) son del sistema EigenGAN, con los nuevos resultados a la derecha de estas. Fuente: https://arxiv.org/pdf/2208.04517.pdf

El nuevo enfoque utiliza una 'red de predicción de la belleza facial' para iterar a través de las variaciones de una imagen en función de una serie de factores, entre los que la 'iluminación' y las posturas de los ojos pueden ser factores críticos. Aquí las fuentes originales (a la izquierda de cada columna) son del sistema EigenGAN, con los nuevos resultados a la derecha de estas. Fuente: https://arxiv.org/pdf/2208.04517.pdf

La técnica se basa en innovaciones descubiertas para la generador de EigenGAN, otro proyecto chino, de 2021, que logró avances notables en la identificación y el control de los diversos atributos semánticos dentro del espacio latente de Generative Adversarial Networks (GANs).

El generador EigenGAN 2021 pudo individualizar conceptos de alto nivel como el 'color de cabello' dentro del espacio latente de una red antagónica generativa. El nuevo trabajo se basa en este instrumento innovador para ofrecer un sistema que puede 'embellecer' las imágenes de origen, pero sin cambiar la identidad reconocible, un problema en los enfoques anteriores. Fuente: https://arxiv.org/pdf/2104.12476.pdf

El generador EigenGAN 2021 pudo individualizar conceptos de alto nivel como el 'color de cabello' dentro del espacio latente de una red antagónica generativa. El nuevo trabajo se basa en este instrumento innovador para ofrecer un sistema que puede 'embellecer' las imágenes de origen, pero sin cambiar la identidad reconocible, un problema en los enfoques anteriores. Fuente: https://arxiv.org/pdf/2104.12476.pdf

El sistema hace uso de una 'red de puntuación estética' derivada de SCUT-FBP5500 (SCUT), un conjunto de datos de referencia de 2018 para la predicción de la belleza facial, de la Universidad Tecnológica del Sur de China en Guangzhou.

Del artículo de 2018 'SCUT-FBP5500: A Diverse Benchmark Dataset for Multi-Paradigm Facial Beauty Prediction', que ofreció una red de 'Predicción de belleza facial' (FBP) capaz de clasificar rostros en términos de atractivo percibido, pero que en realidad no podía transformar o 'actualizar' las caras. Fuente: https://arxiv.org/pdf/1801.06345.pdf

Del artículo de 2018 'SCUT-FBP5500: A Diverse Benchmark Dataset for Multi-Paradigm Facial Beauty Prediction', que ofreció una red de 'Predicción de belleza facial' (FBP) capaz de clasificar rostros en términos de atractivo percibido, pero que en realidad no podía transformar o 'actualizar' las caras.  Fuente: https://arxiv.org/pdf/1801.06345.pdf

A diferencia del nuevo trabajo, el proyecto de 2018 en realidad no puede ejecutar transformaciones, pero contiene juicios de valor algorítmicos para 5,500 rostros, proporcionados por 60 etiquetadores de género mixto (una división 50/50). Estos se han incorporado al nuevo sistema como un medio efectivo discriminado, para informar las transformaciones que probablemente mejoren el "atractivo" de una imagen.

Curiosamente, el nuevo documento se titula Atributo controlable generación de hermosos rostros caucásicos mediante aprendizaje por refuerzo impulsado por la estética. La razón por la que todas las razas, excepto la caucásica, están excluidas del sistema (considere también que los propios investigadores son chinos) se debe a que los datos fuente de SCUT se sesgan notablemente a fuentes asiáticas (4000 mujeres/hombres asiáticos divididos uniformemente, 1500 mujeres caucásicas divididas equitativamente). /hombres), lo que hace que la 'persona promedio' en ese conjunto de datos sea de cabello castaño y ojos marrones.

Por lo tanto, para acomodar la variación de coloración al menos dentro de una raza, fue necesario excluir el componente asiático de los datos originales, o bien realizar el considerable gasto de reconstituir los datos para desarrollar un método que podría no haber funcionado. Además, variación en las percepciones culturales de la belleza significan inevitablemente que dichos sistemas necesitarán cierto grado de configurabilidad geográfica con respecto a lo que constituye el "atractivo".

Atributos pertinentes

Para determinar los principales factores que contribuyen a una foto 'atractiva' de una persona, los investigadores también probaron el efecto de varios cambios en las imágenes, en términos de qué tan bien dichos aumentos impulsaron la percepción algorítmica de 'belleza'. Descubrieron que al menos una de las facetas es más central para una buena fotografía que una buena genética:

Además de la iluminación, los aspectos que tuvieron el mayor impacto en la puntuación de belleza fueron el flequillo (que, en el caso de los hombres, a menudo puede ser equivalente a tener la cabeza llena de cabello), la postura del cuerpo y la disposición de los ojos (donde el compromiso con el el punto de vista de la cámara es un estímulo para el atractivo).

(Con respecto al 'color de lápiz labial', el nuevo sistema, que puede funcionar de manera efectiva en las representaciones de género tanto masculinas como femeninas, no individualiza la apariencia de género, sino que se basa en el nuevo sistema discriminador como un 'filtro' a este respecto)

Método

La función de recompensa en el mecanismo de aprendizaje por refuerzo en el nuevo sistema está impulsada por una regresión directa sobre los datos SCUT, que genera predicciones de belleza facial.

El sistema de entrenamiento itera sobre las imágenes de entrada de datos (abajo a la izquierda en el siguiente esquema). Inicialmente un preentrenado ResNet18 modelo (entrenado en ImagenNet) extrae características de las cinco imágenes idénticas ('y'). A continuación, una acción transformadora potencial se deriva del estado oculto de un capa totalmente conectada (GRUCell, en la imagen de abajo), y las transformaciones aplicadas, dando lugar a cinco imágenes alteradas que se introducen en la red de puntuación estética, cuyas clasificaciones, al estilo de Darwin, determinarán qué variaciones se desarrollarán y cuáles se descartarán.

Una ilustración amplia del flujo de trabajo para el nuevo sistema.

Una ilustración del flujo de trabajo para el nuevo sistema.

La red de puntuación estética utiliza un Canal de Atención Eficiente (ACE), mientras que una adaptación de una instancia pre-entrenada de EfficientNet-B4 tiene la tarea de extraer 1,792 características de cada imagen.

Después de la normalización a través de un Función de activación ReLU, se obtiene un vector de 4 dimensiones del módulo ECA, que luego se aplana a un vector unidimensional después de la activación y agrupación promedio adaptativa. Finalmente, los resultados se introducen en el red de regresión, que recupera una puntuación estética.

Una comparación cualitativa de la salida del sistema. En la fila inferior, vemos la suma agregada de todas las facetas individualizadas que han sido identificadas por el método EigenGAN y posteriormente mejoradas. Las puntuaciones FID promediadas para las imágenes se encuentran a la izquierda de las filas de imágenes (cuanto más alto, mejor).

Una comparación cualitativa de la salida del sistema. En la fila inferior, vemos la suma agregada de todas las facetas individualizadas que han sido identificadas por el método EigenGAN y posteriormente mejoradas. Las puntuaciones FID promediadas para las imágenes se encuentran a la izquierda de las filas de imágenes (cuanto más alto, mejor).

Pruebas y Estudio de Usuario

Se evaluaron algorítmicamente cinco variantes del método propuesto (ver imagen arriba), con distancia de inicio de Fréchet (FID, controvertido en algunos sectores) puntuaciones asignadas a un total de 1000 imágenes pasadas por el sistema.

Los investigadores señalan que mejorar la iluminación logró una mejor puntuación de atractivo para los sujetos en las fotos que varios otros cambios posibles más "obvios" (es decir, en la apariencia real de la persona representada).

Hasta cierto punto, probar el sistema de esta manera está limitado por las excentricidades de los datos SCUT, que no tienen muchas 'sonrisas brillantes', y los autores argumentan que esto podría sobrevalorar excesivamente la apariencia 'enigmática' más típica en los datos, en comparación con las preferencias probables de los posibles usuarios finales objetivo (presumiblemente, en este caso, un mercado occidental).

Sin embargo, dado que todo el sistema depende de las opiniones promedio promedio de solo 60 personas (en el artículo de EigenGAN), y dado que la calidad que se estudia está lejos de ser empírica, se podría argumentar que el procedimiento es más sólido que el conjunto de datos.

Aunque se trata muy brevemente en el documento, las imágenes de EigenGAN y las cinco variantes propias del sistema también se mostraron en un estudio de usuarios limitado (ocho participantes), a quienes se les pidió que seleccionaran la 'mejor imagen' (la palabra 'atractiva' fue evitado).

Arriba, la GUI presentada al pequeño grupo de estudio; abajo, los resultados.

Arriba, la GUI presentada al pequeño grupo de estudio; abajo, los resultados.

Los resultados indican que la salida del nuevo sistema logró la tasa de selección más alta entre los participantes ('MAES' en la imagen de arriba).

La (¿sin rumbo?) búsqueda de la belleza

La utilidad de tal sistema es difícil de establecer, a pesar de lo que parece ser un notable loci of esfuerzo in China hacia estos objetivos. Ninguno se describe en la nueva publicación.

El artículo anterior de EigenGAN sugiere* que un sistema de reconocimiento de belleza podría usarse en tratamientos faciales. sistemas de recomendación de síntesis de maquillaje, cirugía estética, embellecimiento de la carao recuperación de imágenes basada en contenido.

Es de suponer que los usuarios finales también podrían utilizar este enfoque en los sitios de citas para "mejorar" sus propias fotos de perfil y convertirlas en una "foto de la suerte" garantizada, como alternativa al uso de fotos desactualizadas o fotos de otras personas.

Del mismo modo, los propios sitios de citas también podrían 'puntuar' a sus clientes para crear calificaciones e incluso niveles de acceso restringido, aunque esto presumiblemente solo funcionaría a través de una captura de autenticación de vida, en lugar de fotos enviadas (que también podrían ser "mejoradas" por los clientes, si el enfoque se volviera popular).

En publicidad, un método algorítmico para evaluar la belleza (una tecnología predicha por el difunto autor de ciencia ficción Michael Crichton en su salida cinematográfica de 1982 Looker) podría usarse para seleccionar la producción creativa no mejorada que tenga más probabilidades de atraer a una audiencia objetivo, mientras que la capacidad de maximizar realmente el impacto estético de las imágenes de rostros, sin sobrescribirlas al estilo de los deepfakes, podría impulsar imágenes que ya son efectivas. para captar el interés público.

El nuevo trabajo cuenta con el apoyo de la Fundación Nacional de Ciencias Naturales de China, el Proyecto de Fondo Abierto del Laboratorio Estatal Clave de Gestión y Control de Sistemas Complejos, y el Proyecto de Investigación en Filosofía y Ciencias Sociales del Ministerio de Educación de China, entre otros patrocinadores.

 

* Muchas de las recomendaciones del artículo de EigenGAN apuntan a un libro de 2016 disponible comercialmente titulado "Modelos informáticos para el análisis de la belleza facial", en lugar de recursos académicos.

Publicado por primera vez el 11 de agosto de 2022.

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Exdirector de contenido de investigación en Metaphysic.ai.
sitio personal: martinanderson.ai
Contacto: [email protected]
Gorjeo: @manders_ai