Inteligencia artificial

Adobe Research Extends Disentangled GAN Face Editing

Published February 16, 2022

Updated April 5, 2026

Martin Anderson

No es difícil entender por qué entanglement es un problema en la síntesis de imágenes, porque a menudo es un problema en otras áreas de la vida; por ejemplo, es mucho más difícil eliminar el curry de un plato de curry que desechar el pepino en una hamburguesa, y es prácticamente imposible desendulzar una taza de café. Algunas cosas simplemente vienen empaquetadas.

De manera similar, el entanglement es un obstáculo para las arquitecturas de síntesis de imágenes que idealmente les gustaría separar diferentes características y conceptos al utilizar el aprendizaje automático para crear o editar caras (o perros, barcos, o cualquier otro dominio).

Si pudieras separar hebras como edad, género, color de cabello, tono de piel, emoción, y así sucesivamente, tendrías los comienzos de una verdadera instrumentación y flexibilidad en un marco que podría crear y editar imágenes de caras a un nivel verdaderamente granular, sin arrastrar “pasajeros” no deseados en estas conversiones.

En el entanglement máximo (arriba a la izquierda), solo puedes cambiar la imagen de una red GAN aprendida a la imagen de otra persona.

Esto es efectivamente utilizar la última tecnología de visión artificial para lograr algo que se resolvió por otros medios hace más de treinta años.

Con algún grado de separación (‘Separación media’ en la imagen anterior), es posible realizar cambios basados en el estilo como el color del cabello, la expresión, la aplicación de cosméticos y la rotación limitada de la cabeza, entre otros.

Fuente: FEAT: Face Editing with Attention, febrero 2022, https://arxiv.org/pdf/2202.02713.pdf

Ha habido varios intentos en los últimos dos años de crear entornos de edición de caras interactivos que permitan a un usuario cambiar las características faciales con controles deslizantes y otras interacciones de interfaz de usuario tradicionales, manteniendo las características básicas de la cara objetivo intactas al realizar adiciones o cambios. Sin embargo, esto ha resultado un desafío debido al entanglement subyacente de características/estilo en el espacio latente de la GAN.

Por ejemplo, el rasgo de gafas a menudo se entrelaza con el rasgo de envejecimiento, lo que significa que agregar gafas también puede “envejecer” la cara, mientras que envejecer la cara puede agregar gafas, dependiendo del grado de separación de características de alto nivel aplicadas (ver ‘Pruebas’ a continuación para ejemplos).

Lo más notable es que ha sido casi imposible alterar el color del cabello y otros aspectos del cabello sin que las hebras de cabello y la disposición sean recalculadas, lo que da un efecto de “chisporroteo”, de transición.

Fuente: InterFaceGAN Demo (CVPR 2020), https://www.youtube.com/watch?v=uoftpl3Bj6w

Latent-to-Latent GAN Traversal

Un nuevo artículo liderado por Adobe presentado para WACV 2022 ofrece un enfoque novedoso para estos problemas subyacentes en un artículo titulado Latent to Latent: A Learned Mapper for Identity Preserving Editing of Multiple Face Attributes in StyleGAN-generated Images.

Material suplementario del artículo Latent to Latent: A Learned Mapper for Identity Preserving Editing of Multiple Face Attributes in StyleGAN-generated Images. Aquí vemos que las características básicas en la cara aprendida no se arrastran en cambios no relacionados. Ver el video incrustado al final del artículo para más detalles y resolución. Fuente: https://www.youtube.com/watch?v=rf_61llRH0Q

El artículo está liderado por el científico aplicado de Adobe Siavash Khodadadeh, junto con cuatro otros investigadores de Adobe y un investigador del Departamento de Ciencias de la Computación de la Universidad de Central Florida.

El artículo es interesante en parte porque Adobe ha estado operando en este espacio durante algún tiempo, y es tentador imaginar esta funcionalidad ingresando en un proyecto de Creative Suite en los próximos años; pero principalmente porque la arquitectura creada para el proyecto toma un enfoque diferente para mantener la integridad visual en un editor de caras GAN mientras se aplican cambios.