Inteligencia artificial

SofGAN: Un generador de caras GAN que ofrece un mayor control

Published August 9, 2021

Updated April 5, 2026

Martin Anderson

Los investigadores en Shanghai y EE. UU. han desarrollado un sistema de generación de retratos basado en GAN que permite a los usuarios crear caras nuevas con un nivel de control sin precedentes sobre aspectos individuales como el cabello, los ojos, las gafas, las texturas y el color.

Para demostrar la versatilidad del sistema, los creadores han proporcionado una interfaz de estilo Photoshop en la que un usuario puede dibujar directamente elementos de segmentación semántica que se reinterpretarán en imágenes realistas, y que incluso se pueden obtener dibujando directamente sobre fotografías existentes.

En el ejemplo a continuación, se utiliza una foto del actor Daniel Radcliffe como plantilla de trazado (y el objetivo no es producir un parecido con él, sino una imagen generalmente fotorealista). A medida que el usuario rellena varios elementos, incluidos aspectos discretos como las gafas, se identifican y se interpretan en la imagen de dibujo de salida:

Usando una imagen como material de trazado para un retrato generado por SofGAN. Fuente: https://www.youtube.com/watch?v=xig8ZA3DVZ8

El artículo se titula SofGAN: Un generador de imágenes de retrato con estilismo dinámico, y está liderado por Anpei Chen y Ruiyang Liu, junto con dos otros investigadores de la Universidad ShanghaiTech y otro de la Universidad de California en San Diego.

Desentrelazando características

La contribución principal del trabajo no es tanto proporcionar una experiencia de usuario amigable, sino más bien “desentrelazar” las características de los rasgos faciales aprendidos, como la pose y la textura, lo que permite que SofGAN también genere caras que están en ángulos indirectos con respecto al punto de vista de la cámara.

Inusual entre los generadores de caras basados en Redes Adversarias Generativas, SofGAN puede cambiar el ángulo de vista a voluntad, dentro de los límites del conjunto de ángulos presentes en los datos de entrenamiento. Fuente: https://arxiv.org/pdf/2007.03780.pdf

Dado que las texturas ahora están desentrelazadas de la geometría, la forma y la textura de la cara también se pueden manipular como entidades separadas. En efecto, esto permite cambiar la raza de una cara de origen, una práctica escandalosa que ahora tiene una aplicación potencialmente útil, para la creación de conjuntos de datos de aprendizaje automático equilibrados racialmente.

SofGAN también admite envejecimiento artificial y ajuste de estilo consistente con los atributos a un nivel granular sin precedentes en sistemas de segmentación similares a imágenes, como NVIDIA’s GauGAN y el sistema de renderizado neural basado en juegos de Intel sistema.

SofGAN puede implementar el envejecimiento como un estilo iterativo.

Otra innovación en la metodología de SofGAN es que el entrenamiento no requiere imágenes reales emparejadas con segmentación, sino que se puede entrenar directamente en imágenes del mundo real no emparejadas.

Los investigadores afirman que la arquitectura “desentrelazadora” de SofGAN se inspiró en los sistemas de renderizado de imágenes tradicionales, que descomponen los elementos individuales de una imagen. En los flujos de trabajo de efectos visuales, los elementos para una composición se descomponen rutinariamente en los componentes más mínimos, con especialistas dedicados a cada componente.

Campo de ocupación semántico (SOF)

Para lograr esto en un marco de síntesis de imágenes de aprendizaje automático, los investigadores desarrollaron un campo de ocupación semántico (SOF), una extensión del campo de ocupación tradicional que individualiza los elementos componentes de los retratos faciales. El SOF se entrenó en mapas de segmentación semántica de múltiples vistas calibrados, pero sin supervisión de verdad fundamentada.

Iteraciones múltiples a partir de un solo mapa de segmentación (abajo a la izquierda).

Además, los mapas de segmentación 2D se obtienen mediante ray-tracing de la salida del SOF, antes de ser texturizados por un generador GAN. Los mapas de segmentación semántica “sintéticos” también se codifican en un espacio de baja dimensión a través de un codificador de tres capas para garantizar la continuidad de la salida cuando se cambia el punto de vista.

El esquema de entrenamiento combina espacialmente dos estilos aleatorios para cada región semántica:

La arquitectura para SofGAN.

Los investigadores afirman que SofGAN logra una distancia de Frechet Inception (FID) más baja que los enfoques actuales alternativos del estado del arte (SOTA), así como una métrica de similitud de parches de imagen aprendida (LPIPS) más alta.

Los enfoques de StyleGAN anteriores a menudo se han visto obstaculizados por la entrelazamiento de características, en el que los elementos que componen una imagen están irreparablemente unidos entre sí, lo que provoca la aparición de elementos no deseados junto con un elemento deseado (es decir, los pendientes pueden aparecer cuando se representa una forma de oreja que se informó en el momento del entrenamiento con una imagen que presentaba pendientes).