Ângulo de Anderson

SofGAN: Um Gerador de Faces baseado em GAN que Oferece Maior Controle

Publicado em 9 de agosto de 2021

Atualizado em 24 de maio de 2026

Por

Martin Anderson

Pesquisadores em Xangai e nos EUA desenvolveram um sistema de geração de retratos baseado em GAN que permite aos usuários criar faces novas com um nível de controle sobre aspectos individuais, como cabelo, olhos, óculos, texturas e cor, nunca antes disponível.

Para demonstrar a versatilidade do sistema, os criadores forneceram uma interface estilo Photoshop, onde um usuário pode desenhar diretamente elementos de segmentação semântica que serão reinterpretados em imagens realistas, e que podem ser obtidos desenhando diretamente sobre fotografias existentes.

No exemplo abaixo, uma foto do ator Daniel Radcliffe é usada como modelo de traçado (e o objetivo não é produzir uma semelhança com ele, mas sim uma imagem fotorealista em geral). À medida que o usuário preenche os elementos, incluindo facetas discretas, como óculos, eles são identificados e interpretados na imagem de saída:

Usando uma imagem como material de traçado para um retrato gerado por SofGAN. Fonte: https://www.youtube.com/watch?v=xig8ZA3DVZ8

O artigo é intitulado SofGAN: Um Gerador de Imagens de Retrato com Estilo Dinâmico e é liderado por Anpei Chen e Ruiyang Liu, juntamente com dois outros pesquisadores da Universidade de Xangai e outro da Universidade da Califórnia em San Diego.

Desembaralhando Recursos

A principal contribuição do trabalho não está tanto em fornecer uma interface de usuário amigável, mas sim em “desembaralhar” as características de recursos faciais aprendidos, como pose e textura, o que permite que o SofGAN também gere faces que estão em ângulos indiretos em relação à visão da câmera.

Incomum entre os geradores de faces baseados em Redes Adversárias Generativas, o SofGAN pode alterar o ângulo de visão à vontade, dentro dos limites do conjunto de ângulos presentes nos dados de treinamento. Fonte: https://arxiv.org/pdf/2007.03780.pdf

Desde que as texturas agora estão desembaralhadas da geometria, a forma do rosto e a textura podem ser manipuladas como entidades separadas. Em essência, isso permite a alteração da raça de uma face de origem, uma prática escandalosa que agora tem uma aplicação potencialmente útil, para a criação de conjuntos de dados de aprendizado de máquina racialmente equilibrados.

O SofGAN também suporta envelhecimento artificial e ajuste de estilo consistente com atributos em um nível granular nunca antes visto em sistemas de segmentação para imagem semelhantes, como o GauGAN da NVIDIA e o sistema de renderização neural da Intel.

O SofGAN é capaz de implementar o envelhecimento como um estilo iterativo.

Outro avanço na metodologia do SofGAN é que o treinamento não requer imagens de segmentação/imagens reais em pares, mas pode ser treinado diretamente em imagens do mundo real não emparelhadas.

Os pesquisadores afirmam que a arquitetura de “desembaralhamento” do SofGAN foi inspirada em sistemas de renderização de imagens tradicionais, que decompoem os elementos individuais de uma imagem. Em fluxos de trabalho de efeitos visuais, os elementos para uma composição são rotineiramente quebrados em componentes mínimos, com especialistas dedicados a cada componente.

Campo de Ocupação Semântico (SOF)

Para alcançar isso em um quadro de síntese de imagem de aprendizado de máquina, os pesquisadores desenvolveram um campo de ocupação semântico (SOF), uma extensão do campo de ocupação tradicional que individua os elementos componentes de retratos faciais. O SOF foi treinado em mapas de segmentação semântica multi-vista calibrados, mas sem supervisão de ground truth.

Múltiplas iterações a partir de um único mapa de segmentação (abaixo à esquerda).

Além disso, mapas de segmentação 2D são obtidos traçando a saída do SOF, antes de serem texturizados por um gerador GAN. Os mapas de segmentação semântica “sintéticos” também são codificados em um espaço de baixa dimensionalidade por meio de um codificador de três camadas para garantir a continuidade da saída quando a visão é alterada.

O esquema de treinamento mistura espacialmente dois estilos aleatórios para cada região semântica:

A arquitetura do SofGAN.

Os pesquisadores afirmam que o SofGAN alcança uma distância de Frechet Inception (FID) mais baixa do que as abordagens atuais do estado da arte (SOTA), bem como uma métrica de semelhança de imagem de patch de aprendizado perceptual (LPIPS) mais alta.

Abordagens anteriores de StyleGAN frequentemente foram prejudicadas pelo emaranhamento de recursos, no qual os elementos que compõem uma imagem estão irretrievavelmente ligados uns aos outros, causando a aparição de elementos indesejados ao lado de um elemento desejado (por exemplo, brincos podem aparecer quando uma forma de orelha é renderizada que foi informada no treinamento por uma foto que apresentava brincos).

Ray marching é usado para calcular o volume dos mapas de segmentação semântica, permitindo múltiplas visões.

Conjuntos de Dados e Treinamento

Três conjuntos de dados foram usados no desenvolvimento de várias implementações do SofGAN: CelebAMask-HQ, um repositório de 30.000 imagens de alta resolução tiradas do conjunto de dados CelebA-HQ; o conjunto de dados Flickr-Faces-HQ da NVIDIA (FFHQ), que contém 70.000 imagens, onde os pesquisadores rotularam as imagens com um analisador de faces pré-treinado; e um grupo de 122 varreduras de retrato produzido por eles mesmos com regiões semânticas rotuladas manualmente.

O SOF é composto por três sub-módulos treináveis: a hiper-rede, um ray marcher (veja a imagem acima) e um classificador. O gerador de estilo do projeto, o Semantic Instance Wised (SIW) StyleGAN, é configurado de forma semelhante ao StyleGAN2 em certos aspectos. Aumento de dados é aplicado por meio de escalonamento e recorte aleatórios, e o treinamento apresenta regularização de caminho a cada quatro etapas. O procedimento de treinamento completo levou 22 dias para atingir 800.000 iterações em quatro GPUs RTX 2080 Ti sobre CUDA 10.1.

O artigo não menciona a configuração dos cartões 2080, que podem acomodar entre 11Gb e 22Gb de VRAM cada, o que significa que a VRAM total empregada para a maior parte de um mês para treinar o SofGAN está em algum lugar entre 44Gb e 88Gb.

Os pesquisadores observam que resultados geralizados e de alto nível começaram a surgir cedo no treinamento, em 1500 iterações, três dias de treinamento. O restante do treinamento foi ocupado com o crawl previsível e lento em direção à obtenção de detalhes finos, como cabelo e facetas de olhos.

O SofGAN geralmente alcança resultados mais realistas a partir de um único mapa de segmentação do que os métodos rivais, como o SPADE da NVIDIA e o Pix2PixHD, e o SEAN.