Inteligência artificial
Orquestrando a Síntese Facial com Segmentação Semântica

O problema de inventar rostos humanos com uma Rede Adversária Generativa (GAN) é que os dados do mundo real que alimentam as imagens falsas vêm com acréscimos indesejados e inseparáveis, como cabelo na cabeça (e/ou rosto), fundos e vários tipos de “mobília” facial, como óculos, chapéus e brincos; e que esses aspectos periféricos da personalidade inevitavelmente se tornam ligados a uma identidade “fundida”.
Sob as arquiteturas de GAN mais comuns, esses elementos não são endereçáveis em seu próprio espaço dedicado, mas sim estão bastante associados ao rosto em (ou ao redor) do qual estão embutidos.
Também não é possível, em geral, ditar ou afetar a aparência de subseções de um rosto criado por uma GAN, como estreitar os olhos, alongar o nariz ou mudar a cor do cabelo, da maneira como um artista de esboço policial poderia.
No entanto, o setor de pesquisa de síntese de imagens está trabalhando nisso:

Nova pesquisa sobre geração de rostos baseada em GAN separou as várias seções de um rosto em áreas distintas, cada uma com seu próprio ‘gerador’, trabalhando em conjunto com outros geradores para a imagem. Na linha do meio, vemos o ‘mapa de recursos’ orquestrador construindo áreas adicionais do rosto. Fonte: https://arxiv.org/pdf/2112.02236.pdf
Em um novo artigo, pesquisadores do braço dos EUA da gigante tecnológica chinesa ByteDance usaram segmentação semântica para quebrar as partes constituintes do rosto em seções discretas, cada uma das quais é alocada seu próprio gerador, para que seja possível alcançar um grau maior de desembaraço. Ou, pelo menos, desembaraço perceptual.
O artigo é intitulado SemanticStyleGAN: Aprendizado de Priores Generativos Composicionais para Síntese e Edição de Imagens Controláveis, e é acompanhado por uma página de projeto rica em mídia projeto com múltiplos exemplos das várias transformações de granulação fina que podem ser alcançadas quando os elementos faciais e de cabeça são isolados desta maneira.

Textura facial, estilo e cor do cabelo, forma e cor dos olhos e muitos outros aspectos de recursos gerados por GAN anteriormente indissolúveis agora podem ser de fato desembaraçados, embora a qualidade da separação e o nível de instrumentalidade provavelmente variem de caso para caso. Fonte: https://semanticstylegan.github.io/
O Espaço Latente Incontrolável
Uma Rede Adversária Generativa treinada para gerar rostos – como o StyleGan2 gerador que alimenta o popular site thispersondoesnotexist.com – forma inter-relações complexas entre os ‘recursos’ (não no sentido facial) que ela deriva da análise de milhares de rostos do mundo real, para aprender a fazer rostos humanos realistas por si mesma.
Esses processos clandestinos são ‘códigos latentes’, coletivamente o espaço latente. Eles são difíceis de analisar e, consequentemente, difíceis de instrumentalizar.
Na semana passada, um novo projeto de síntese de imagens emergiu que tenta ‘mapear’ esse espaço quase oculto durante o próprio processo de treinamento, e então usar esses mapas para navegar interativamente nele, e várias outras soluções foram propostas para ganhar um controle mais profundo do conteúdo sintetizado por GAN.
Alguns progressos foram feitos, com uma oferta diversificada de arquiteturas de GAN que tentam ‘alcançar’ o espaço latente de alguma forma e controlar as gerações faciais a partir daí. Tais esforços incluem InterFaceGAN, StyleFlow, GANSpace e StyleRig, entre outras ofertas em um fluxo constante de novos artigos.
O que eles têm em comum é um grau limitado de desembaraço; os controles de GUI engenhosos para vários aspectos (como ‘cabelo’ ou ‘expressão’) tendem a arrastar o fundo e/ou outros elementos para o processo de transformação, e nenhum deles (incluindo o artigo discutido aqui) resolveu o problema do cabelo neural temporal.
Dividindo e Conquistando o Espaço Latente
Em qualquer caso, a pesquisa da ByteDance adota uma abordagem diferente: em vez de tentar discernir os mistérios de uma única GAN operando sobre uma imagem de rosto gerada inteira, o SemanticStyleGAN formula uma abordagem baseada em layout, onde os rostos são ‘compostos’ por processos de gerador separados.
Para alcançar essa distinção de (recursos) faciais, o SemanticStyleGAN usa Recursos de Fourier para gerar um mapa de segmentação semântica (distinções de topografia facial grosseiramente coloridas, mostradas em direção à parte inferior direita da imagem abaixo) para isolar as áreas faciais que receberão atenção individual e dedicada.

Arquitetura da nova abordagem, que impõe uma camada intersticial de segmentação semântica sobre o rosto, efetivamente transformando o framework em um orquestrador de vários geradores para diferentes facetas de uma imagem.
Os mapas de segmentação são gerados para as imagens falsas que são apresentadas sistematicamente ao discriminador da GAN para avaliação à medida que o modelo melhora, e às imagens de fonte (não falsas) usadas para treinamento.
No início do processo, uma Rede Neural Multicamada (MLP) inicialmente mapeia códigos latentes aleatoriamente escolhidos, que então serão usados para controlar os pesos dos vários geradores que cada um tomará controle de uma seção da imagem de rosto a ser produzida.
Cada gerador cria um mapa de recursos e um mapa de profundidade simulado a partir dos recursos de Fourier que são alimentados a ele upstream. Essa saída é a base para as máscaras de segmentação.
A rede de renderização downstream é condicionada apenas pelos mapas de recursos anteriores e agora sabe como gerar uma máscara de segmentação de alta resolução, facilitando a produção final da imagem.
Finalmente, um discriminador bifurcado supervisiona a distribuição concatenada de imagens RGB (que são, para nós, o resultado final) e as máscaras de segmentação que permitiram que elas fossem separadas.
Com o SemanticStyleGAN, não há perturbações visuais indesejadas quando ‘ajustando’ as alterações de recursos faciais, porque cada recurso facial foi treinado separadamente dentro do framework de orquestração.
Substituindo Fundos
Porque a intenção do projeto é ganhar um controle maior do ambiente gerado, o processo de renderização/composição inclui um gerador de fundo treinado em imagens reais.
Como as máscaras de segmentação resultarão em rostos sem fundos, esses ‘fundos de queda’ não apenas fornecem contexto, mas também são configurados para serem apropriados em termos de iluminação para os rostos superpostos.
Treinamento e Dados
Os modelos ‘realistas’ foram treinados nas 28.000 imagens iniciais em CelebAMask-HQ, redimensionadas para 256×256 pixels para acomodar o espaço de treinamento (ou seja, a VRAM disponível, que dita um tamanho de lote máximo por iteração).
Vários modelos foram treinados e ferramentas, conjuntos de dados e arquiteturas diversificados experimentados durante o processo de desenvolvimento e vários testes de ablação. O modelo mais produtivo do projeto apresentou resolução de 512×512, treinado durante 2,5 dias em oito GPUs NVIDIA Tesla V100. Após o treinamento, a geração de uma única imagem leva 0,137s em um GPU lobe sem paralelização.
Os experimentos mais cartoon/anime demonstrados nos muitos vídeos na página do projeto (veja link acima) são derivados de vários conjuntos de dados de rostos populares, incluindo Toonify, MetFaces e Bitmoji.
Uma Solução Temporária?
Os autores defendem que não há razão para que o SemanticStyleGAN não possa ser aplicado a outros domínios, como paisagens, carros, igrejas e todos os outros ‘domínios de teste padrão’ aos quais as novas arquiteturas são rotineiramente submetidas no início de suas carreiras.
No entanto, o artigo admite que, à medida que o número de classes aumenta para um domínio (como ‘carro’, ‘poste de iluminação’, ‘pedestre’, ‘prédio’, ‘carro’ etc.), essa abordagem por partes pode se tornar inoperável de várias maneiras, sem mais trabalho sobre otimização. O conjunto de dados urbanos CityScapes, por exemplo, tem 30 classes em 8 categorias.
É difícil dizer se o interesse atual em conquistar o espaço latente mais diretamente está tão condenado quanto a alquimia; ou se os códigos latentes eventualmente serão decifráveis e controláveis – um desenvolvimento que poderia tornar essa abordagem mais ‘externamente complexa’ redundante.











