toco Orquestrando a Síntese Facial com Segmentação Semântica - Unite.AI
Entre em contato

Inteligência artificial

Orquestrando a Síntese Facial com Segmentação Semântica

mm
Atualização do on

O problema de inventar rostos humanos com um Rede Adversarial Geradora (GAN) é que os dados do mundo real que alimentam as imagens falsas vêm com acessórios indesejados e inseparáveis, como cabelo na cabeça (e/ou rosto), planos de fundo e vários tipos de móveis faciais, como óculos, chapéus, e brincos; e que esses aspectos periféricos da personalidade inevitavelmente ficam ligados a uma identidade "fundida".

Nas arquiteturas GAN mais comuns, esses elementos não são endereçáveis ​​em seu próprio espaço dedicado, mas estão fortemente associados à face (ou ao redor) na qual estão incorporados.

Nem é geralmente possível ditar ou afetar a aparência de subseções de um rosto criado por um GAN, como estreitar os olhos, alongar o nariz ou mudar a cor do cabelo da maneira que um desenhista policial faria.

No entanto, o setor de pesquisa de síntese de imagens está trabalhando nisso:

Novas pesquisas sobre a geração facial baseada em GAN separaram as várias seções de um rosto em áreas distintas, cada uma com seu próprio 'gerador', trabalhando em conjunto com outros geradores para a imagem. Na linha do meio, vemos a orquestração do 'mapa de recursos' construindo áreas adicionais do rosto. Fonte: https://arxiv.org/pdf/2112.02236.pdf

Novas pesquisas sobre geração de face baseada em GAN separaram as várias seções de uma face em áreas distintas, cada uma com seu próprio 'gerador', trabalhando em conjunto com outros geradores para a imagem. Na linha do meio, vemos a orquestração do 'mapa de recursos' construindo áreas adicionais do rosto. Fonte: https://arxiv.org/pdf/2112.02236.pdf

Numa nova papel, pesquisadores do braço americano da gigante tecnológica multinacional chinesa ByteDance usaram a segmentação semântica para dividir as partes constituintes do rosto em seções discretas, cada uma com seu próprio gerador, para que seja possível alcançar um maior grau de  desenredar. Ou pelo menos, perceptual desembaraço.

A papel é intitulado SemanticStyleGAN: Aprendendo Prioridades Gerativas Composicionais para Síntese e Edição de Imagens Controláveis, e é acompanhado por uma mídia rica página do projeto apresentando vários exemplos das várias transformações refinadas que podem ser alcançadas quando os elementos faciais e da cabeça são isolados dessa maneira.

A textura facial, o estilo e a cor do cabelo, a forma e a cor dos olhos e muitos outros aspectos das características geradas pela GAN, antes indissolúveis, agora podem ser desvendados, embora a qualidade da separação e o nível de instrumentalidade provavelmente variem entre os casos. Fonte: https://semanticstylegan.github.io/

A textura facial, o estilo e a cor do cabelo, a forma e a cor dos olhos e muitos outros aspectos das características geradas pela GAN, antes indissolúveis, agora podem ser de fato  desemaranhados, embora a qualidade da separação e o nível de instrumentalidade provavelmente variem entre os casos. Fonte: https://semanticstylegan.github.io/

O Espaço Latente Ingovernável

Uma Rede Adversarial Generativa treinada para gerar rostos - como o EstiloGan2 gerador que alimenta o site popular thispersondoesnotexist.com – forma inter-relações complexas entre os 'recursos' (não no sentido facial) que deriva da análise de milhares de rostos do mundo real, a fim de aprender como criar rostos humanos realistas.

Esses processos clandestinos são 'códigos latentes', coletivamente espaço latente. São difíceis de analisar e, conseqüentemente, difíceis de instrumentalizar.

Na semana passada, surgiu um novo projeto diferente de síntese de imagens que tenta 'mapear' esse espaço quase oculto durante o próprio processo de treinamento e, em seguida, use esses mapas para navegar interativamente, e várias outras soluções foram propostas para obter um controle mais profundo do conteúdo sintetizado por GAN.

Algum progresso foi feito, com uma oferta diversificada de arquiteturas GAN que tentam "alcançar" o espaço latente de alguma forma e controlar as gerações faciais a partir daí. Tais esforços incluem InterFaceGAN, Fluxo de estilo, GANSpace e EstiloRig, entre outras ofertas em um fluxo constantemente produtivo de novos papéis.

O que todos eles têm em comum são graus limitados de desembaraço; os engenhosos controles deslizantes da GUI para várias facetas (como 'cabelo' ou 'expressão') tendem a arrastar o plano de fundo e/ou outros elementos para o processo de transformação, e nenhum deles (incluindo o artigo discutido aqui) resolveu o problema da temporalidade cabelo neural.

Dividindo e conquistando o espaço latente

De qualquer forma, a pesquisa da ByteDance adota uma abordagem diferente: em vez de tentar discernir os mistérios de uma única GAN operando em toda uma imagem facial gerada, a SemanticStyleGAN formula uma abordagem baseada em layout, em que as faces são 'compostas' por processos geradores separados.

Para alcançar essa distinção de características (faciais), o SemanticStyleGAN usa Recursos de Fourier para gerar um mapa de segmentação semântica (distinções grosseiramente coloridas da topografia facial, mostradas no canto inferior direito da imagem abaixo) para isolar as áreas faciais que receberão atenção individual e dedicada.

Arquitetura da nova abordagem, que impõe uma camada intersticial de segmentação semântica ao rosto, transformando efetivamente o framework em um orquestrador de múltiplos geradores para diferentes facetas de uma imagem.

Arquitetura da nova abordagem, que impõe uma camada intersticial de segmentação semântica ao rosto, transformando efetivamente o framework em um orquestrador de múltiplos geradores para diferentes facetas de uma imagem.

Os mapas de segmentação são gerados para as imagens falsas que são sistematicamente apresentadas ao discriminador da GAN para avaliação à medida que o modelo melhora e para as imagens de origem (não falsas) usadas para treinamento.

No início do processo, um Perceptron de várias camadas (MLP) inicialmente mapeia códigos latentes escolhidos aleatoriamente, que serão então usados ​​para controlar os pesos dos vários geradores que irão cada um assumir o controle de uma seção da imagem facial a ser produzida.

Cada gerador cria um mapa de recursos e um mapa de profundidade simulado a partir dos recursos de Fourier que são alimentados a montante. Esta saída é a base para as máscaras de segmentação.

A rede de renderização downstream é condicionada apenas pelos mapas de recursos anteriores e agora sabe como gerar uma máscara de segmentação de maior resolução, facilitando a produção final da imagem.

Por fim, um discriminador bifurcado supervisiona a distribuição concatenada tanto das imagens RGB (que são, para nós, o resultado final) quanto das máscaras de segmentação que permitiram sua separação.

Com o SemanticStyleGAN, não há perturbações visuais indesejadas ao 'discar' alterações de características faciais, porque cada característica facial foi treinada separadamente dentro da estrutura de orquestração.

Substituindo Fundos

Como a intenção do projeto é obter maior controle do ambiente gerado, o processo de renderização/composição inclui um gerador de background treinado em imagens reais.

Uma razão convincente pela qual os planos de fundo não são arrastados para as manipulações faciais no SemanticStyleGAN é que eles estão em uma camada mais distante e estão completos, embora parcialmente ocultos pelos rostos sobrepostos.

Uma razão convincente pela qual os planos de fundo não são arrastados para as manipulações faciais no SemanticStyleGAN é que eles estão em uma camada mais distante e estão completos, embora parcialmente ocultos pelos rostos sobrepostos.

Como os mapas de segmentação resultarão em rostos sem fundo, esses fundos 'drop-in' não apenas fornecem contexto, mas também são configurados para serem opostos, em termos de iluminação, aos rostos sobrepostos.

Treinamento e dados

Os modelos 'realistas' foram treinados nas 28,000 imagens iniciais em CelebAMask-HQ, redimensionado para 256×256 pixels para acomodar o espaço de treinamento (ou seja, a VRAM disponível, que determina um tamanho máximo de lote por iteração).

Vários modelos foram treinados e diversas ferramentas, conjuntos de dados e arquiteturas experimentadas durante o processo de desenvolvimento e vários testes de ablação. O maior modelo produtivo do projeto apresentou resolução de 512 × 512, treinado durante 2.5 dias em oito GPUs NVIDIA Tesla V100. Após o treinamento, a geração de uma única imagem leva 0.137s em uma GPU de lóbulo sem paralelização.

Os experimentos de estilo cartoon/anime demonstrados nos muitos vídeos na página do projeto (veja o link acima) são derivados de vários conjuntos de dados populares baseados em rostos, incluindo Toonificar, MetFaces e Bitmoji.

Uma solução paliativa?

Os autores afirmam que não há razão para que o SemanticStyleGAN não possa ser aplicado a outros domínios, como paisagens, carros, igrejas e todos os outros domínios de teste 'padrão' aos quais novas arquiteturas são rotineiramente submetidas no início de suas carreiras.

No entanto, o artigo admite que, à medida que o número de classes aumenta para um domínio (como 'carro', 'lâmpada de rua', 'pedestre', 'prédio', 'carro' etc.), essa abordagem fragmentada pode se tornar impraticável de várias maneiras, sem mais trabalho de otimização. O conjunto de dados urbanos CityScapes, por exemplo, tem 30 aulas em 8 categorias.

É difícil dizer se o interesse atual em conquistar o espaço latente de forma mais direta está tão condenado quanto a alquimia; ou se os códigos latentes serão eventualmente decifráveis ​​e controláveis ​​– um desenvolvimento que pode tornar redundante esse tipo de abordagem mais “externamente complexa”.