Entre em contato

Orquestrando a Síntese Facial com Segmentação Semântica

Inteligência artificial

Orquestrando a Síntese Facial com Segmentação Semântica

mm

O problema de inventar rostos humanos com um Rede Adversarial Geradora (GAN) é que os dados do mundo real que alimentam as imagens falsas vêm com acessórios indesejados e inseparáveis, como cabelo na cabeça (e/ou rosto), fundos e vários tipos de acessórios faciais, como óculos, chapéus e brincos; e que esses aspectos periféricos da personalidade inevitavelmente ficam vinculados a uma identidade "fundida".

Nas arquiteturas GAN mais comuns, esses elementos não são endereçáveis ​​em seu próprio espaço dedicado, mas estão intimamente associados à face na qual (ou ao redor dela) estão inseridos.

Nem é geralmente possível ditar ou afetar a aparência de subseções de um rosto criado por um GAN, como estreitar os olhos, alongar o nariz ou mudar a cor do cabelo da maneira que um desenhista policial faria.

No entanto, o setor de pesquisa de síntese de imagens está trabalhando nisso:

Novas pesquisas sobre a geração facial baseada em GAN separaram as várias seções de um rosto em áreas distintas, cada uma com seu próprio 'gerador', trabalhando em conjunto com outros geradores para a imagem. Na linha do meio, vemos a orquestração do 'mapa de recursos' construindo áreas adicionais do rosto. Fonte: https://arxiv.org/pdf/2112.02236.pdf

Uma nova pesquisa sobre geração de faces baseada em GAN separou as várias seções de uma face em áreas distintas, cada uma com seu próprio "gerador", trabalhando em conjunto com outros geradores para a imagem. Na linha do meio, vemos o "mapa de características" orquestrador construindo áreas adicionais da face. Fonte: https://arxiv.org/pdf/2112.02236.pdf

Numa nova papel, pesquisadores do braço americano da gigante tecnológica multinacional chinesa ByteDance usaram a segmentação semântica para dividir as partes constituintes do rosto em seções discretas, cada uma das quais recebe seu próprio gerador, para que seja possível atingir um maior grau de  desenredar. Ou pelo menos, perceptual desembaraço.

O papel é intitulado SemanticStyleGAN: Aprendendo Prioridades Gerativas Composicionais para Síntese e Edição de Imagens Controláveis, e é acompanhado por uma mídia rica página do projeto apresentando vários exemplos das várias transformações refinadas que podem ser alcançadas quando os elementos faciais e da cabeça são isolados dessa maneira.

A textura facial, o estilo e a cor do cabelo, a forma e a cor dos olhos e muitos outros aspectos das características geradas pela GAN, antes indissolúveis, agora podem ser desvendados, embora a qualidade da separação e o nível de instrumentalidade provavelmente variem entre os casos. Fonte: https://semanticstylegan.github.io/

A textura facial, o estilo e a cor do cabelo, a forma e a cor dos olhos e muitos outros aspectos das características geradas pela GAN, antes indissolúveis, agora podem ser de fato  desemaranhados, embora a qualidade da separação e o nível de instrumentalidade provavelmente variem entre os casos. Fonte: https://semanticstylegan.github.io/

O Espaço Latente Ingovernável

Uma Rede Adversarial Generativa treinada para gerar rostos - como o EstiloGan2 gerador que alimenta o popular site thispersondoesnotexist.com – forma inter-relações complexas entre os 'recursos' (não no sentido facial) que deriva da análise de milhares de rostos do mundo real, a fim de aprender como criar rostos humanos realistas.

Esses processos clandestinos são 'códigos latentes', coletivamente espaço latente. São difíceis de analisar e, conseqüentemente, difíceis de instrumentalizar.

Na semana passada, surgiu um novo projeto de síntese de imagens que tenta "mapear" esse espaço quase oculto durante o próprio processo de treinamento e, em seguida, use esses mapas para navegar interativamente, e várias outras soluções foram propostas para obter um controle mais profundo do conteúdo sintetizado por GAN.

Algum progresso foi feito, com uma oferta diversificada de arquiteturas GAN que tentam "alcançar" o espaço latente de alguma forma e controlar as gerações faciais a partir daí. Tais esforços incluem InterFaceGAN, Fluxo de estilo, GANSpace e EstiloRig, entre outras ofertas em um fluxo constantemente produtivo de novos papéis.

O que todos eles têm em comum são graus limitados de desembaraço; os engenhosos controles deslizantes da GUI para várias facetas (como "cabelo" ou "expressão") tendem a arrastar o fundo e/ou outros elementos para o processo de transformação, e nenhum deles (incluindo o artigo discutido aqui) resolveu o problema do cabelo neural temporal.

Dividindo e conquistando o espaço latente

Em qualquer caso, a pesquisa da ByteDance adota uma abordagem diferente: em vez de tentar discernir os mistérios de uma única GAN operando em uma imagem facial inteira gerada, a SemanticStyleGAN formula uma abordagem baseada em layout, onde os rostos são "compostos" por processos geradores separados.

Para alcançar essa distinção de características (faciais), o SemanticStyleGAN usa Recursos de Fourier para gerar um mapa de segmentação semântica (distinções grosseiramente coloridas da topografia facial, mostradas no canto inferior direito da imagem abaixo) para isolar as áreas faciais que receberão atenção individual e dedicada.

Arquitetura da nova abordagem, que impõe uma camada intersticial de segmentação semântica ao rosto, transformando efetivamente o framework em um orquestrador de múltiplos geradores para diferentes facetas de uma imagem.

Arquitetura da nova abordagem, que impõe uma camada intersticial de segmentação semântica ao rosto, transformando efetivamente o framework em um orquestrador de múltiplos geradores para diferentes facetas de uma imagem.

Os mapas de segmentação são gerados para as imagens falsas que são sistematicamente apresentadas ao discriminador do GAN para avaliação à medida que o modelo melhora, e para as imagens de origem (não falsas) usadas para treinamento.

No início do processo, um Perceptron de várias camadas (MLP) inicialmente mapeia códigos latentes escolhidos aleatoriamente, que serão então usados ​​para controlar os pesos dos vários geradores que irão cada um assumir o controle de uma seção da imagem facial a ser produzida.

Cada gerador cria um mapa de recursos e um mapa de profundidade simulado a partir dos recursos de Fourier que são alimentados a montante. Esta saída é a base para as máscaras de segmentação.

A rede de renderização downstream é condicionada apenas pelos mapas de recursos anteriores e agora sabe como gerar uma máscara de segmentação de maior resolução, facilitando a produção final da imagem.

Por fim, um discriminador bifurcado supervisiona a distribuição concatenada tanto das imagens RGB (que são, para nós, o resultado final) quanto das máscaras de segmentação que permitiram sua separação.

Com o SemanticStyleGAN, não há perturbações visuais indesejadas ao "discar" mudanças nas características faciais, porque cada característica facial foi treinada separadamente dentro da estrutura de orquestração.

Substituindo Fundos

Como a intenção do projeto é obter maior controle do ambiente gerado, o processo de renderização/composição inclui um gerador de background treinado em imagens reais.

Uma razão convincente pela qual os planos de fundo não são arrastados para as manipulações faciais no SemanticStyleGAN é que eles estão em uma camada mais distante e estão completos, embora parcialmente ocultos pelos rostos sobrepostos.

Uma razão convincente pela qual os planos de fundo não são arrastados para as manipulações faciais no SemanticStyleGAN é que eles estão em uma camada mais distante e estão completos, embora parcialmente ocultos pelos rostos sobrepostos.

Como os mapas de segmentação resultarão em rostos sem fundos, esses fundos 'drop-in' não apenas fornecem contexto, mas também são configurados para serem apropriados, em termos de iluminação, para os rostos sobrepostos.

Treinamento e dados

Os modelos 'realistas' foram treinados nas 28,000 imagens iniciais em CelebAMask-HQ, redimensionado para 256×256 pixels para acomodar o espaço de treinamento (ou seja, a VRAM disponível, que determina um tamanho máximo de lote por iteração).

Diversos modelos foram treinados, e diversas ferramentas, conjuntos de dados e arquiteturas foram experimentados durante o processo de desenvolvimento e diversos testes de ablação. O maior modelo produtivo do projeto apresentou resolução de 512×512, treinado ao longo de 2.5 dias em oito GPUs NVIDIA Tesla V100. Após o treinamento, a geração de uma única imagem leva 0.137 s em uma GPU de lóbulos sem paralelismo.

Os experimentos mais no estilo desenho animado/anime demonstrados nos vários vídeos na página do projeto (veja o link acima) são derivados de vários conjuntos de dados populares baseados em rostos, incluindo Toonificar, MetFaces e Bitmoji.

Uma solução paliativa?

Os autores afirmam que não há razão para que o SemanticStyleGAN não possa ser aplicado a outros domínios, como paisagens, carros, igrejas e todos os outros domínios de teste "padrão" aos quais novas arquiteturas são rotineiramente submetidas no início de suas carreiras.

No entanto, o artigo admite que, à medida que o número de classes aumenta para um domínio (como 'carro', 'poste de luz, 'pedestre', 'prédio', 'carro' etc.), essa abordagem fragmentada pode se tornar impraticável de várias maneiras, sem mais trabalho de otimização. O conjunto de dados urbanos CityScapes, por exemplo, tem 30 aulas em 8 categorias.

É difícil dizer se o interesse atual em conquistar o espaço latente mais diretamente está tão fadado ao fracasso quanto a alquimia; ou se os códigos latentes acabarão sendo decifráveis ​​e controláveis ​​— um desenvolvimento que pode tornar esse tipo de abordagem mais "externamente complexa" redundante.

 

Escritor sobre machine learning, especialista em domínio em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa na Metaphysic.ai.
Site pessoal: martinanderson.ai
Contato: [email protected]
Twitter: @manders_ai