Inteligência artificial

O Benefício Não Intencional de Mapear o Espaço Latente de um GAN

Published December 3, 2021

Updated April 28, 2026

Martin Anderson

Enquanto tentavam melhorar a qualidade e fidelidade de imagens geradas por IA, um grupo de pesquisadores da China e da Austrália descobriu inadvertidamente um método para controlar interativamente o espaço latente de uma Rede Adversária Generativa (GAN) – a misteriosa matriz calculativa por trás da nova onda de técnicas de síntese de imagens que estão prestes a revolucionar os filmes, jogos, mídias sociais e muitos outros setores do entretenimento e pesquisa.

Sua descoberta, um subproduto do objetivo central do projeto, permite que um usuário explore arbitrariamente e interativamente o espaço latente de um GAN com um mouse, como se estivesse passando por um vídeo ou folheando um livro.

Um trecho do vídeo acompanhante dos pesquisadores (veja o embed no final do artigo). Note que o usuário está manipulando as transformações com um cursor 'pegar' (topo esquerdo). Fonte: https://www.youtube.com/watch?v=k7sG4XY5rIc

Um trecho do vídeo acompanhante dos pesquisadores (veja o embed no final do artigo para muitos mais exemplos). Note que o usuário está manipulando as transformações com um cursor ‘pegar’ (topo esquerdo). Fonte: https://www.youtube.com/watch?v=k7sG4XY5rIc

O método usa ‘mapas de calor’ para indicar quais áreas de uma imagem devem ser melhoradas à medida que o GAN executa o mesmo conjunto de dados milhares (ou centenas de milhares) de vezes. Os mapas de calor são destinados a melhorar a qualidade da imagem, informando ao GAN onde ele está errado, para que sua próxima tentativa seja melhor; mas, coincidentemente, isso também fornece um ‘mapa’ de todo o espaço latente que pode ser navegado movendo o mouse.

Atenção visual espacial enfatizada via GradCAM, que indica áreas que precisam de atenção impondo cores brilhantes. Essas amostras são geradas no projeto dos pesquisadores com uma implementação padrão do StyleGan2. Fonte: https://arxiv.org/pdf/2112.00718.pdf

Atenção visual espacial enfatizada via GradCAM, que indica áreas que precisam de atenção impondo cores brilhantes. Fonte: https://arxiv.org/pdf/2112.00718.pdf

O artigo é chamado Melhorando o Equilíbrio do GAN ao Aumentar a Consciência Espacial, e vem de pesquisadores da Universidade Chinesa de Hong Kong e da Universidade Nacional da Austrália. Além do artigo, vídeo e outros materiais podem ser encontrados na página do projeto.

O trabalho é incipiente e, atualmente, limitado a imagens de baixa resolução (256×256), mas é um conceito de prova que promete abrir a ‘caixa preta’ do espaço latente e chega em um momento em que vários projetos de pesquisa estão martelando essa porta em busca de um controle maior sobre a síntese de imagens.

Embora tais imagens sejam atraentes (e você pode ver mais delas, em melhor resolução, no vídeo incorporado no final do artigo), o que talvez seja mais significativo é que o projeto encontrou uma maneira de criar uma melhor qualidade de imagem e, potencialmente, fazer isso mais rápido, informando ao GAN especificamente onde ele está errado durante o treinamento.

Mas, como Adversarial indica, um GAN não é uma entidade única, mas sim um conflito desigual entre autoridade e trabalheira. Para entender quais melhorias os pesquisadores fizeram a esse respeito, vamos olhar como essa guerra foi caracterizada até agora.

A Pobre Situação do Gerador

Se você já foi atormentado pelo pensamento de que algum grande item de vestuário que você comprou foi produzido em uma fábrica exploradora em um país explorado, ou teve um chefe ou cliente que o mandou ‘Fazer novamente!’ sem nunca dizer o que estava errado com sua última tentativa, poupe um pouco de piedade para a parte Gerador de uma Rede Adversária Generativa.

O Gerador é o cavalo de batalha que tem sido um deleite para você nos últimos cinco anos, ajudando os GANs a criar pessoas fotorealistas que não existem, melhorar jogos de vídeo antigos para resolução 4k, e transformar filmes antigos em saída HD em cores a 60fps, entre outras maravilhas da IA.

Desde criar faces fotorealistas de pessoas irreais até restaurar filmes antigos e revivificar jogos de vídeo arquivados, o GAN tem sido ocupado nos últimos anos.

O Gerador executa todos os dados de treinamento novamente e novamente (como fotos de faces, para criar um GAN que possa criar fotos de pessoas aleatórias e inexistentes), uma foto de cada vez, por dias ou até semanas, até que ele seja capaz de criar imagens que sejam tão convincentes quanto as fotos reais que ele estudou.

Então, como o Gerador sabe que está fazendo algum progresso, cada vez que tenta criar uma imagem melhor do que sua tentativa anterior?

O Gerador tem um chefe do inferno.

A Opacidade Impiedosa do Discriminador

O trabalho do Discriminador é dizer ao Gerador que ele não fez bem o suficiente para criar uma imagem autêntica em relação aos dados originais e para Fazer novamente. O Discriminador não diz ao Gerador o que estava errado com a última tentativa do Gerador; ele apenas olha para a imagem gerada, compara-a com as imagens de origem (novamente, em particular) e atribui uma pontuação à imagem.

A pontuação é nunca boa o suficiente. O Discriminador não parará de dizer ‘Fazer novamente’ até que os cientistas de pesquisa o desliguem (quando eles julgarem que o treinamento adicional não melhorará a saída).

Dessa forma, ausente qualquer crítica construtiva e armado apenas com uma pontuação cuja métrica é um mistério, o Gerador deve adivinhar aleatoriamente quais partes ou aspectos da imagem causaram uma pontuação mais alta do que antes. Isso o levará por muitos caminhos insatisfatórios antes de mudar algo o suficiente para obter uma pontuação mais alta.

O Discriminador como Tutor e Mentor

A inovação fornecida pela nova pesquisa é essencialmente que o Discriminador agora indica ao Gerador quais partes da imagem foram insatisfatórias, para que o Gerador possa se concentrar nessas áreas em sua próxima iteração e não jogar fora as seções que foram avaliadas mais altas. A natureza da relação se transformou de combativa para colaborativa.

Para remediar a disparidade de insight entre o Discriminador e o Gerador, os pesquisadores usaram GradCAM como um mecanismo capaz de formular as percepções do Discriminador em uma ajuda de feedback visual para a próxima tentativa do Gerador.

O novo método de treinamento de ‘equilíbrio’ é chamado EqGAN. Para máxima reprodutibilidade, os pesquisadores incorporaram técnicas e métodos existentes com configurações padrão, incluindo o uso da arquitetura StyleGan2.

A arquitetura do EqGAN. A codificação espacial do Gerador é alinhada com a consciência espacial do Discriminador, com amostras aleatórias de mapas de calor (veja imagem anterior) codificados de volta no gerador via a camada de codificação espacial (SEL). GradCAM é o mecanismo pelo qual os mapas de atenção do Discriminador são disponibilizados ao gerador.

GradCAM produz mapas de calor (veja imagens acima) que refletem a crítica do Discriminador à última iteração e os torna disponíveis ao Gerador.

Uma vez que o modelo é treinado, o mapeamento permanece como um artefato desse processo cooperativo, mas também pode ser usado para explorar o código latente final de forma interativa, como demonstrado no vídeo do projeto dos pesquisadores (veja abaixo).

EqGAN

O projeto usou vários conjuntos de dados populares, incluindo os conjuntos de dados LSUN Cat e Churches, bem como o conjunto de dados FFHQ. O vídeo abaixo também apresenta exemplos de manipulação facial e felina usando EqGAN.

Todas as imagens foram redimensionadas para 256×256 antes de treinar o EqGAN na implementação oficial do StyleGAN2. O modelo foi treinado com um tamanho de lote de 64 em 8 GPUs até que o Discriminador tivesse sido exposto a mais de 25 milhões de imagens.

Testando os resultados do sistema em amostras selecionadas com a Distância de Inception de Frechet (FID), os autores estabeleceram uma métrica chamada Indicador de Desequilíbrio (DI) – o grau em que o Discriminador retém sua vantagem de conhecimento sobre o Gerador, com o objetivo de estreitar essa lacuna.

Sobre os três conjuntos de dados treinados, a nova métrica mostrou uma útil queda após a codificação da consciência espacial no Gerador, com um equilíbrio melhorado demonstrado tanto pela FID quanto pelo DI.

Os pesquisadores concluem:

‘Esperamos que este trabalho possa inspirar mais trabalhos revisitando o equilíbrio do GAN e desenvolvendo métodos novos para melhorar a qualidade da síntese de imagens por meio da manipulação do equilíbrio do GAN. Também realizaremos mais investigações teóricas sobre essa questão no trabalho futuro.’

E continuam:

‘Resultados qualitativos mostram que nosso método consegue concentrar o Gerador em regiões específicas. Experimentos em vários conjuntos de dados validam que nosso método mitiga o desequilíbrio no treinamento do GAN e melhora substancialmente a qualidade geral da síntese de imagens. O modelo resultante com consciência espacial também permite a manipulação interativa da imagem de saída.’

Veja o vídeo abaixo para mais detalhes sobre o projeto e mais exemplos de exploração dinâmica e interativa do espaço latente em um GAN.