toco O benefício não intencional de mapear o espaço latente de uma GAN - Unite.AI
Entre em contato

Inteligência artificial

O benefício não intencional de mapear o espaço latente de uma GAN

mm
Atualização do on

Ao tentar melhorar a qualidade e a fidelidade das imagens geradas por IA, um grupo de pesquisadores da China e da Austrália descobriu inadvertidamente um método para controlar interativamente o espaço latente de um Rede Adversarial Geradora (GAN) – a misteriosa matriz calculista por trás da nova onda de técnicas de síntese de imagens que devem revolucionar filmes, jogos e mídias sociais, e muitos outros setores de entretenimento e pesquisa.

Sua descoberta, um subproduto do objetivo central do projeto, permite que um usuário explore de forma arbitrária e interativa o espaço latente de um GAN com um mouse, como se estivesse passando por um vídeo ou folheando um livro.

Um trecho do vídeo que acompanha os pesquisadores (veja a incorporação no final do artigo). Observe que o usuário está manipulando as transformações com um cursor 'pegar' (canto superior esquerdo). Fonte: https://www.youtube.com/watch?v=k7sG4XY5rIc

Um trecho do vídeo que acompanha os pesquisadores (consulte a incorporação no final do artigo para muitos outros exemplos). Observe que o usuário está manipulando as transformações com um cursor 'pegar' (canto superior esquerdo). Fonte: https://www.youtube.com/watch?v=k7sG4XY5rIc

O método usa 'mapas de calor' para indicar quais áreas de uma imagem devem ser melhoradas à medida que o GAN percorre o mesmo conjunto de dados milhares (ou centenas de milhares) de vezes. Os mapas de calor destinam-se a melhorar a qualidade da imagem informando ao GAN onde está errado, para que sua próxima tentativa seja melhor; mas, coincidentemente, isso também fornece um 'mapa' de todo o espaço latente que pode ser percorrido movendo o mouse.

Atenção visual espacial enfatizada via GradCAM, que indica áreas que precisam de atenção por meio da imposição de cores vivas. Essas amostras são geradas no projeto dos pesquisadores com uma implementação padrão do StyleGan2. Fonte: https://arxiv.org/pdf/2112.00718.pdf

Atenção visual espacial enfatizada via GradCAM, que indica áreas que precisam de atenção por meio da imposição de cores vivas. Fonte: https://arxiv.org/pdf/2112.00718.pdf

A papel é chamado Melhorando o equilíbrio GAN aumentando a consciência espacial, e vem de pesquisadores da Universidade Chinesa de Hong Kong e da Universidade Nacional Australiana. Além do papel, vídeo e outros materiais podem ser encontrados na página do projeto.

O trabalho é incipiente, e atualmente limitado a imagens de baixa resolução (256×256), mas é uma prova de conceito que promete abrir a 'caixa preta' do espaço latente, e chega num momento em que múltiplos projetos de pesquisa estão martelando naquela porta em busca de maior controle sobre a síntese de imagens.

Embora essas imagens sejam envolventes (e você pode ver mais delas, em melhor resolução, no vídeo incorporado no final deste artigo), o que talvez seja mais significativo é que o projeto encontrou uma maneira de criar uma qualidade de imagem aprimorada e potencialmente para fazer isso mais rápido, informando ao GAN especificamente onde está dando errado durante o treinamento.

Mas como Contraditório indica, um GAN não é uma entidade única, mas sim um conflito desigual entre autoridade e labuta. Para entender quais melhorias os pesquisadores fizeram a esse respeito, vejamos como essa guerra foi caracterizada até agora.

A lamentável situação do gerador

Se você já foi assombrado pelo pensamento de que alguma peça de roupa nova que você comprou foi produzida em uma fábrica em um país explorado, ou teve um chefe ou cliente que ficava dizendo para você 'Faça de novo!' sem nunca lhe dizer o que havia de errado com sua última tentativa, poupe um pouco de pena pelo Gerador parte de uma Rede Adversária Generativa.

O Gerador é o burro de carga que tem encantado você nos últimos cinco anos ou mais, ajudando GANs a criar pessoas fotorrealistas que não existem, videogames antigos sofisticados para resolução 4k, e transforme filmagens centenárias em saída HD colorida a 60 fps, entre outras novidades maravilhosas de IA.

Desde a criação de rostos fotorrealistas de pessoas irreais até a restauração de imagens antigas e a revitalização de videogames de arquivo, o GAN tem estado ocupado nos últimos anos.

Desde a criação de rostos fotorrealistas de pessoas irreais até a restauração de imagens antigas e a revitalização de videogames de arquivo, o GAN tem estado ocupado nos últimos anos.

O Gerador percorre todos os dados de treinamento repetidas vezes (como fotos de rostos, para criar uma GAN que pode criar fotos de pessoas aleatórias e inexistentes), uma foto por vez, por dias ou até semanas, até conseguir criar imagens tão convincentes quanto as fotos genuínas que estudou.

Então, como o Generator sabe que está fazendo algum progresso, cada vez que tenta criar uma imagem melhor do que a tentativa anterior?

O Generator tem um chefe infernal.

A Opacidade Impiedosa do Discriminador

O trabalho do Discriminador é dizer ao Generator que ele não se saiu bem o suficiente ao criar uma imagem que seja autêntica com os dados originais e Faça isso novamente. O Discriminador não conta ao Gerador o que errou na última tentativa do Gerador; ele apenas dá uma olhada em particular, compara a imagem gerada com as imagens de origem (novamente, em particular) e atribui uma pontuação à imagem.

a pontuação é nunca bom o bastante. O Discriminador não para de dizer 'Faça isso novamente' até que os cientistas da pesquisa o desliguem (quando eles julgam que o treinamento adicional não melhorará mais a produção).

Dessa forma, sem qualquer crítica construtiva e munido apenas de uma pontuação cuja métrica é um mistério, o Gerador deve adivinhar aleatoriamente quais partes ou aspectos da imagem causaram uma pontuação maior do que antes. Isso o levará a muitas outras rotas insatisfatórias antes de mudar algo de forma positiva o suficiente para obter uma pontuação mais alta.

O Discriminador como Tutor e Mentor

A inovação proporcionada pela nova pesquisa é essencialmente que o Discriminador agora indica ao Gerador quais partes da imagem eram insatisfatórias, para que o Gerador possa se concentrar nessas áreas em sua próxima iteração e não descartar as seções com classificação mais alta. A natureza da relação passou de combativa para colaborativa.

Para remediar a disparidade de percepção entre o Discriminador e o Gerador, os pesquisadores usaram GradCAM como um mecanismo capaz de formular os insights do Discriminador em um auxílio de feedback visual para a próxima tentativa do Gerador.

O novo método de treinamento de 'equilíbrio' é chamado EqGAN. Para máxima reprodutibilidade, os pesquisadores incorporaram técnicas e métodos existentes em configurações padrão, incluindo o uso do EstiloGan2 arquitetura.

A arquitetura do EqGAN. A codificação espacial do Gerador está alinhada com a percepção espacial do Discriminador, com amostras aleatórias de mapas de calor espaciais (veja a imagem anterior) codificados de volta no gerador por meio da camada de codificação espacial (SEL). GradCAM é o mecanismo pelo qual os mapas de atenção do Discriminador são disponibilizados ao gerador.

A arquitetura do EqGAN. A codificação espacial do Gerador está alinhada com a percepção espacial do Discriminador, com amostras aleatórias de mapas de calor espaciais (veja a imagem anterior) codificados de volta no gerador por meio da camada de codificação espacial (SEL). GradCAM é o mecanismo pelo qual os mapas de atenção do Discriminador são disponibilizados ao gerador.

O GradCAM produz mapas de calor (veja as imagens acima) que refletem as críticas do Discriminador à última iteração e os disponibilizam ao Gerador.

Depois que o modelo é treinado, o mapeamento permanece como um artefato desse processo cooperativo, mas também pode ser usado para explorar o código latente final da maneira interativa demonstrada no vídeo do projeto dos pesquisadores (veja abaixo).

EqGAN

O projeto utilizou uma série de conjuntos de dados populares, incluindo os conjuntos de dados LSUN Cat e Churches, bem como o FFHQ conjunto de dados. O vídeo abaixo também apresenta exemplos de manipulação facial e felina usando EqGAN.

Todas as imagens foram redimensionadas para 256 × 256 antes do treinamento do EqGAN na implementação oficial do StyleGAN2. O modelo foi treinado em um tamanho de lote de 64 em 8 GPUs até que o discriminador fosse exposto a mais de 25 milhões de imagens.

Testando os resultados do sistema em amostras selecionadas com Frechet Inception Distance (FID), os autores estabeleceram uma métrica chamada Indicador de Desequilíbrio (DI) – o grau em que o Discriminador retém sua vantagem de conhecimento sobre o Gerador, com o objetivo de diminuir essa lacuna.

Ao longo dos três conjuntos de dados treinados, a nova métrica mostrou uma queda útil após a codificação da percepção espacial no Gerador, com equilíbrio aprimorado demonstrado tanto pelo FID quanto pelo DI.

Os pesquisadores concluíram:

'Esperamos que este trabalho possa inspirar mais trabalhos de revisitar o equilíbrio GAN e desenvolver novos métodos para melhorar a qualidade da síntese de imagem através da manobra do equilíbrio GAN. Também conduziremos mais investigações teóricas sobre esta questão em trabalhos futuros.'

E continue:

'Resultados qualitativos mostram que nosso método com sucesso [força o Gerador] a se concentrar em regiões específicas. Experimentos em vários conjuntos de dados validam que nosso método atenua o desequilíbrio no treinamento GAN e melhora substancialmente a qualidade geral da síntese da imagem. O modelo resultante com consciência espacial também permite a manipulação interativa da imagem de saída.'

Veja o vídeo abaixo para mais detalhes sobre o projeto e mais exemplos de exploração dinâmica e interativa do espaço latente em uma GAN.

Melhorando o equilíbrio de GAN aumentando a consciência espacial

 

 

11h12, 4 de dezembro de 2021 - URL corrigida para GradCAM e referência ao redor organizada.