Inteligência artificial
Edição do Espaço Latente de um GAN com ‘Blobs’

Nova pesquisa da UC Berkeley e da Adobe oferece uma forma de editar diretamente o conteúdo hiperreal que pode ser criado por uma Rede Adversária Generativa (GAN), mas que normalmente não pode ser controlado, animado ou manipulado livremente de uma maneira longamente familiar aos usuários do Photoshop e práticos de CGI.
Intitulada BlobGAN, o método envolve criar uma grade de ‘blobs’ – construtos matemáticos que mapeiam diretamente o conteúdo dentro do espaço latente do GAN.
Ao mover os blobs, você pode mover os ‘objetos’ em uma representação de cena, de uma maneira intuitiva que está mais próxima dos métodos de CGI e CAD do que muitas das tentativas atuais de mapear e controlar o espaço latente do GAN:

Manipulação de cena com BlobGAN: à medida que os ‘blobs’ são movidos pelo usuário, a disposição de objetos e estilos latentes no GAN são alterados correspondemente. Para mais exemplos, veja o vídeo acompanhante no final deste artigo, ou em https://www.youtube.com/watch?v=KpUv82VsU5k
Como os blobs correspondem a ‘objetos’ na cena mapeada no espaço latente do GAN, todos os objetos são desentrelaçados a priori, tornando possível alterá-los individualmente:

Os objetos podem ser redimensionados, diminuídos, clonados e removidos, entre outras operações.
Como qualquer objeto em software de edição de foto (ou mesmo de edição de texto), um blob pode ser duplicado e subsequentemente manipulado:

Os blobs podem ser duplicados na interface, e suas representações latentes correspondentes também serão ‘copiadas e coladas’. Fonte: https://dave.ml/blobgan/#results
BlobGAN também pode analisar imagens novas, selecionadas pelo usuário, em seu espaço latente:

Com o BlobGAN, você não precisa incorporar imagens que deseja manipular diretamente nos dados de treinamento e, em seguida, procurar seus códigos latentes, mas pode inserir imagens selecionadas à vontade e manipulá-las. Fonte: https://dave.ml/blobgan/#results
Mais resultados podem ser vistos aqui, e no vídeo acompanhante do YouTube aqui (incorporado no final deste artigo). Há também um demo interativo Colab aqui*, e um repositório GitHub aqui**.
Esse tipo de instrumentalidade e escopo pode parecer ingênuo na era pós-Photoshop, e pacotes de software paramétricos como Cinema4D e Blender permitem que os usuários criem e personalizem mundos 3D há décadas; mas representa uma abordagem promissora para domesticar as excentricidades e a natureza arcana do espaço latente em uma Rede Adversária Generativa, por meio do uso de entidades proxy que são mapeadas para códigos latentes.












