Inteligência artificial
Nova Ferramenta Pode Mostrar aos Pesquisadores o que os GANs Deixam de Fora de uma Imagem

Recentemente, uma equipe de pesquisadores do MIT-IBM Watson AI Lab criou um método para exibir o que uma Rede Adversária Generativa (GAN) deixa de fora de uma imagem quando solicitada a gerar imagens. O estudo foi apelidado de Ver o que um GAN Não Pode Gerar e foi recentemente apresentado na Conferência Internacional de Visão Computacional.
Redes Adversárias Generativas se tornaram mais robustas, sofisticadas e amplamente utilizadas nos últimos anos. Elas se tornaram muito boas em renderizar imagens cheias de detalhes, desde que a imagem esteja confinada a uma área relativamente pequena. No entanto, quando os GANs são usados para gerar imagens de cenas e ambientes maiores, eles tendem a não performar tão bem. Em cenários onde os GANs são solicitados a renderizar cenas cheias de muitos objetos e itens, como uma rua movimentada, os GANs frequentemente deixam muitos aspectos importantes da imagem de fora.
De acordo com o MIT News, a pesquisa foi desenvolvida em parte por David Bau, um estudante de pós-graduação no Departamento de Engenharia Elétrica e Ciência da Computação do MIT. Bau explicou que os pesquisadores geralmente se concentram em refinar o que os sistemas de aprendizado de máquina prestam atenção e discernir como certas entradas podem ser mapeadas para certas saídas. No entanto, Bau também explicou que entender quais dados são ignorados pelos modelos de aprendizado de máquina é frequentemente igualmente importante e que a equipe de pesquisa espera que suas ferramentas inspirem os pesquisadores a prestar atenção nos dados ignorados.
O interesse de Bau em GANs foi despertado pelo fato de que eles poderiam ser usados para investigar a natureza de caixa preta das redes neurais e para obter uma intuição de como as redes poderiam estar raciocinando. Bau trabalhou anteriormente em uma ferramenta que podia identificar clusters específicos de neurônios artificiais, rotulando-os como responsáveis pela representação de objetos do mundo real, como livros, nuvens e árvores. Bau também teve experiência com uma ferramenta chamada GANPaint, que permite que os artistas removam e adicionem recursos específicos de fotos usando GANs. De acordo com Bau, o aplicativo GANPaint revelou um problema potencial com os GANs, um problema que se tornou aparente quando Bau analisou as imagens. Como Bau disse ao MIT News:
“Meu orientador sempre nos encorajou a olhar além dos números e examinar as imagens reais. Quando olhamos, o fenômeno saltou para fora: as pessoas estavam sendo excluídas seletivamente.”
Enquanto os sistemas de aprendizado de máquina são projetados para extrair padrões de imagens, eles também podem acabar ignorando padrões relevantes. Bau e outros pesquisadores experimentaram treinar GANs em várias cenas internas e externas, mas em todos os diferentes tipos de cenas, os GANs deixaram de fora detalhes importantes, como carros, placas de trânsito, pessoas, bicicletas, etc. Isso foi verdadeiro mesmo quando os objetos excluídos eram importantes para a cena em questão.
A equipe de pesquisa hipotetizou que, quando o GAN é treinado em imagens, o GAN pode encontrar mais fácil capturar os padrões da imagem que são mais fáceis de representar, como objetos estáticos grandes, como paisagens e edifícios. Ele aprende esses padrões sobre outros padrões mais difíceis de interpretar, como carros e pessoas. Já é conhecido que os GANs frequentemente omitem detalhes importantes e significativos ao gerar imagens, mas o estudo da equipe do MIT pode ser a primeira vez que os GANs foram demonstrados omitindo classes de objetos inteiras dentro de uma imagem.
A equipe de pesquisa observa que é possível para os GANs alcançar seus objetivos numéricos mesmo quando deixam de fora objetos que os humanos se importam ao olhar para as imagens. Se as imagens geradas pelos GANs forem usadas para treinar sistemas complexos, como veículos autônomos, os dados de imagem devem ser examinados cuidadosamente, pois há uma preocupação real de que objetos críticos, como placas, pessoas e outros carros, possam ser excluídos das imagens. Bau explicou que sua pesquisa mostra por que o desempenho de um modelo não deve ser baseado apenas na precisão:
“PRECisamos entender o que as redes estão e não estão fazendo para garantir que elas estejam fazendo as escolhas que queremos que elas façam.”












