toco Setor de síntese de imagem adotou uma métrica falha, afirma pesquisa - Unite.AI
Entre em contato

Inteligência artificial

Setor de Síntese de Imagens Adotou uma Métrica Incorreta, Afirma Pesquisa

mm
Atualização do on

2021 foi um ano de progresso sem precedentes e um ritmo furioso de publicação no setor de síntese de imagens, oferecendo um fluxo de inovações e melhorias em tecnologias capazes de reproduzir personalidades humanas por meio de renderização neural, deepfakes e uma série de novas abordagens.

No entanto, pesquisadores da Alemanha agora afirmam que o padrão usado para julgar automaticamente o realismo de imagens sintéticas é fatalmente falho; e que as centenas, até mesmo milhares de pesquisadores em todo o mundo que dependem dele para cortar o custo da avaliação de resultados baseada em humanos podem estar indo para um beco sem saída.

Para demonstrar como o padrão, Distância inicial de Fréchet (FID), não atende aos padrões humanos para avaliação de imagens, os pesquisadores implantaram seus próprios GANs, otimizados para FID (agora uma métrica comum). Eles descobriram que o FID está seguindo suas próprias obsessões, com base no código subjacente com uma missão muito diferente daquela da síntese de imagem, e que rotineiramente falha em atingir um padrão de discernimento 'humano':

Pontuações FID (menor é melhor) para imagens geradas por vários modelos usando conjuntos de dados e arquiteturas padrão. Os pesquisadores do novo artigo colocam a questão 'Você concorda com essas classificações?'. Fonte: https://openreview.net/pdf?id=mLG96UpmbYz

Pontuações FID (menor é melhor) para imagens geradas por vários modelos usando conjuntos de dados e arquiteturas padrão. Os pesquisadores do novo artigo colocam a questão 'Você concorda com essas classificações?'. Fonte: https://openreview.net/pdf?id=mLG96UpmbYz

Além de sua afirmação de que o FID não é adequado para a tarefa pretendida, o documento sugere ainda que soluções 'óbvias', como trocar seu motor interno por motores concorrentes, simplesmente trocarão um conjunto de vieses por outro. Os autores sugerem que agora cabe a novas iniciativas de pesquisa desenvolver melhores métricas para avaliar a 'autenticidade' em fotos geradas sinteticamente.

A papel é intitulado Vieses internalizados na distância inicial de Fréchet, e vem de Steffen Jung no Max Planck Institute for Informatics em Saarland, e Margret Keuper, Professora de Computação Visual na Universidade de Siegen.

A busca por um sistema de pontuação para síntese de imagens

Como observa a nova pesquisa, o progresso nas estruturas de síntese de imagem, como GANs e arquiteturas de codificador/decodificador, ultrapassou os métodos pelos quais os resultados de tais sistemas podem ser julgados. Além de caro e, portanto, difícil de escalar, a avaliação humana da saída desses sistemas não oferece um método de avaliação empírico e reprodutível.

Portanto, uma série de estruturas métricas surgiram, incluindo Pontuação Inicial (IS), destaque em 2016 papel Técnicas aprimoradas para treinamento de GANs, coautoria de GAN inventor, Ian Goodfellow.

O descrédito da pontuação IS como uma métrica amplamente aplicável para várias redes GAN em 2018 levou à adoção generalizada de FID na comunidade de síntese de imagem GAN. No entanto, como o Inception Score, o FID é baseado no Google Rede de classificação de imagem Inception v3 (IV3).

Os autores do novo artigo argumentam que a Fréchet Inception Distance propaga vieses prejudiciais no IV3, levando a uma classificação não confiável da qualidade da imagem.

Como o FID pode ser incorporado a uma estrutura de aprendizado de máquina como um discriminador (um 'juiz' incorporado que decide se o GAN está indo bem ou se deveria 'tentar novamente'), ele precisa representar com precisão os padrões que um ser humano aplicaria ao avaliar as imagens.

Distância inicial de Fréchet

O FID compara como os recursos são distribuídos no conjunto de dados de treinamento usado para criar um modelo GAN (ou funcionalidade semelhante) e os resultados desse sistema.

Portanto, se uma estrutura GAN for treinada em 10,000 imagens de (por exemplo) celebridades, o FID compara as imagens originais (reais) com as imagens falsas produzidas pela GAN. Quanto menor a pontuação do FID, mais próximo o GAN chega de imagens 'fotorrealistas', de acordo com os critérios do FID.

Do papel, resultados de um GAN treinado em FFHQ64, um subconjunto do muito popular conjunto de dados FFHQ da NVIDIA. Aqui, embora a pontuação do FID seja maravilhosamente baixa de 5.38, os resultados não são agradáveis ​​ou convincentes para o ser humano médio.

Do papel, os resultados de um GAN treinado em FFHQ64, um subconjunto do muito popular da NVIDIA conjunto de dados FFHQ. Aqui, embora a pontuação do FID seja maravilhosamente baixa de 5.38, os resultados não são agradáveis ​​ou convincentes para o ser humano médio.

O problema, afirmam os autores, é que Inception v3, cujas suposições alimentam a Fréchet Inception Distance, não está procurando nos lugares certos – pelo menos não ao considerar a tarefa em questão.

Inception V3 é treinado no desafio de reconhecimento de objetos ImageNet, uma tarefa que está em desacordo com a forma como os objetivos da síntese de imagens evoluíram nos últimos anos. O IV3 desafia a robustez de um modelo realizando o aumento de dados: ele inverte as imagens aleatoriamente, corta-as em uma escala aleatória entre 8-100%, altera a proporção (em uma faixa de 3/4 a 4/3) e injeta aleatoriamente distorções de cores relacionadas ao brilho, saturação e contraste.

Os pesquisadores da Alemanha descobriram que o IV3 tende a favorecer a extração de bordas e texturas, em vez de informações de cor e intensidade, que seriam índices de autenticidade mais significativos para imagens sintéticas; e que seu propósito original de detecção de objetos foi, portanto, inapropriadamente sequestrado para uma tarefa inadequada. Os autores afirmam*:

'[Inception v3] tem um viés para extrair recursos com base em bordas e texturas, em vez de informações de cor e intensidade. Isso se alinha com seu pipeline de aumento que introduz distorções de cores, mas mantém intactas as informações de alta frequência (em contraste com, por exemplo, o aumento com desfoque gaussiano).

'Consequentemente, o FID herda esse viés. Quando usados ​​como métrica de classificação, os modelos generativos que reproduzem bem as texturas podem ser preferidos aos modelos que reproduzem bem as distribuições de cores.'

Dados e Método

Para testar sua hipótese, os autores treinaram duas arquiteturas GAN, DCGAN e SNGAN, na NVIDIA Conjunto de dados de rosto humano FFHQ, reduzido para 642 resolução da imagem, com o conjunto de dados derivado chamado FFHQ64.

Três procedimentos de treinamento GAN foram seguidos: GAN G+D, um padrão baseado em discriminador rede; GAN FID|G+D, onde FID atua como um discriminador adicional; e GAN FID|G. onde o GAN é totalmente alimentado pela pontuação FID contínua.

Tecnicamente, observam os autores, a perda de FID deve estabilizar o treinamento e, potencialmente, até mesmo ser capaz de substituir completamente o discriminador (como em #3, GAN FID|G), enquanto gera resultados que agradam aos humanos.

Na prática, os resultados são bastante diferentes, com – os autores hipotetizam – os modelos assistidos por FID 'overfitting' nas métricas erradas. Os pesquisadores observam:

'Nossa hipótese é que o gerador aprende a produzir recursos inadequados para corresponder à distribuição de dados de treinamento. Esta observação torna-se mais severa no caso de [GAN FID|G] . Aqui, notamos que o discriminador ausente leva a distribuições de características espacialmente incoerentes. Por exemplo, [SNGAN FID|G] adiciona principalmente olhos únicos e alinha as características faciais de uma maneira assustadora.'

Exemplos de faces produzidas por SNGAN FID|G.

Exemplos de faces produzidas por SNGAN FID|G.

Os autores concluem*:

'Embora os anotadores humanos certamente prefiram imagens produzidas por SNGAN D+G sobre SNGAN FID|G (nos casos em que a fidelidade dos dados é preferida à arte), vemos que isso não é refletido pelo FID. Portanto, o FID não está alinhado com a percepção humana.

'Argumentamos que as características discriminativas fornecidas pelas redes de classificação de imagens não são suficientes para fornecer a base de uma métrica significativa.'

Sem Alternativas Fáceis

Os autores também descobriram que trocar o Inception V3 por um motor semelhante não aliviou o problema. Ao substituir IV3 por 'uma ampla escolha de diferentes redes de classificação', que foram testadas contra ImageNet-C (um subconjunto do ImageNet projetado para comparar corrupções e perturbações comumente geradas em imagens de saída de estruturas de síntese de imagens), os pesquisadores não conseguiram melhorar substancialmente seus resultados:

'[Vieses] presentes no Inception v3 também estão amplamente presentes em outras redes de classificação. Além disso, vemos que diferentes redes produziriam classificações diferentes entre os tipos de corrupção.'

Os autores concluem o artigo com a esperança de que a pesquisa em andamento desenvolva uma 'métrica humanamente alinhada e imparcial' capaz de permitir uma classificação mais justa para arquiteturas geradoras de imagens.

 

* Ênfase dos autores.


Publicado pela primeira vez em 2 de dezembro de 2021, 1h GMT+2.