Connect with us

Inteligência artificial

Modelos de Aprendizado Profundo Podem Ter Dificuldade em Reconhecer Imagens Geradas por IA

mm

Descobertas de um novo artigo indicam que a IA de ponta é significativamente menos capaz de reconhecer e interpretar imagens sintetizadas por IA do que as pessoas, o que pode ser uma preocupação em um clima em que os modelos de aprendizado de máquina são cada vez mais treinados em dados sintéticos, e em que não será necessariamente conhecido se os dados são ‘reais’ ou não.

Aqui vemos o modelo de previsão resnext101_32x8d_wsl lutando na categoria 'bagel'. Nos testes, um fracasso de reconhecimento foi considerado como tendo ocorrido se a palavra-alvo principal (neste caso 'bagel') não foi apresentada nos cinco resultados previstos principais. Fonte: https://arxiv.org/pdf/2208.10760.pdf

Aqui vemos o modelo de previsão resnext101_32x8d_wsl lutando na categoria ‘bagel’. Nos testes, um fracasso de reconhecimento foi considerado como tendo ocorrido se a palavra-alvo principal (neste caso ‘bagel’) não foi apresentada nos cinco resultados previstos principais. Fonte: https://arxiv.org/pdf/2208.10760.pdf

A nova pesquisa testou duas categorias de estruturas de reconhecimento baseadas em visão computacional: reconhecimento de objetos e resposta a perguntas visuais (VQA).

À esquerda, sucessos e falhas de inferência de um sistema de reconhecimento de objetos; à direita, tarefas VQA projetadas para sondar a compreensão da IA de cenas e imagens de maneira mais exploratória e significativa. Fontes: https://arxiv.org/pdf/2105.05312.pdf e https://arxiv.org/pdf/1505.00468.pdf

À esquerda, sucessos e falhas de inferência de um sistema de reconhecimento de objetos; à direita, tarefas VQA projetadas para sondar a compreensão da IA de cenas e imagens de maneira mais exploratória e significativa. Fontes: https://arxiv.org/pdf/2105.05312.pdf e https://arxiv.org/pdf/1505.00468.pdf

Dos dez modelos de ponta testados em conjuntos de dados curados gerados por frameworks de síntese de imagens DALL-E 2 e Midjourney, o melhor modelo foi capaz de alcançar apenas 60% e 80% de precisão nos cinco principais resultados em todo os dois tipos de teste, enquanto ImageNet, treinado em dados não sintéticos do mundo real, pode alcançar 91% e 99% nas mesmas categorias, enquanto o desempenho humano é normalmente consideravelmente mais alto.

Abordando questões em torno de deslocamento de distribuição (também conhecido como ‘Deriva de Modelo’, onde os modelos de previsão experimentam capacidade preditiva diminuída quando movidos dos dados de treinamento para ‘dados reais’), o artigo afirma:

‘Os humanos são capazes de reconhecer as imagens geradas e responder a perguntas sobre elas facilmente. Concluímos que a) os modelos profundos têm dificuldade em entender o conteúdo gerado, e podem melhorar após o ajuste fino, e b) há um grande deslocamento de distribuição entre as imagens geradas e as fotografias reais. O deslocamento de distribuição parece ser dependente da categoria.’

Dada a quantidade de imagens sintéticas que já inundam a internet após a liberação aberta do poderoso modelo de síntese de difusão latente Stable Diffusion, a possibilidade naturalmente surge de que, à medida que as ‘falsas’ imagens inundam conjuntos de dados padrão da indústria, como Common Crawl, variações na precisão ao longo dos anos podem ser significativamente afetadas por ‘imagens irreais’.

Embora os dados sintéticos tenham sido saudados como o potencial salvador do setor de pesquisa de visão computacional, que frequentemente carece de recursos e orçamentos para curação em larga escala, o novo dilúvio de imagens Stable Diffusion (juntamente com o aumento geral de imagens sintéticas desde o advento e comercialização de DALL-E 2) são improváveis de vir com rótulos, anotações e hashtags úteis que os distinguem como ‘falsos’ no momento em que os sistemas de visão de máquina os coletam da internet.

A velocidade de desenvolvimento em frameworks de síntese de imagens de código aberto superou nossa capacidade de categorizar imagens desses sistemas, levando a um crescente interesse em sistemas de detecção de ‘imagens falsas’, semelhantes a sistemas de detecção de deepfakes, mas encarregados de avaliar imagens inteiras em vez de seções de faces.

O novo artigo é intitulado Quão bons são os modelos profundos em entender as imagens geradas?, e vem de Ali Borji, da startup de aprendizado de máquina Quintic AI, em San Francisco.

Dados

O estudo precede o lançamento do Stable Diffusion, e os experimentos usam dados gerados por DALL-E 2 e Midjourney em 17 categorias, incluindo elefante, fungo, pizza, pretzel, trator e coelho.

Exemplos das imagens das quais os sistemas de reconhecimento e VQA testados foram desafiados a identificar o conceito-chave mais importante.

Exemplos das imagens das quais os sistemas de reconhecimento e VQA testados foram desafiados a identificar o conceito-chave mais importante.

As imagens foram obtidas por meio de buscas na web e no Twitter, e, de acordo com as políticas do DALL-E 2 (pelo menos, na época), não incluíam imagens com faces humanas. Apenas imagens de boa qualidade, reconhecíveis por humanos, foram escolhidas.

Dois conjuntos de imagens foram curados, um para cada tarefa de reconhecimento de objetos e VQA.

O número de imagens presentes em cada categoria testada para reconhecimento de objetos.

O número de imagens presentes em cada categoria testada para reconhecimento de objetos.

Testando o Reconhecimento de Objetos

Para os testes de reconhecimento de objetos, dez modelos, todos treinados no ImageNet, foram testados: AlexNet, ResNet152, MobileNetV2, DenseNet, ResNext, GoogleNet, ResNet101, Inception_V3, Deit, e ResNext_WSL.

Alguns das classes nos sistemas testados eram mais granulares do que os outros, necessitando a aplicação de abordagens médias. Por exemplo, o ImageNet contém três classes relacionadas a ‘relógios’, e foi necessário definir algum tipo de métrica arbitral, onde a inclusão de qualquer ‘relógio’ de qualquer tipo nos cinco rótulos principais obtidos para qualquer imagem foi considerada como um sucesso naquela instância.

Desempenho por modelo em 17 categorias.

Desempenho por modelo em 17 categorias.

O melhor modelo nessa rodada foi o resnext101_32x8d_ws, alcançando cerca de 60% para o melhor resultado (ou seja, as vezes em que sua previsão preferida entre cinco palpites foi o conceito correto incorporado na imagem), e 80% para os cinco principais (ou seja, o conceito desejado foi pelo menos listado em algum lugar nos cinco palpites do modelo sobre a imagem).

O autor sugere que o bom desempenho desse modelo se deve ao fato de ter sido treinado para a previsão fraca de hashtags em plataformas de mídia social. No entanto, esses resultados de liderança, observa o autor, estão notavelmente abaixo do que o ImageNet consegue alcançar em dados reais, ou seja, 91% e 99%. Ele sugere que isso se deve a uma grande disparidade entre a distribuição de imagens do ImageNet (que também são raspadas da web) e imagens geradas.

As cinco categorias mais difíceis para o sistema, em ordem de dificuldade, foram pipas, tartaruga, esquilo, óculos de sol e capacete. O artigo observa que a classe pipas é frequentemente confundida com balão, paraquedas e guarda-chuva, embora essas distinções sejam trivialmente fáceis para observadores humanos distinguirem.

Certas categorias, incluindo pipas e tartaruga, causaram falha universal em todos os modelos, enquanto outras (notadamente pretzel e trator) resultaram em quase sucesso universal em todos os modelos testados.

Categorias polarizantes: algumas das categorias de destino escolhidas ou enganaram todos os modelos, ou foram relativamente fáceis para todos os modelos identificarem.

Categorias polarizantes: algumas das categorias de destino escolhidas ou enganaram todos os modelos, ou foram relativamente fáceis para todos os modelos identificarem.

Os autores postulam que essas descobertas indicam que todos os modelos de reconhecimento de objetos podem compartilhar forças e fraquezas semelhantes.

Testando a Resposta a Perguntas Visuais

Em seguida, o autor testou modelos VQA em perguntas abertas e em forma livre de VQA, com perguntas binárias (ou seja, perguntas que podem ter apenas ‘sim’ ou ‘não’ como resposta). O artigo observa que os modelos VQA de ponta recentes são capazes de alcançar 95% de precisão no conjunto de dados VQA-v2.

Para esta etapa de testes, o autor curou 50 imagens e formulou 241 perguntas sobre elas, 132 das quais tinham respostas positivas e 109 negativas. O comprimento médio da pergunta foi de 5,12 palavras.

Esta rodada usou o modelo OFA, uma estrutura tarefa-agnóstica e modalidade-agnóstica para testar a abrangência da tarefa, e foi recentemente o líder nos testes VQA-v2. O OFA alcançou 77,27% de precisão nas imagens geradas, em comparação com sua própria pontuação de 94,7% no conjunto de testes VQA-v2.

Exemplos de perguntas e resultados da seção VQA dos testes. 'GT' é 'Verdadeiro', ou seja, a resposta correta.

Exemplos de perguntas e resultados da seção VQA dos testes. ‘GT” é ‘Verdadeiro’, ou seja, a resposta correta.

O autor do artigo sugere que parte do motivo pode ser que as imagens geradas contêm conceitos semânticos ausentes no conjunto de dados VQA-v2, e que as perguntas escritas para os testes VQA podem ser mais desafiadoras do que o padrão geral de perguntas VQA-v2, embora ele acredite que a primeira razão seja mais provável.

LSD no Fluxo de Dados?

Opinião

A nova proliferação de imagens sintetizadas por IA, que pode apresentar conjunções e abstrações instantâneas de conceitos centrais que não existem na natureza, e que seriam proibitivamente demoradas para produzir por métodos convencionais, pode apresentar um problema particular para sistemas de coleta de dados supervisionados fracamente, que podem não ser capazes de falhar de forma graciosa – principalmente porque não foram projetados para lidar com grandes volumes de dados sintéticos não rotulados.

Nesses casos, pode haver o risco de que esses sistemas colem uma porcentagem de ‘bizarras’ imagens sintéticas em classes incorretas simplesmente porque as imagens apresentam objetos distintos que não realmente pertencem juntos.

'Astronauta montando um cavalo' talvez tenha se tornado a imagem mais emblemática da nova geração de sistemas de síntese de imagens – mas essas 'relações irreais' podem entrar em sistemas de detecção reais, a menos que se tome cuidado. Fonte: https://twitter.com/openai/status/1511714545529614338?lang=en

‘Astronauta montando um cavalo’ talvez tenha se tornado a imagem mais emblemática da nova geração de sistemas de síntese de imagens – mas essas ‘relações irreais’ podem entrar em sistemas de detecção reais, a menos que se tome cuidado. Fonte: https://twitter.com/openai/status/1511714545529614338?lang=en

A menos que isso possa ser prevenido na etapa de pré-processamento antes do treinamento, essas pipelines automatizadas poderiam levar a associações improváveis ou até grotescas sendo treinadas em sistemas de aprendizado de máquina, degradando sua eficácia, e arriscando passar associações de alto nível para sistemas downstream e sub-classes e categorias.

Alternativamente, imagens sintéticas desconexas poderiam ter um ‘efeito de resfriamento’ na precisão de sistemas posteriores, na eventualidade de que novas ou amendadas arquiteturas surjam que tentem dar conta de imagens sintéticas ad hoc, e lancem uma rede muito ampla.

Em qualquer caso, a imagens sintéticas na era pós-Stable Diffusion podem provar ser um problema de dor de cabeça para o setor de pesquisa de visão computacional, cujos esforços tornaram essas estranhas criações e capacidades possíveis – não menos porque isso põe em risco a esperança do setor de que a coleta e curação de dados possam eventualmente ser muito mais automatizadas do que são atualmente, e muito menos caras e demoradas.

Publicado pela primeira vez em 1º de setembro de 2022.

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.