toco Modelos de aprendizado profundo podem ter dificuldade para reconhecer imagens geradas por IA - Unite.AI
Entre em contato

Inteligência artificial

Modelos de aprendizado profundo podem se esforçar para reconhecer imagens geradas por IA

mm
Atualização do on

As descobertas de um novo artigo indicam que a IA de última geração é significativamente menos capaz de reconhecer e interpretar imagens sintetizadas por IA do que as pessoas, o que pode ser preocupante num clima futuro em que os modelos de aprendizagem automática são cada vez mais treinados em dados sintéticos. e onde não será necessariamente conhecido se os dados são “reais” ou não.

Aqui vemos o modelo de previsão resnext101_32x8d_wsl lutando na categoria 'bagel'. Nos testes, uma falha de reconhecimento foi considerada como tendo ocorrido se a palavra-alvo central (neste caso, 'bagel') não aparecesse entre os cinco principais resultados previstos. Fonte: https://arxiv.org/pdf/2208.10760.pdf

Aqui vemos o modelo de previsão resnext101_32x8d_wsl lutando na categoria 'bagel'. Nos testes, uma falha de reconhecimento foi considerada como tendo ocorrido se a palavra-alvo central (neste caso, 'bagel') não aparecesse entre os cinco principais resultados previstos. Fonte: https://arxiv.org/pdf/2208.10760.pdf

A nova pesquisa testou duas categorias de estrutura de reconhecimento baseada em visão computacional: reconhecimento de objetos e resposta visual a perguntas (Controle de Qualidade de Qualidade).

À esquerda, sucessos e falhas de inferência de um sistema de reconhecimento de objetos; à direita, tarefas de VQA projetadas para sondar a compreensão da IA ​​de cenas e imagens de maneira mais exploratória e significativa. Fontes: https://arxiv.org/pdf/2105.05312.pdf e https://arxiv.org/pdf/1505.00468.pdf

À esquerda, sucessos e falhas de inferência de um sistema de reconhecimento de objetos; à direita, tarefas de VQA projetadas para sondar a compreensão da IA ​​de cenas e imagens de maneira mais exploratória e significativa. Fontes: https://arxiv.org/pdf/2105.05312.pdf e https://arxiv.org/pdf/1505.00468.pdf

De dez modelos de última geração testados em conjuntos de dados selecionados gerados por estruturas de síntese de imagens DALL-E2 e Meio da jornada, o modelo de melhor desempenho foi capaz de atingir apenas 60% e 80% de precisão entre os 5 primeiros nos dois tipos de teste, enquanto ImagemNet, treinados em dados não sintéticos do mundo real, podem atingir respectivamente 91% e 99% nas mesmas categorias, enquanto o desempenho humano é notavelmente superior.

Abordando questões ao redor mudança de distribuição (também conhecido como 'Model Drift', onde os modelos de previsão experimentam capacidade preditiva diminuída quando movidos de dados de treinamento para dados 'reais'), o artigo afirma:

'Os humanos são capazes de reconhecer as imagens geradas e responder a perguntas sobre elas facilmente. Concluímos que a) modelos profundos lutam para entender o conteúdo gerado, e podem se sair melhor após o ajuste fino, e b) há uma grande mudança de distribuição entre as imagens geradas e as fotografias reais. A mudança de distribuição parece ser dependente da categoria.'

Dado o volume de imagens sintéticas que já inundaram a Internet na sequência da semana passada código aberto sensacional dos poderosos Difusão Estável modelo de síntese de difusão latente, surge naturalmente a possibilidade de que, à medida que imagens 'falsas' inundam conjuntos de dados padrão da indústria, como Rastreio comum, variações na precisão ao longo dos anos podem ser significativamente afetadas por imagens 'irreais'.

Embora os dados sintéticos tenham sido anunciado como o salvador potencial do setor de pesquisa de visão computacional faminto por dados, que muitas vezes carece de recursos e orçamentos para curadoria em hiperescala, a nova torrente de imagens Stable Diffusion (juntamente com o aumento geral de imagens sintéticas desde o advento e comercialização of DALL-E2) provavelmente não vêm com rótulos, anotações e hashtags úteis que os distinguem como 'falsos' a ponto de sistemas de visão de máquina gananciosos os rasparem da Internet.

A velocidade de desenvolvimento em estruturas de síntese de imagem de código aberto ultrapassou notavelmente nossa capacidade de categorizar imagens desses sistemas, levando a crescente interesse na detecção de 'imagem falsa' sistemas semelhantes aos detecção de deepfake sistemas, mas com a tarefa de avaliar imagens inteiras em vez de seções de rostos.

A novo papel é intitulado Quão bons são os modelos profundos na compreensão das imagens geradas?, e vem de Ali Borji, da startup de aprendizado de máquina de São Francisco, Quintic AI.

Data

O estudo é anterior ao lançamento do Stable Diffusion e os experimentos usam dados gerados por DALL-E 2 e Midjourney em 17 categorias, incluindo elefante, cogumelo, pizza, pretzel, trator e Coelho.

Exemplos das imagens das quais os sistemas testados de reconhecimento e VQA foram desafiados a identificar o conceito-chave mais importante.

Exemplos das imagens das quais os sistemas testados de reconhecimento e VQA foram desafiados a identificar o conceito-chave mais importante.

As imagens foram obtidas por meio de pesquisas na web e no Twitter e, de acordo com as políticas do DALL-E 2 (pelo menos, no momento), não incluiu nenhuma imagem com rostos humanos. Apenas imagens de boa qualidade, reconhecíveis por humanos, foram escolhidas.

Dois conjuntos de imagens foram selecionados, um para cada tarefa de reconhecimento de objetos e VQA.

O número de imagens presentes em cada categoria testada para reconhecimento de objetos.

O número de imagens presentes em cada categoria testada para reconhecimento de objetos.

Testando o Reconhecimento de Objetos

Para os testes de reconhecimento de objetos, foram testados dez modelos, todos treinados no ImageNet: Alex Net, ResNet152, MobileNetV2, DenseNet, ResPróximo, GoogleNet, ResNet101, Início_V3, Deit e ResNext_WSL.

Algumas das classes nos sistemas testados eram mais granulares do que outras, exigindo a aplicação de abordagens médias. Por exemplo, ImageNet contém três classes retendo a 'relógios', e foi necessário definir algum tipo de métrica arbitral, onde a inclusão de qualquer 'relógio' de qualquer tipo nos cinco principais rótulos obtidos para qualquer imagem foi considerada um sucesso nesse caso.

Desempenho por modelo em 17 categorias.

Desempenho por modelo em 17 categorias.

O modelo de melhor desempenho nesta rodada foi resnext101_32x8d_ws, alcançando quase 60% para o top 1 (ou seja, os momentos em que sua previsão preferida entre cinco suposições foi o conceito correto incorporado na imagem) e 80% para os cinco primeiros ( isto é, o conceito desejado foi pelo menos listado em algum lugar nas cinco suposições do modelo sobre a imagem).

O autor sugere que o bom desempenho desse modelo se deve ao fato de ter sido treinado para a previsão fracamente supervisionada de hashtags em plataformas de mídia social. No entanto, esses resultados principais, observa o autor, estão notavelmente abaixo do que o ImageNet é capaz de alcançar em dados reais, ou seja, 91% e 99%. Ele sugere que isso se deve a uma grande disparidade entre a distribuição das imagens ImageNet (que também são extraídas da web) e as imagens geradas.

As cinco categorias mais difíceis para o sistema, em ordem de dificuldade, foram pipa, tartaruga, esquilo, óculos de sol e capacete. O jornal observa que o pipa classe é muitas vezes confundida com balão, pára-quedas e guarda-chuva, embora essas distinções sejam trivialmente fáceis para os observadores humanos individualizarem.

Certas categorias, incluindo pipa e tartaruga, causou falha universal em todos os modelos, enquanto outros (notavelmente pretzel e trator) resultou em sucesso quase universal entre os modelos testados.

Categorias polarizadoras: algumas das categorias-alvo escolhidas ou influenciaram todos os modelos, ou então foram bastante fáceis de serem identificadas por todos os modelos.

Categorias polarizadoras: algumas das categorias-alvo escolhidas ou influenciaram todos os modelos, ou então foram bastante fáceis de serem identificadas por todos os modelos.

Os autores postulam que essas descobertas indicam que todos os modelos de reconhecimento de objetos podem compartilhar pontos fortes e fracos semelhantes.

Testando a resposta visual a perguntas

Em seguida, o autor testou modelos VQA em VQA aberto e de forma livre, com perguntas binárias (ou seja, perguntas para as quais a resposta pode ser apenas 'sim' ou 'não'). O documento observa que os modelos VQA de última geração são capazes de atingir 95% de precisão no conjunto de dados VQA-v2.

Para esta etapa do teste, o autor selecionou 50 imagens e formulou 241 perguntas sobre elas, 132 das quais tiveram respostas positivas e 109 negativas. A duração média das perguntas foi de 5.12 palavras.

Esta rodada usou o modelo OFA, uma estrutura agnóstica de tarefa e modalidade agnóstica para testar a abrangência da tarefa, e foi recentemente o artilheiro no Conjunto de teste padrão VQA-v2. O OFA obteve 77.27% de precisão nas imagens geradas, em comparação com sua própria pontuação de 94.7% no conjunto de teste-std VQA-v2.

Exemplos de perguntas e resultados da seção VQA dos testes. 'GT" é 'Ground Truth', ou seja, a resposta correta.

Exemplos de perguntas e resultados da seção VQA dos testes. 'GT' é 'Ground Truth', ou seja, a resposta correta.

O autor do artigo sugere que parte do motivo pode ser que as imagens geradas contenham conceitos semânticos ausentes do conjunto de dados VQA-v2 e que as perguntas escritas para os testes VQA possam ser mais desafiadoras do que o padrão geral das perguntas VQA-v2, embora ele acredita que a primeira razão é mais provável.

LSD no fluxo de dados?

Opinião A nova proliferação de imagens sintetizadas por IA, que podem apresentar conjunções instantâneas e abstrações de conceitos centrais que não existem na natureza, e que seriam proibitivamente demorados para serem produzidos por meio de métodos convencionais, poderia apresentar um problema específico para sistemas de dados mal supervisionados. sistemas de coleta, que podem não ser capazes de falhar normalmente – em grande parte porque não foram projetados para lidar com dados sintéticos não rotulados de alto volume.

Nesses casos, pode haver um risco de que esses sistemas encurralem uma porcentagem de imagens sintéticas 'bizarras' em classes incorretas simplesmente porque as imagens apresentam objetos distintos que realmente não pertencem um ao outro.

'Astronauta andando a cavalo' talvez tenha se tornado o visual mais emblemático para a nova geração de sistemas de síntese de imagens - mas essas relações 'irreais' podem entrar em sistemas de detecção reais, a menos que sejam tomados cuidados. Fonte: https://twitter.com/openai/status/1511714545529614338?lang=en

'Astronauta andando a cavalo' talvez tenha se tornado o visual mais emblemático para a nova geração de sistemas de síntese de imagens - mas essas relações 'irreais' podem entrar em sistemas de detecção reais, a menos que sejam tomados cuidados. Fonte: https://twitter.com/openai/status/1511714545529614338?lang=en

A menos que isso possa ser evitado no estágio de pré-processamento antes do treinamento, esses pipelines automatizados podem levar a associações improváveis ​​ou mesmo grotescas sendo treinadas em sistemas de aprendizado de máquina, degradando sua eficácia e arriscando a passagem de associações de alto nível para sistemas e subclasses downstream e categorias.

Alternativamente, imagens sintéticas desarticuladas podem ter um "efeito inibidor" na precisão de sistemas posteriores, na eventualidade de surgirem arquiteturas novas ou alteradas que tentam explicar ad hoc imagens sintéticas e lançam uma rede muito ampla.

Em ambos os casos, as imagens sintéticas na era pós-difusão estável podem se tornar uma dor de cabeça para o setor de pesquisa de visão computacional, cujos esforços tornaram possíveis essas estranhas criações e recursos - até porque põe em perigo a esperança do setor de que a coleta e a curadoria de dados possam eventualmente será muito mais automatizado do que é atualmente, e muito menos caro e demorado.

 

Publicado pela primeira vez em 1º de setembro de 2022.