toco Modelos de treinamento de visão computacional em ruído aleatório em vez de imagens reais - Unite.AI
Entre em contato

Inteligência artificial

Modelos de treinamento de visão computacional em ruído aleatório em vez de imagens reais

mm
Atualização do on

Pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial do MIT (CSAIL) experimentaram o uso de imagens de ruído aleatório em conjuntos de dados de visão computacional para treinar modelos de visão computacional e descobriram que, em vez de produzir lixo, o método é surpreendentemente eficaz:

Modelos generativos do experimento, classificados por desempenho. Fonte: https://openreview.net/pdf?id=RQUl8gZnN7O

Modelos generativos do experimento, classificados por desempenho. Fonte: https://openreview.net/pdf?id=RQUl8gZnN7O

Alimentar o aparente 'lixo visual' em arquiteturas populares de visão computacional não deve resultar nesse tipo de desempenho. Na extrema direita da imagem acima, as colunas pretas representam pontuações de precisão (em Imagenet-100) para quatro conjuntos de dados 'reais'. Embora os conjuntos de dados de 'ruído aleatório' que o precedem (representados em várias cores, consulte o índice superior esquerdo) não possam corresponder a isso, eles estão quase todos dentro dos limites superiores e inferiores respeitáveis ​​(linhas tracejadas vermelhas) para precisão.

Nesse sentido, 'precisão' não significa que um resultado necessariamente se pareça com um face, um igreja, um pizza, ou qualquer outro domínio específico para o qual você possa estar interessado em criar um síntese de imagem sistema, como uma Rede Adversária Generativa, ou uma estrutura de codificador/decodificador.

Em vez disso, significa que os modelos CSAIL derivaram 'verdades' centrais amplamente aplicáveis ​​a partir de dados de imagem tão aparentemente desestruturados que não deveriam ser capazes de fornecê-los.

Diversidade vs. Naturalismo

Esses resultados também não podem ser atribuídos a sobreajuste: um animado discussão entre os autores e revisores da Open Review revela que misturar conteúdo diferente de conjuntos de dados visualmente diversos (como 'folhas mortas', 'fractais' e 'ruído processual' – veja a imagem abaixo) em um conjunto de dados de treinamento melhora precisão nestes experimentos.

Isso sugere (e é uma noção um tanto revolucionária) um novo tipo de 'subajuste', onde a 'diversidade' supera o 'naturalismo'.

A página do projeto da iniciativa permite visualizar interativamente os diferentes tipos de conjuntos de dados de imagens aleatórias usados ​​no experimento. Fonte: https://mbaradad.github.io/learning_with_noise/

A página do projeto para a iniciativa permite visualizar interativamente os diferentes tipos de conjuntos de dados de imagens aleatórias usados ​​no experimento. Fonte: https://mbaradad.github.io/learning_with_noise/

Os resultados obtidos pelos pesquisadores questionam a relação fundamental entre redes neurais baseadas em imagens e as imagens do 'mundo real' que são lançadas sobre elas de forma alarmante. volumes maiores a cada ano, e implicam que a necessidade de obter, curar e de outra forma disputar conjuntos de dados de imagens em hiperescala podem eventualmente tornar-se redundantes. Os autores afirmam:

'Os sistemas de visão atuais são treinados em enormes conjuntos de dados, e esses conjuntos de dados têm custos: a curadoria é cara, eles herdam preconceitos humanos e há preocupações com a privacidade e os direitos de uso. Para compensar esses custos, surgiu o interesse em aprender com fontes de dados mais baratas, como imagens não rotuladas.

'Neste artigo, vamos um passo além e perguntamos se podemos eliminar totalmente os conjuntos de dados de imagens reais, aprendendo com os processos de ruído processual.'

Os pesquisadores sugerem que a safra atual de arquiteturas de aprendizado de máquina pode estar inferindo algo muito mais fundamental (ou, pelo menos, inesperado) a partir de imagens do que se pensava anteriormente, e que imagens “absurdas” podem potencialmente transmitir muito mais esse conhecimento. barato, mesmo com a possível utilização de dados sintéticos ad hoc, através de arquiteturas de geração de conjuntos de dados que geram imagens aleatórias no momento do treinamento:

'Identificamos duas propriedades principais que contribuem para bons dados sintéticos para sistemas de visão de treinamento: 1) naturalismo, 2) diversidade. Curiosamente, os dados mais naturalísticos nem sempre são os melhores, já que o naturalismo pode custar a diversidade.

'O fato de que os dados naturalísticos ajudam pode não ser surpreendente, e sugere que, de fato, dados reais de grande escala têm valor. No entanto, achamos que o crucial não é que os dados sejam reais mas que seja naturalista, ou seja, deve capturar certas propriedades estruturais de dados reais.

'Muitas dessas propriedades podem ser capturadas em modelos de ruído simples.'

Visualizações de recursos resultantes de um codificador derivado de AlexNet em alguns dos vários conjuntos de dados de 'imagem aleatória' usados ​​pelos autores, cobrindo a 3ª e a 5ª (final) camada convolucional. A metodologia usada aqui segue aquela estabelecida na pesquisa de IA do Google de 2017.

Visualizações de recursos resultantes de um codificador derivado de AlexNet em alguns dos vários conjuntos de dados de 'imagem aleatória' usados ​​pelos autores, cobrindo a 3ª e a 5ª (final) camada convolucional. A metodologia aqui utilizada segue aquela estabelecida no Pesquisa de IA do Google de 2017.

A papel, apresentado na 35ª Conferência sobre Sistemas de Processamento de Informação Neural (NeurIPS 2021) em Sydney, é intitulado Aprendendo a ver olhando para o ruído, e vem de seis pesquisadores do CSAIL, com igual contribuição.

O trabalho foi Recomenda por consenso para uma seleção de destaque no NeurIPS 2021, com comentários de colegas caracterizando o artigo como 'um avanço científico' que abre uma 'grande área de estudo', mesmo que levante tantas perguntas quanto respostas.

No artigo, os autores concluem:

“Mostramos que, quando projetados usando resultados de pesquisas anteriores sobre estatísticas de imagens naturais, esses conjuntos de dados podem treinar representações visuais com sucesso. Esperamos que este artigo motive o estudo de novos modelos generativos capazes de produzir ruído estruturado alcançando um desempenho ainda maior quando usado em um conjunto diversificado de tarefas visuais.

'Seria possível igualar o desempenho obtido com o pré-treinamento do ImageNet? Talvez na ausência de um grande conjunto de treinamento específico para uma determinada tarefa, o melhor pré-treinamento pode não ser o uso de um conjunto de dados real padrão, como o ImageNet.'