Inteligência artificial

Resolvendo o problema do artefato JPEG em conjuntos de dados de visão computacional

Publicado 22 de Setembro de 2021

Atualização do 9 de dezembro de 2022

Martin Anderson

Um novo estudo da Universidade de Maryland e do Facebook AI descobriu uma "penalidade significativa de desempenho" em sistemas de aprendizado profundo que usam imagens JPEG altamente compactadas em seus conjuntos de dados e oferece alguns novos métodos para mitigar os efeitos disso.

O processo de , intitulado Analisando e mitigando defeitos de compactação JPEG em Deep Learning, afirma ser "significativamente mais abrangente" do que estudos anteriores sobre os efeitos de artefatos no treinamento de conjuntos de dados de visão computacional. O artigo conclui que "a compressão JPEG [pesada] a moderada incorre em uma perda significativa de desempenho nas métricas padrão" e que as redes neurais talvez não sejam tão resilientes a tais perturbações quanto trabalhos anteriores. sugere.

Uma foto de um cachorro do conjunto de dados MobileNetV2018 de 2. Na qualidade 10 (esquerda), um sistema de classificação falha em identificar a raça correta 'Pembroke Welsh Corgi', em vez de adivinhar 'Norwich terrier' (o sistema já sabe que esta é a foto de um cachorro, mas não a raça); a segunda da esquerda, uma versão corrigida por artefato JPEG pronta para uso da imagem novamente falha em identificar a raça correta; segundo da direita, a correção de artefato direcionada restaura a classificação correta; e à direita, a foto original, corretamente classificada. Fonte: https://arxiv.org/pdf/2011.08932.pdf

Uma foto de um cachorro do conjunto de dados MobileNetV2018 de 2. Com qualidade 10 (esquerda), um sistema de classificação não consegue identificar a raça correta, "Pembroke Welsh Corgi", supondo, em vez disso, "Norwich Terrier" (o sistema já sabe que se trata de uma foto de um cachorro, mas não da raça); a segunda da esquerda, uma versão pronta para uso da imagem, corrigida por artefatos JPEG, falha novamente em identificar a raça correta; a segunda da direita, a correção direcionada por artefatos restaura a classificação correta; e a direita, a foto original, classificada corretamente. Fonte: https://arxiv.org/pdf/2011.08932.pdf

Artefatos de compressão como 'Dados'

A compactação JPEG extrema provavelmente criará bordas visíveis ou semivisíveis ao redor do 8×8 blocos a partir do qual um JPEG é montado em uma grade de pixels. Uma vez que esses artefatos de bloqueio ou "ressonância" aparecem, eles provavelmente serão mal interpretados por sistemas de aprendizado de máquina como elementos do mundo real do objeto da imagem, a menos que haja alguma compensação para isso.

Acima, um sistema de aprendizado de máquina de visão computacional extrai uma imagem de gradiente 'limpa' de uma imagem de boa qualidade. Abaixo, artefatos de 'bloqueio' em um salvamento de imagem de baixa qualidade obscurecem os recursos do assunto e podem acabar 'infectando' os recursos derivados de um conjunto de imagens, principalmente nos casos em que imagens de alta e baixa qualidade ocorrem no conjunto de dados , como em coleções extraídas da Web às quais apenas a limpeza de dados genéricos foi aplicada. Fonte: http://www.cs.utep.edu/ofuentes/papers/quijasfuentes2014.pdf

Acima, um sistema de aprendizado de máquina com visão computacional extrai uma imagem de gradiente "limpa" de uma imagem de boa qualidade. Abaixo, artefatos de "bloqueio" em um salvamento de imagem de baixa qualidade obscurecem as características do sujeito e podem acabar "infectando" as características derivadas de um conjunto de imagens, particularmente em casos em que imagens de alta e baixa qualidade ocorrem no conjunto de dados, como em coleções raspadas da web às quais apenas uma limpeza de dados genérica foi aplicada. Fonte: http://www.cs.utep.edu/ofuentes/papers/quijasfuentes2014.pdf

Conforme visto na primeira imagem acima, tais artefatos podem afetar as tarefas de classificação de imagens, com implicações também para os algoritmos de reconhecimento de texto, que podem não conseguir identificar corretamente os caracteres afetados pelo artefato.

No caso de sistemas de treinamento de síntese de imagens (como softwares de deepfake ou sistemas de geração de imagens baseados em GAN), um bloco "desonesto" de imagens de baixa qualidade e altamente compactadas em um conjunto de dados pode reduzir a qualidade mediana da reprodução ou ser substituído e essencialmente substituído por um número maior de recursos de qualidade superior extraídos de imagens melhores no conjunto. Em ambos os casos, dados de melhor qualidade são desejáveis – ou, pelo menos, dados consistentes.

JPEG – Geralmente 'Bom o Suficiente'

A compressão JPEG é um codec com perdas irreversíveis que pode ser aplicado a vários formatos de imagem, embora seja aplicado principalmente ao arquivo de imagem JFIF invólucro. Apesar disso, o formato JPEG (.jpg) recebeu o nome de seu método de compactação associado, e não o wrapper JFIF para os dados da imagem.

Arquiteturas inteiras de aprendizado de máquina surgiram nos últimos anos, incluindo a mitigação de artefatos no estilo JPEG como parte das rotinas de upscaling/restauração orientadas por IA, e a remoção de artefatos de compactação baseada em IA agora está incorporada a vários produtos comerciais, como o Topaz image/ vídeo suíte, e a características neurais de versões recentes do Adobe Photoshop.

Uma vez que o 1986 O esquema JPEG atualmente em uso comum foi praticamente bloqueado no início da década de 1990. Não é possível adicionar metadados a uma imagem que indiquem em qual nível de qualidade (1-100) uma imagem JPEG foi salva — pelo menos, não sem modificar mais de trinta anos de sistemas de software legados para consumidores, profissionais e acadêmicos que não esperavam que tais metadados estivessem disponíveis.

Consequentemente, não é incomum adaptar rotinas de treinamento de aprendizado de máquina à qualidade avaliada ou conhecida dos dados de imagem JPEG, como os pesquisadores fizeram para o novo artigo (veja abaixo). Na ausência de uma entrada de metadados de "qualidade", atualmente é necessário conhecer os detalhes de como a imagem foi compactada (ou seja, compactada a partir de uma fonte sem perdas) ou estimar a qualidade por meio de algoritmos perceptuais ou classificação manual.

Um compromisso econômico

O JPEG não é o único método de compactação com perdas que pode afetar a qualidade dos conjuntos de dados de aprendizado de máquina; as configurações de compactação em arquivos PDF também podem descartar informações dessa maneira e ser definidas em níveis de qualidade muito baixos para economizar espaço em disco para fins de arquivamento local ou de rede.

Isso pode ser comprovado pela amostragem de vários PDFs no archive.org, alguns dos quais foram compactados de forma tão intensa que representam um desafio considerável para sistemas de reconhecimento de imagem ou texto. Em muitos casos, como em livros protegidos por direitos autorais, essa compactação intensa parece ter sido aplicada como uma forma de DRM barato, da mesma forma que os detentores de direitos autorais podem optar por reduzir a resolução dos vídeos do YouTube enviados por usuários, dos quais detêm a propriedade intelectual, deixando os vídeos "em blocos" como tokens promocionais para incentivar compras em "resolução máxima", em vez de excluí-los.

Em muitos outros casos, a resolução ou a qualidade da imagem é baixa simplesmente porque os dados são muito antigos e vêm de uma época em que o armazenamento local e de rede era mais caro e quando as velocidades de rede limitadas favoreciam imagens altamente otimizadas e portáteis em vez de reprodução de alta qualidade .

Foi argumentado que o JPEG, embora não seja a melhor solução agora, foi 'consagrado' como uma infraestrutura legada irremovível que está essencialmente interligada aos fundamentos da internet.

Carga Legada

Embora inovações posteriores, como JPEG 2000, PNG e (mais recentemente) o formato .webp, ofereçam qualidade superior, a reamostragem de conjuntos de dados de aprendizado de máquina mais antigos e populares poderia, sem dúvida, "redefinir" a continuidade e o histórico dos desafios anuais de visão computacional na comunidade acadêmica – um impedimento que também se aplicaria ao salvamento de imagens de conjuntos de dados PNG em configurações de qualidade mais altas. Isso poderia ser considerado uma espécie de dívida técnica.

Embora veneráveis bibliotecas de processamento de imagem orientadas a servidor, como ImageMagick, suportem formatos melhores, incluindo .webp, os requisitos de transformação de imagem ocorrem frequentemente em sistemas legados que não são configurados para nada além de JPG ou PNG (que oferece compactação sem perdas, mas às custas de latência e espaço em disco). Até o WordPress, o CMS que alimenta quase 40% de todos os sites, adicionado apenas suporte a .webp três meses atrás.

O PNG foi uma entrada tardia (possivelmente tarde demais) no setor de formato de imagem, surgindo como uma solução de código aberto no final da década de 1990 em resposta a uma declaração de 1995 pela Unisys e CompuServe que os royalties seriam pagos a partir de então no formato de compressão LZW usado em arquivos GIF, que eram comumente usados naquela época para logotipos e elementos de cores planas, mesmo que o formato ressurreição no início de 2010, centrado em sua capacidade de fornecer conteúdo animado de baixa largura de banda e rápido (ironicamente, PNGs animados nunca ganharam popularidade ou amplo suporte e foram até mesmo banido do Twitter em 2019).

Apesar de suas deficiências, a compactação JPEG é rápida, eficiente em termos de espaço e profundamente incorporada em sistemas de todos os tipos – e, portanto, provavelmente não desaparecerá totalmente do cenário de aprendizado de máquina em um futuro próximo.

Tirando o melhor proveito da détente AI/JPEG

Até certo ponto, a comunidade de aprendizado de máquina se adaptou aos pontos fracos da compactação JPEG: em 2011, a European Society of Radiology (ESR) publicou um estudo sobre a 'Usabilidade da compressão irreversível de imagem em imagens radiológicas', fornecendo diretrizes para perdas 'aceitáveis'; quando o venerável MNIST conjunto de dados de reconhecimento de texto (cujos dados de imagem foram originalmente fornecidos em um novo formato binário) foi portado para um formato de imagem 'regular', JPEG, não PNG, foi escolhido; e uma colaboração anterior (2020) dos autores do novo artigo ofereceu 'uma nova arquitetura' para calibrar sistemas de aprendizado de máquina para as deficiências de qualidade variável de imagem JPEG, sem a necessidade de modelos serem treinados em cada configuração de qualidade JPEG – um recurso utilizado no novo trabalho.

De fato, a pesquisa sobre a utilidade de dados JPEG com variação de qualidade é um campo relativamente próspero no aprendizado de máquina. Um projeto (não relacionado) de 2016 do Centro de Pesquisa em Automação da Universidade de Maryland, na verdade centra-se no domínio DCT (onde os artefatos JPEG ocorrem em configurações de baixa qualidade) como uma rota para a extração profunda de recursos; outro projeto de 2019 se concentra em leitura em nível de byte de dados JPEG sem a necessidade demorada de realmente descompactar as imagens (ou seja, abri-las em algum ponto de um fluxo de trabalho automatizado); e um estudo da França em 2019 aproveita ativamente a compactação JPEG a serviço de rotinas de reconhecimento de objetos.

Testes e Conclusões

Voltando ao estudo mais recente da UoM e do Facebook, os pesquisadores buscaram testar a compreensibilidade e a utilidade do JPEG em imagens comprimidas entre 10 e 90 (abaixo do qual, a imagem fica impossivelmente perturbada e acima do qual, a compressão é igual à compressão sem perdas). As imagens utilizadas nos testes foram pré-comprimidas em cada valor dentro da faixa de qualidade alvo, o que exigiu pelo menos oito sessões de treinamento.

Os modelos foram treinados em descida gradiente estocástica através de quatro métodos: baseline, onde nenhuma atenuação adicional foi adicionada; ajuste fino supervisionado, onde o conjunto de treinamento tem a vantagem de pesos pré-treinados e dados rotulados (embora os pesquisadores admitam que isso é difícil de replicar em aplicativos de nível de consumidor); correção de artefato, onde o aumento/melhoria é realizado nas imagens comprimidas antes do treinamento; e correção de artefatos direcionados à tarefa, em que a rede correta do artefato é ajustada com precisão nos erros retornados.

O treinamento ocorreu em uma ampla variedade de conjuntos de dados apt, incluindo várias variantes do ResNet, RápidoRCNN, MobileNetV2, Máscara RCNN e Keras' Inception V3.

Os resultados da perda de amostra após a correção do artefato direcionado à tarefa são visualizados abaixo (menor = melhor).

Não é possível aprofundar os detalhes dos resultados obtidos no estudo, porque as descobertas dos pesquisadores estão divididas entre o objetivo de avaliar artefatos JPEG e novos métodos para aliviar isso; o treinamento foi iterado por qualidade em tantos conjuntos de dados; e as tarefas incluíam vários objetivos, como detecção, segmentação e classificação de objetos. Essencialmente, o novo relatório se posiciona como uma obra de referência abrangente, abordando várias questões.

No entanto, o artigo conclui, de forma geral, que "a compressão JPEG apresenta uma penalidade acentuada em todos os aspectos, mesmo para configurações de compressão pesadas a moderadas". Afirma também que suas novas estratégias de mitigação não rotuladas alcançam resultados superiores a outras abordagens semelhantes; que, para tarefas complexas, o método supervisionado dos pesquisadores também supera seus pares, apesar de não ter acesso a rótulos de verdade básica; e que essas novas metodologias permitem a reutilização de modelos, uma vez que os pesos obtidos são transferíveis entre tarefas.

Em termos de tarefas de classificação, o artigo afirma explicitamente que 'JPEG degrada a qualidade do gradiente e também induz erros de localização'.

Os autores esperam estender estudos futuros para cobrir outros métodos de compressão, como o amplamente desconsiderado JPEG 2000, bem como WebP, heif e BPG. Eles ainda sugerem que sua metodologia poderia ser aplicada a pesquisas análogas em algoritmos de compressão de vídeo.

Como o método de correção de artefatos direcionados à tarefa se mostrou tão bem-sucedido no estudo, os autores também sinalizam sua intenção de liberar os pesos treinados durante o projeto, antecipando que "[muitas] aplicações se beneficiarão do uso de nossos pesos TTAC sem modificação".

nb A imagem de origem do artigo vem de thispersondoesnotexist.com

Tópicos relacionados:classificação de imagem processamento de imagem reconhecimento de imagem pesquisa