Ângulo de Anderson
Redimensionamento de Imagens de Alta Resolução com Aprendizado de Máquina

Pesquisas recentes do Reino Unido propuseram um método de aprendizado de máquina aprimorado para redimensionar imagens, com base no valor percebido das várias partes do conteúdo da imagem, em vez de reduzir indiscriminadamente a dimensão (e, portanto, a qualidade e os recursos extraídos) para todos os pixels da imagem.
Como parte de um interesse crescente em sistemas de compressão impulsionados por IA, é uma abordagem que pode eventualmente informar novos codecs para compressão de imagens em geral, embora o trabalho seja motivado por imagens de saúde, onde a redução de tamanho arbitrária de imagens médicas de alta resolução pode levar à perda de informações que salvam vidas.

Arquitetura representacional do novo sistema. O módulo de deformação intersticial produz um mapa de deformação que corresponde a áreas de interesse na imagem. A densidade e direção dos pontos vermelhos indicam essas áreas. O mapa é usado não apenas para reduzir a resolução, mas também para reconstruir as áreas de interesse principal quando o conteúdo da imagem é reescalado de forma não uniforme no outro lado do processo de treinamento. Fonte: https://arxiv.org/pdf/2109.11071.pdf
O sistema aplica segmentação semântica às imagens – blocos amplos, representados como blocos de cor na imagem acima, que abrangem entidades reconhecidas dentro da imagem, como ‘estrada’, ‘bicicleta’, ‘lesão’, etc. A disposição dos mapas de segmentação semântica é então usada para calcular quais partes da foto não devem ser excessivamente reduzidas.
Intitulado Aprendendo a Reduzir a Resolução para Segmentação de Imagens de Ultra-Alta Resolução, o novo artigo é uma colaboração entre pesquisadores do Centro de Computação de Imagens Médicas da University College London e pesquisadores do Departamento de Inteligência em Saúde da Microsoft Cambridge.
O Mundo de (Relativamente) Baixa Resolução do Treinamento de Visão Computacional
O treinamento de sistemas de visão computacional é significativamente limitado pela capacidade dos GPUs. Conjuntos de dados podem conter muitas milhares de imagens das quais recursos precisam ser extraídos, mas mesmo os GPUs de escopo industrial tendem a atingir um pico de 24gb de VRAM, com falta de estoque afetando a disponibilidade e o custo.
Isso significa que os dados devem ser alimentados através dos núcleos de tensor limitados do GPU em lotes gerenciáveis, com 8-16 imagens típicas de muitos fluxos de trabalho de treinamento de visão computacional.
Não há muitas soluções óbvias: mesmo se a VRAM fosse ilimitada e as arquiteturas de CPU pudessem acomodar esse tipo de taxa de transferência do GPU sem formar um gargalo arquitetônico, tamanhos de lote muito grandes tenderão a derivar recursos de alto nível às expensas das transformações mais detalhadas que podem ser críticas para a utilidade do algoritmo final.
Aumentar a resolução das imagens de entrada significará que você precisará usar tamanhos de lote menores para ajustar os dados no ‘espaço latente’ do GPU de treinamento. Isso, por sua vez, é provável que produza um modelo que é ‘excêntrico’ e sobreajustado.
Nem adicionar GPUs extras ajuda, pelo menos nas arquiteturas mais comuns: enquanto configurações de vários GPUs podem acelerar os tempos de treinamento, também podem comprometer a integridade dos resultados de treinamento, como duas fábricas adjacentes trabalhando no mesmo produto, com apenas uma linha telefônica para coordenar seus esforços.
Imagens Redimensionadas Inteligentemente
O que resta é que as seções mais relevantes de uma imagem típica para um conjunto de dados de visão computacional poderiam, com o novo método, ser preservadas intactas no redimensionamento automático que ocorre quando imagens de muito alta resolução devem ser reduzidas para se ajustar a um pipeline de ML.
Essa é uma desafio separado do problema de artefatos de perda em conjuntos de dados de visão computacional, onde a qualidade é perdida em pipelines de redimensionamento automatizados porque o codec de compressão joga fora muita (geralmente irreversível) informação.
Em vez disso, nesse caso, mesmo salvando em um formato de imagem sem perda (como PNG com compressão LZW) não pode recuperar a informação que é genericamente descartada quando se reduz a resolução (por exemplo) de uma varredura de Imagem de Ressonância Magnética (MRI) de dimensões frequentemente recordes para uma resolução mais típica de 256×256 ou 512×512 pixels.
Para piorar, dependendo dos requisitos do framework, bordas pretas serão frequentemente adicionadas a imagens de origem retangulares como uma tarefa de processamento de dados de rotina, para produzir um formato de entrada genuinamente quadrado para processamento de rede neural, reduzindo ainda mais o espaço disponível para dados potencialmente cruciais.
Os pesquisadores da UCL e da Microsoft propõem, em vez disso, tornar o processo de redimensionamento mais inteligente, efetivamente usando o que sempre foi uma etapa genérica no pipeline para destacar áreas de interesse, transferindo parte da carga interpretativa do sistema de aprendizado de máquina pelo qual as imagens passarão eventualmente.
O método, segundo os pesquisadores, melhora uma oferta de 2019 (imagem abaixo) que buscava ganhos semelhantes, concentrando a atenção de qualidade nas fronteiras dos objetos.

De ‘Efficient Segmentation: Learning Downsampling Near Semantic Boundaries’, Marin et al., 2019. Fonte: https://arxiv.org/pdf/1907.07156.pdf
Como nota o novo trabalho, essa abordagem assume que áreas de interesse se reúnem nas fronteiras, enquanto exemplos de imagens médicas, como regiões de câncer anotadas, dependem de um contexto de nível superior e podem aparecer como detalhes facilmente descartados dentro de áreas mais amplas em uma imagem, em vez de nas bordas.
Redimensionador Aprendível
A nova pesquisa propõe um redimensionador aprendível chamado de módulo de deformação, que é treinado conjuntamente com um módulo de segmentação paralelo e, portanto, pode ser informado sobre áreas de interesse identificadas pela segmentação semântica e priorizar essas durante o processo de reduzir a resolução.
Os autores testaram o sistema em vários conjuntos de dados populares, incluindo Cityscapes, DeepGlobe e um conjunto de dados local de Histologia de Câncer de Próstata, ‘PCa-Histo’.

Três abordagens: à esquerda, amostragem ‘uniforme’ existente; no meio, a abordagem ‘borda ótima’ do artigo de 2019; à direita, a arquitetura por trás do novo sistema, informada pelo reconhecimento de entidades em uma camada de segmentação semântica.
Uma abordagem semelhante foi tentada para um classificador proposto em 2019, mas os autores do artigo atual argumentam que esse método não regulariza adequadamente as áreas de ênfase, potencialmente perdendo áreas vitais em um contexto de imagens médicas.
Resultados
O módulo de deformação no novo sistema é uma pequena Rede Neural Convolucional (CNN), enquanto a camada de segmentação é uma arquitetura de CNN profunda que emprega HRNetV2-W48. A Rede de Análise de Cenas em Pirâmide (PSP-net) foi usada como uma camada de verificação de sanidade para os testes do CityScapes.
Os conjuntos de dados mencionados foram testados com o novo framework, usando amostragem uniforme (o método costumeiro), o método de borda ótima de 2019 e a nova abordagem que aproveita a segmentação semântica.
Os autores relatam que o novo método mostra ‘uma clara vantagem na identificação e distinção das classes mais clinicamente importantes’, com um aumento de precisão de 15-20%. Eles observam ainda que a distância entre essas classes é frequentemente definida como ‘o limiar de saudável para câncer’.

Análise de interseção sobre a união (IoU) por classe ao longo dos três métodos: à esquerda, amostragem padrão; no meio, borda ótima; e à direita, a nova abordagem. CityScapes foi reduzido para 64 x 128, com PCaHisto reduzido para 80 x 800, e DeepGlobe reduzido para 300 pixels quadrados.
O relatório afirma que o método ‘pode aprender uma estratégia de reduzir a resolução, melhor preservar a informação e permitir uma melhor compensação.’, concluindo que a nova estrutura ‘pode aprender de forma eficiente onde “investir” o orçamento limitado de pixels na reduzir a resolução para alcançar o maior retorno geral em precisão de segmentação’.
A imagem principal para este artigo foi obtida de thispersondoesnotexist.com. Atualizado às 15h35min GMT+2 por erro de texto.












