Inteligencia Artificial
Reducción de imágenes de alta resolución con aprendizaje automático

Una nueva investigación del Reino Unido ha propuesto un método mejorado de aprendizaje automático para cambiar el tamaño de las imágenes, basado en el valor percibido de las diversas partes del contenido de la imagen, en lugar de reducir indiscriminadamente la dimensión (y, por lo tanto, la calidad y las características extraíbles) para todos los píxeles en la imagen.
Como parte de un creciente interés en los sistemas de compresión impulsados por IA, es un enfoque que eventualmente podría informar nuevos códecs para la compresión de imágenes generales, aunque el trabajo está motivado por las imágenes de salud, donde la disminución arbitraria de la resolución de imágenes médicas podría llevar a la pérdida de información que salva vidas.

Arquitectura representacional del nuevo sistema. El módulo de deformación intersticial produce un mapa de deformación que corresponde a áreas de interés en la imagen. La densidad y dirección de los puntos rojos indican estas áreas. El mapa se usa no solo para reducir la muestra, sino también para reconstruir las áreas de interés principal cuando el contenido de la imagen se vuelve a escalar de manera no uniforme en el otro lado del proceso de entrenamiento. Fuente: https://arxiv.org/pdf/2109.11071.pdf
El sistema se aplica segmentación semántica a las imágenes: bloques amplios, representados como bloques de color en la imagen de arriba, que abarcan entidades reconocidas dentro de la imagen, como 'camino', 'bicicleta', 'lesión', et al. A continuación, se utiliza la disposición de los mapas de segmentación semántica para calcular qué partes de la foto no deben muestrearse excesivamente.
Bajo el título Aprendiendo a reducir la resolución para la segmentación de imágenes de ultra alta resolución, nuevo documento es una colaboración entre investigadores del Center for Medical Image Computing del University College London e investigadores del departamento de Healthcare Intelligence de Microsoft Cambridge.
El mundo (bastante) de baja resolución de la formación en visión por computadora
El entrenamiento de los sistemas de visión por computadora está significativamente limitado por la capacidad de las GPU. Los conjuntos de datos pueden contener muchos miles de imágenes de las que se deben extraer características, pero incluso las GPU de alcance industrial tienden a alcanzar un máximo de 24 gb de VRAM, con escasez continua afectando la disponibilidad y el costo.
Esto significa que los datos deben alimentarse a través de los núcleos Tensor limitados de la GPU en lotes manejables, con 8-16 imágenes típicas de muchos flujos de trabajo de entrenamiento de visión por computadora.
No hay muchas soluciones obvias: incluso si la VRAM fuera ilimitada y las arquitecturas de CPU pudieran acomodar ese tipo de rendimiento de la GPU sin formar un cuello de botella arquitectónico, los tamaños de lote muy altos tenderán a derivar funciones de alto nivel a expensas de las transformaciones más detalladas. eso puede ser crítico para la utilidad del algoritmo final.
Aumentar la resolución de las imágenes de entrada implicará usar lotes más pequeños para ajustar los datos al espacio latente del entrenamiento de la GPU. Esto, a su vez, probablemente producirá un modelo excéntrico y sobreajustado.
Agregar GPU adicionales tampoco ayuda, al menos en las arquitecturas más comunes: si bien las configuraciones de múltiples GPU pueden acelerar los tiempos de capacitación, también pueden comprometer la integridad de los resultados de la capacitación, como dos fábricas adyacentes que trabajan en el mismo producto, con solo un teléfono. línea para coordinar sus esfuerzos.
Imágenes redimensionadas inteligentemente
Lo que queda es que las secciones más relevantes de una imagen típica para un conjunto de datos de visión por computadora podrían, con el nuevo método, preservarse intactas en el cambio de tamaño automático que ocurre cuando imágenes de muy alta resolución deben reducirse para ajustarse a una tubería de ML.
Este es un desafío separado al problema de artefactos con pérdida en conjuntos de datos de aprendizaje automático, donde la calidad se pierde en las canalizaciones de cambio de tamaño automatizado porque el códec de compresión desecha demasiada información (generalmente irrecuperable).
Más bien, en este caso, incluso guardar en un formato de imagen sin pérdida (como PNG con compresión LZW) no puede recuperar la información que se descarta de manera genérica cuando se cambia el tamaño (por ejemplo) de una exploración de resonancia magnética (IRM) a menudo dimensiones récord a una resolución típica más creíble de 256 × 256 o 512 × 512 píxeles.
Para empeorar las cosas, según los requisitos del marco, a menudo se agregarán bordes negros a las imágenes de origen rectangulares como una tarea rutinaria de procesamiento de datos, con el fin de producir un formato de entrada verdaderamente cuadrado para el procesamiento de redes neuronales, reduciendo aún más el espacio disponible para potencialmente datos cruciales.
En cambio, los investigadores de UCL y Microsoft proponen hacer que el proceso de cambio de tamaño sea más inteligente, utilizando de manera efectiva lo que siempre ha sido una etapa genérica en el proceso para resaltar áreas de interés, descargando parte de la carga interpretativa del sistema de aprendizaje automático a través del cual el las imágenes finalmente pasarán.
El método, afirman los investigadores, mejora una oferta de 2019 (imagen a continuación) que buscaba ganancias similares al enfocar la atención de calidad en el límites de objetos

De 'Segmentación eficiente: aprendizaje de reducción de muestreo cerca de límites semánticos', Marin et al., 2019. Fuente: https://arxiv.org/pdf/1907.07156.pdf
Como señala el nuevo trabajo, este enfoque supone que las áreas de interés se reúnen en los límites, mientras que los ejemplos de imágenes médicas, como las regiones cancerosas anotadas, dependen de un contexto de nivel superior y pueden aparecer como detalles fácilmente descartables dentro de áreas más amplias en una imagen. , en lugar de en los bordes.
Remuestreador aprendible
La nueva investigación propone una remuestreador aprendible llamado módulo de deformación, que se entrena conjuntamente con un módulo de segmentación paralela y, por lo tanto, puede recibir información sobre áreas de interés identificadas por la segmentación semántica y priorizarlas durante el proceso de reducción de muestreo.
Los autores probaron el sistema en varios conjuntos de datos populares, incluidos Paisajes urbanos, Globo Profundo y un conjunto de datos local de histología del cáncer de próstata, 'PCa-Histo'.

Tres enfoques: a la izquierda, el submuestreo "uniforme" existente; en el medio, el enfoque de "borde óptimo" del artículo de 2019; a la derecha, la arquitectura detrás del nuevo sistema, informada por el reconocimiento de entidades en una capa de segmentación semántica.
Se ha intentado un enfoque similar para un clasificador propuesto en 2019, pero los autores del artículo actual sostienen que este método no regulariza adecuadamente las áreas de énfasis, lo que podría pasar por alto áreas vitales en un contexto de imágenes médicas.
Resultados
El módulo de deformación en el nuevo sistema es una pequeña red neuronal convolucional (CNN), mientras que la capa de segmentación es una arquitectura CNN profunda que emplea HRNetV2-W48. Red de análisis de escena piramidal (Red PSP) se usó como una capa de verificación de cordura para las pruebas de CityScapes.
Los conjuntos de datos mencionados anteriormente se probaron con el nuevo marco, utilizando el remuestreo uniforme (el método habitual), el método de borde óptimo de 2019 y el aprovechamiento de la segmentación semántica del nuevo enfoque.
Los autores informan que el nuevo método muestra 'clara ventaja a la hora de identificar y distinguir las clases más importantes desde el punto de vista clínico', con un aumento de precisión del 15-20 %. Además, observan que la distancia entre estas clases se define a menudo como «el umbral entre la salud y el cáncer».

Análisis de intersección sobre unión (IoU) de clase a través de los tres métodos: izquierda, remuestreo estándar; borde medio, óptimo; y bien, el nuevo enfoque. CityScapes se redujo a 64 x 128, PCaHisto a 80 x 800 y DeepGlobe a 300 píxeles cuadrados.
El informe afirma que su método "puede aprender una estrategia de submuestreo, preservar mejor la información y permitir un mejor equilibrio", concluyendo que el nuevo marco 'puede aprender de manera eficiente dónde "invertir" el presupuesto limitado de píxeles en el submuestreo para lograr el mayor retorno general en precisión de segmentación'.
La imagen principal del artículo de esta sección se obtuvo de thispersondoesnotexist.com. Actualizada a las 3:35 GMT+2 por error de texto.












