Inteligencia Artificial

La sobreinterpretación puede ser una amenaza mayor y más intratable que el sobreajuste

Publicado Enero 13, 2022

Actualizado 9 de diciembre de 2022

Martin anderson

Si a tu buena amiga Alice le gusta usar suéteres amarillos, verás muchos más suéteres amarillos que la persona promedio. Después de un tiempo, es posible que cuando veas un una experiencia diferente mujer con un suéter amarillo, el concepto central Alicia vendrá a la mente.

Si ves a una mujer con un suéter amarillo que se asemeja Alice un poco, incluso puedes confundirla momentáneamente con tu amiga.

Pero es No Alice. Con el tiempo te darás cuenta de que... suéter amarillo No es una clave útil para identificar a Alice, ya que nunca los usa en verano y tampoco siempre en invierno. A medida que avanza la amistad, empezarás a degradarlos. suéter amarillo como posible Alicia identificador, porque su experiencia ha sido insatisfactoria, y la energía cognitiva utilizada para mantener este atajo No suele ser recompensado.

Sin embargo, si eres un sistema de reconocimiento basado en visión por computadora, es muy posible que veas a Alicia en todos los lugares donde ves un suéter amarillo.

No es tu culpa; te han encargado identificar a Alice a toda costa, a partir de la mínima información disponible, y no faltan recursos cognitivos para mantener este sistema reductivo. Alicia cuna.

Discernimiento asombroso

Según un artículo reciente del MIT Computer Science & Artificial Intelligence Laboratory (CSAIL) y Amazon Web Services, este síndrome, denominado sobreinterpretación, es un problema muy extendido en el campo de investigación de la visión artificial (CV); no se puede mitigar abordando el sobreajuste (ya que no es un complemento directo del sobreajuste); se evidencia comúnmente en investigaciones que utilizan los dos conjuntos de datos más influyentes en el reconocimiento y la transformación de imágenes. CIFAR-10 y ImagenNet; y no tiene remedios fáciles, ciertamente no barato remedios.

Los investigadores descubrieron que al reducir las imágenes de entrenamiento de entrada a un mero 5% de su contenido coherente, una amplia gama de marcos populares continuaron clasificando correctamente las imágenes, que aparecen, en la mayoría de los casos, como un "galimatías" visual para cualquier observador humano:

Imágenes de entrenamiento originales de CIFAR-10, reducidas a solo el 5 % del contenido de píxeles original, pero clasificadas correctamente por una variedad de marcos de visión por computadora muy populares con una precisión de entre 90 y 99 %. Fuente: https://arxiv.org/pdf/2003.08907.pdf

En algunos casos, los marcos de clasificación en realidad encuentran estas imágenes reducidas más fácil para clasificar correctamente que los fotogramas completos en los datos de entrenamiento originales, con los autores observando '[Las CNN] tienen más confianza en estos subconjuntos de píxeles que en imágenes completas'.

Esto indica un tipo de "trampa" potencialmente perjudicial que ocurre como práctica común en los sistemas de CV que utilizan conjuntos de datos de referencia como CIFAR-10 e ImageNet, y marcos de referencia como VGG16, ResNet20y ResNet18.

La sobreinterpretación tiene ramificaciones notables para los sistemas de vehículos autónomos basados en CV, que se han centrado últimamente con La decisión de Tesla para favorecer la interpretación de imágenes sobre LiDAR y otros sistemas de detección basados en rayos para algoritmos autónomos.

Aunque el 'aprendizaje de atajos' es una desafío conocido, y un campo de investigación activa en visión por computadora, los autores del artículo comentan que Investigación alemana/canadiense que enmarcó notablemente el problema en 2019 no reconoce que los subconjuntos de píxeles "espurios" que caracterizan la sobreinterpretación son "datos estadísticamente válidos", que tal vez deban abordarse en términos de arquitectura y enfoques de nivel superior, en lugar de a través de una curación más cuidadosa de los conjuntos de datos.

El proceso de se titula La sobreinterpretación revela patologías del modelo de clasificación de imágenes, y proviene de Brandon Carter, Siddhartha Jain y David Gifford en CSAIL, en colaboración con Jonas Mueller de Amazon Web Services. El código del artículo está disponible en https://github.com/gifford-lab/overinterpretation.

Reduciendo los datos

Las imágenes despojadas de datos que los investigadores han utilizado se denominan por ellos Subconjuntos de entrada suficientes (SIS) – en efecto, una imagen SIS contiene el 'chasis exterior' mínimo posible que puede delinear una imagen lo suficientemente bien como para permitir que un sistema de visión por computadora identifique el sujeto original de la imagen (es decir, perro, enviar, Etc).

En la fila anterior, vemos imágenes completas de validación de ImageNet; a continuación, los subconjuntos SIS, correctamente clasificados por un modelo Inception V3 con un 90% de confianza, basado, aparentemente, en todo lo que queda de la imagen: contexto de fondo. Naturalmente, la columna final tiene implicaciones notables para el reconocimiento de señalización en algoritmos de vehículos autónomos.

Comentando los resultados obtenidos en la imagen de arriba, los investigadores observan:

'Encontramos que los píxeles SIS se concentran fuera del objeto real que determina la etiqueta de clase. Por ejemplo, en la imagen de la "pizza", el SIS se concentra en la forma del plato y la mesa de fondo, en lugar de la pizza en sí, lo que sugiere que el modelo podría generalizar mal en imágenes que contienen diferentes elementos circulares en una mesa. En la imagen del "panda gigante", el SIS contiene bambú, que probablemente apareció en la colección de fotos de ImageNet para esta clase.

'En las imágenes del "semáforo" y la "señal de calle", el SIS consiste en píxeles en el cielo, lo que sugiere que los sistemas de vehículos autónomos que pueden depender de estos modelos deberían evaluarse cuidadosamente para detectar patologías de sobreinterpretación.'

Las imágenes SIS no se recortan al azar, sino que se crearon para el proyecto mediante un proceso de retroselección de degradado por lotes, en Inicio V3 y ResNet50 mediante PyTorch. Las imágenes se obtienen mediante una rutina de ablación que considera la relación entre la capacidad de un modelo para clasificar una imagen con precisión y las áreas en las que se eliminan iterativamente los datos originales.

Para confirmar la validez del SIS, los autores probaron un proceso de azar eliminación de píxeles y encontraron que los resultados eran "significativamente menos informativos" en las pruebas, lo que indica que las imágenes SIS realmente representan los datos mínimos que los modelos y conjuntos de datos populares necesitan para hacer predicciones aceptables.

Un vistazo a cualquiera de las imágenes reducidas sugiere que estos modelos deberían fallar en línea con los niveles humanos de discernimiento visual, lo que llevaría a una precisión media de menos del 20 %.

Con las imágenes SIS reducidas a solo el 5 % de sus píxeles originales, los humanos apenas logran una tasa de éxito de clasificación 'superior a la aleatoria', en comparación con la tasa de éxito del 90-99 % de los marcos y conjuntos de datos populares estudiados en el documento.

Con las imágenes SIS reducidas a solo el 5% de sus píxeles originales, los humanos apenas logran una tasa de éxito de clasificación "mayor que la aleatoria", en comparación con la tasa de éxito del 90-99% de los conjuntos de datos y marcos populares estudiados en el artículo.

Más allá del sobreajuste

El sobreajuste ocurre cuando un modelo de aprendizaje automático se entrena tan exhaustivamente en un conjunto de datos que se vuelve competente en hacer predicciones para ese dato especifico, pero es mucho menos efectivo (o incluso totalmente ineficaz) con datos nuevos que se le introducen después del entrenamiento (fuera de distribución datos).

Los investigadores señalan que el actual interés académico y de la industria en combatir el sobreajuste no resolverá simultáneamente la sobreinterpretación, porque los subconjuntos de píxeles reducidos que representan imágenes identificables para computadoras y manchas sin sentido para humanos en realidad son datos realmente aplicables, en lugar de una concentración "obsesionada" en datos mal seleccionados o anémicos:

'La sobreinterpretación está relacionada con el sobreajuste, pero el sobreajuste se puede diagnosticar a través de una menor precisión de la prueba. La sobreinterpretación puede provenir de señales estadísticas verdaderas en la distribución del conjunto de datos subyacente que surgen de propiedades particulares de la fuente de datos (p. ej., las reglas de los dermatólogos).

'Por lo tanto, la sobreinterpretación puede ser más difícil de diagnosticar ya que admite decisiones que se toman según criterios estadísticamente válidos, y los modelos que utilizan dichos criterios pueden destacar en los puntos de referencia.'

Soluciones posibles

Los autores sugieren que ensamblaje de modelos, donde múltiples arquitecturas contribuyen al proceso de evaluación y capacitación, podría ayudar a mitigar la sobreinterpretación. También encontraron que aplicar abandono de entrada, originalmente diseñado para evitar el sobreajuste, provocó una ligera disminución en la precisión de la prueba CIFAR-10 (probablemente deseable), pero un aumento significativo (∼ 6%) en la precisión de los modelos con datos no analizados. Sin embargo, las bajas cifras sugieren que es poco probable que cualquier solución posterior para el sobreajuste solucione por completo la sobreinterpretación.

Los autores admiten la posibilidad de utilizar mapas de prominencia para indicar qué áreas de una imagen son pertinentes para la extracción de características, pero cabe destacar que esto frustra el objetivo del análisis automatizado de imágenes y requiere una anotación humana inviable a gran escala. Además, observan que se ha descubierto que los mapas de saliencia son solo estimadores crudos en términos de comprensión de las operaciones del modelo.

El artículo concluye:

Dada la existencia de subconjuntos de píxeles no salientes que por sí solos son suficientes para una clasificación correcta, un modelo puede basarse únicamente en dichos patrones. En este caso, un método de interpretabilidad que describa fielmente el modelo debería generar estas justificaciones sin sentido, mientras que los métodos de interpretabilidad que sesgan las justificaciones hacia las hipótesis previas humanas pueden producir resultados que induzcan a error a los usuarios a pensar que sus modelos se comportan como se espera.

Publicado por primera vez el 13 de enero de 2022.

Temas relacionados:Visión por computador sobreajuste investigacion

Martin anderson

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Exdirector de contenido de investigación en Metaphysic.ai.
sitio personal: martinanderson.ai
Contacto: [email protected]
Gorjeo: @manders_ai