talón La sobreinterpretación puede ser una amenaza más grande e intratable que el sobreajuste - Unite.AI
Contáctanos

Inteligencia artificial

La sobreinterpretación puede ser una amenaza mayor y más intratable que el sobreajuste

mm
Actualizado on

Si a tu buena amiga Alice le gusta usar suéteres amarillos, verás muchos más suéteres amarillos que la persona promedio. Después de un tiempo, es posible que cuando veas un una experiencia diferente mujer con un suéter amarillo, el concepto central Alicia vendrá a la mente.

Si ves a una mujer con un suéter amarillo que se asemeja Alice un poco, incluso puedes confundirla momentáneamente con tu amiga.

Pero es no Alicia. Eventualmente, te darás cuenta de que suéter amarillo no es una clave útil para identificar a Alice, ya que nunca las usa en verano, y tampoco las usa siempre en invierno. De alguna manera en la amistad, comenzarás a degradar suéter amarillo como posible Alicia identificador, porque su experiencia ha sido insatisfactoria, y la energía cognitiva utilizada para mantener este atajo no es recompensado con frecuencia.

Sin embargo, si eres un sistema de reconocimiento basado en visión por computadora, es muy posible que veas a Alice en todas partes donde veas un suéter amarillo.

No es tu culpa; se le ha encomendado identificar a Alice a toda costa, a partir de la mínima información disponible, y no faltan los recursos cognitivos para mantener esta reducción Alicia cuna.

Discernimiento asombroso

Según un artículo reciente del MIT Computer Science & Artificial Intelligence Laboratory (CSAIL) y Amazon Web Services, este síndrome, denominado sobreinterpretación, abunda en el campo de investigación de la visión artificial (CV); no se puede mitigar abordando el sobreajuste (ya que no es un complemento directo del sobreajuste); se evidencia comúnmente en la investigación que utiliza los dos conjuntos de datos más influyentes en el reconocimiento y la transformación de imágenes, CIFAR-10 y ImagenNet; y no tiene remedios fáciles, ciertamente no barato remedios.

Los investigadores descubrieron que al reducir las imágenes de entrenamiento de entrada a solo el 5% de su contenido coherente, una amplia gama de marcos populares continuaron clasificando correctamente las imágenes, que aparecen, en la mayoría de los casos, como "galimatías" visuales para cualquier observador humano:

Imágenes de entrenamiento originales de CIFAR-10, reducidas a solo el 5 % del contenido de píxeles original, pero clasificadas correctamente por una variedad de marcos de visión por computadora muy populares con una precisión de entre 90 y 99 %. Fuente: https://arxiv.org/pdf/2003.08907.pdf

Imágenes de entrenamiento originales de CIFAR-10, reducidas a solo el 5 % del contenido de píxeles original, pero clasificadas correctamente por una variedad de marcos de visión por computadora muy populares con una precisión de entre 90 y 99 %. Fuente: https://arxiv.org/pdf/2003.08907.pdf

En algunos casos, los marcos de clasificación en realidad encuentran estas imágenes reducidas más fácil para clasificar correctamente que los fotogramas completos en los datos de entrenamiento originales, con los autores observando '[CNN] tiene más confianza en estos subconjuntos de píxeles que en imágenes completas'.

Esto indica un tipo de 'trampa' potencialmente perjudicial que ocurre como práctica común para los sistemas CV que utilizan conjuntos de datos de referencia como CIFAR-10 e ImageNet, y marcos de referencia como VGG16, ResNet20y ResNet18.

La sobreinterpretación tiene ramificaciones notables para los sistemas de vehículos autónomos basados ​​en CV, que se han centrado últimamente con La decisión de Tesla para favorecer la interpretación de imágenes sobre LiDAR y otros sistemas de detección basados ​​en rayos para algoritmos autónomos.

Aunque el 'aprendizaje abreviado' es un desafío conocido, y un campo de investigación activa en visión artificial, los autores del artículo comentan que el  Investigación alemana/canadiense que enmarcó notablemente el problema en 2019, no reconoce que los subconjuntos de píxeles 'falsos' que caracterizan la sobreinterpretación son 'datos estadísticamente válidos', que pueden necesitar ser abordados en términos de arquitectura y enfoques de nivel superior, en lugar de a través de una curación más cuidadosa de conjuntos de datos

El se titula La sobreinterpretación revela patologías del modelo de clasificación de imágenes, y proviene de Brandon Carter, Siddhartha Jain y David Gifford en CSAIL, en colaboración con Jonas Mueller de Amazon Web Services. El código del artículo está disponible en https://github.com/gifford-lab/overinterpretation.

Reduciendo los datos

Las imágenes despojadas de datos que los investigadores han utilizado se denominan por ellos Subconjuntos de entrada suficientes (SIS): en efecto, una imagen SIS contiene el mínimo "chasis externo" posible que puede delinear una imagen lo suficientemente bien como para permitir que un sistema de visión por computadora identifique el sujeto original de la imagen (es decir, perro, enviar, Etc).

En la fila anterior, vemos imágenes completas de validación de ImageNet; a continuación, los subconjuntos SIS, correctamente clasificados por un modelo Inception V3 con un 90% de confianza, basado, aparentemente, en todo lo que queda de la imagen: contexto de fondo. Naturalmente, la columna final tiene implicaciones notables para el reconocimiento de señalización en algoritmos de vehículos autónomos.

En la fila anterior, vemos imágenes completas de validación de ImageNet; a continuación, los subconjuntos SIS, correctamente clasificados por un modelo Inception V3 con un 90% de confianza, basado, aparentemente, en todo lo que queda de la imagen: contexto de fondo. Naturalmente, la columna final tiene implicaciones notables para el reconocimiento de señalización en algoritmos de vehículos autónomos.

Comentando los resultados obtenidos en la imagen de arriba, los investigadores observan:

'Encontramos que los píxeles SIS se concentran fuera del objeto real que determina la etiqueta de clase. Por ejemplo, en la imagen de la "pizza", el SIS se concentra en la forma del plato y la mesa de fondo, en lugar de la pizza en sí, lo que sugiere que el modelo podría generalizar mal en imágenes que contienen diferentes elementos circulares en una mesa. En la imagen del "panda gigante", el SIS contiene bambú, que probablemente apareció en la colección de fotos de ImageNet para esta clase.

'En las imágenes del "semáforo" y el "letrero de la calle", el SIS consiste en píxeles en el cielo, lo que sugiere que los sistemas de vehículos autónomos que pueden depender de estos modelos deben evaluarse cuidadosamente para detectar patologías de sobreinterpretación.'

Las imágenes SIS no se recortan al azar, sino que se crearon para el proyecto mediante un proceso de retroselección de degradado por lotes, en Inicio V3 y ResNet50 a través de PyTorch. Las imágenes se obtienen mediante una rutina de ablación que tiene en cuenta la relación entre la capacidad de un modelo para clasificar con precisión una imagen y las áreas en las que se eliminan iterativamente los datos originales.

Para confirmar la validez del SIS, los autores probaron un proceso de azar eliminación de píxeles, y encontró los resultados 'significativamente menos informativos' en las pruebas, lo que indica que las imágenes SIS realmente representan los datos mínimos que los modelos y conjuntos de datos populares necesitan para hacer predicciones aceptables.

Un vistazo a cualquiera de las imágenes reducidas sugiere que estos modelos deberían fallar en línea con los niveles humanos de discernimiento visual, lo que llevaría a una precisión media de menos del 20 %.

Con las imágenes SIS reducidas a solo el 5 % de sus píxeles originales, los humanos apenas logran una tasa de éxito de clasificación 'superior a la aleatoria', en comparación con la tasa de éxito del 90-99 % de los marcos y conjuntos de datos populares estudiados en el documento.

Con las imágenes SIS reducidas a solo el 5 % de sus píxeles originales, los humanos apenas logran una tasa de éxito de clasificación 'superior a la aleatoria', en comparación con la tasa de éxito del 90-99 % de los marcos y conjuntos de datos populares estudiados en el documento.

Más allá del sobreajuste

El sobreajuste ocurre cuando un modelo de aprendizaje automático se entrena tan exhaustivamente en un conjunto de datos que se vuelve competente en hacer predicciones para ese dato especifico, pero es mucho menos eficaz (o incluso totalmente ineficaz) en los datos nuevos que se introducen después del entrenamiento (fuera de distribución datos).

Los investigadores señalan que el actual interés académico y de la industria en combatir el sobreajuste no resolverá simultáneamente la sobreinterpretación, porque los subconjuntos de píxeles reducidos que representan imágenes identificables para computadoras y manchas sin sentido para humanos en realidad son datos realmente aplicables, en lugar de una concentración 'obsesionada' en datos anémicos o mal seleccionados:

'La sobreinterpretación está relacionada con el sobreajuste, pero el sobreajuste se puede diagnosticar a través de una menor precisión de la prueba. La sobreinterpretación puede provenir de señales estadísticas verdaderas en la distribución del conjunto de datos subyacente que surgen de propiedades particulares de la fuente de datos (p. ej., las reglas de los dermatólogos).

"Por lo tanto, la sobreinterpretación puede ser más difícil de diagnosticar, ya que admite decisiones que se toman con criterios estadísticamente válidos, y los modelos que usan dichos criterios pueden sobresalir en los puntos de referencia".

Soluciones posibles

Los autores sugieren que ensamblaje de modelos, donde múltiples arquitecturas contribuyen al proceso de evaluación y capacitación, podría ayudar a mitigar la sobreinterpretación. También encontraron que aplicar abandono de entrada, originalmente diseñado para impedir el sobreajuste, condujo a una "pequeña disminución" en la precisión de la prueba CIFAR-10 (que probablemente sea deseable), pero a un aumento "significativo" (∼ 6%) en la precisión de los modelos en datos no vistos. Sin embargo, las bajas cifras sugieren que es poco probable que cualquier cura posterior para el sobreajuste aborde completamente la sobreinterpretación.

Los autores admiten la posibilidad de utilizar mapas de prominencia para indicar qué áreas de una imagen son pertinentes para la extracción de características, pero tenga en cuenta que esto anula el objetivo del análisis automatizado de imágenes y requiere una anotación humana que es inviable a escala. Además, observan que se ha descubierto que los mapas de prominencia son solo estimadores crudos en términos de comprensión de las operaciones del modelo.

El artículo concluye:

'Dada la existencia de subconjuntos de píxeles no destacados que por sí solos son suficientes para una clasificación correcta, un modelo puede basarse únicamente en dichos patrones. En este caso, un método de interpretabilidad que describa fielmente el modelo debería generar estos fundamentos sin sentido, mientras que los métodos de interpretabilidad que sesgan los fundamentos hacia antecedentes humanos pueden producir resultados que induzcan a error a los usuarios a pensar que sus modelos se comportan según lo previsto.

 

 

Publicado por primera vez el 13 de enero de 2022.