Inteligencia artificial

AnomalyGPT: Detección de Anomalías Industriales utilizando LVLM

Publicado el 13 de septiembre de 2023

Actualizado el 23 de mayo de 2026

Por

Kunal Kejriwal

Recientemente, los Grandes Modelos de Lenguaje de Visión (LVLM) como LLava y MiniGPT-4 han demostrado la capacidad de entender imágenes y lograr una alta precisión y eficiencia en varias tareas visuales. Mientras que los LVLM excelan en el reconocimiento de objetos comunes debido a sus extensos conjuntos de datos de entrenamiento, carecen de conocimientos específicos del dominio y tienen una comprensión limitada de los detalles localizados dentro de las imágenes. Esto limita su eficacia en las tareas de Detección de Anomalías Industriales (IAD). Por otro lado, los marcos de IAD existentes solo pueden identificar las fuentes de anomalías y requieren ajustes manuales de umbrales para distinguir entre muestras normales y anómalas, lo que restringe su implementación práctica.

El propósito principal de un marco de IAD es detectar y localizar anomalías en escenarios industriales y en imágenes de productos. Sin embargo, debido a la imprevisibilidad y rareza de las muestras de imágenes del mundo real, los modelos suelen entrenarse solo con datos normales. Diferencian las muestras anómalas de las normales en función de las desviaciones de las muestras típicas. Actualmente, los marcos de IAD y los modelos proporcionan principalmente puntuaciones de anomalías para las muestras de prueba. Además, distinguir entre instancias normales y anómalas para cada clase de artículos requiere la especificación manual de umbrales, lo que los hace inadecuados para aplicaciones del mundo real.

Para explorar el uso y la implementación de los Grandes Modelos de Lenguaje de Visión en la resolución de los desafíos planteados por los marcos de IAD, se introdujo AnomalyGPT, un enfoque de IAD novedoso basado en LVLM. AnomalyGPT puede detectar y localizar anomalías sin la necesidad de ajustes manuales de umbrales. Además, AnomalyGPT también puede ofrecer información pertinente sobre la imagen para interactuar de manera interactiva con los usuarios, lo que les permite hacer preguntas de seguimiento basadas en la anomalía o en sus necesidades específicas.

Detección de Anomalías Industriales y Grandes Modelos de Lenguaje de Visión

Los marcos de IAD existentes se pueden categorizar en dos categorías.

Detección de Anomalías Basada en Reconstrucción.
Detección de Anomalías Basada en Incrustación de Características.

En un marco de IAD basado en reconstrucción, el objetivo principal es reconstruir las muestras de anomalías en sus respectivas muestras normales, y detectar anomalías mediante el cálculo del error de reconstrucción. SCADN, RIAD, AnoDDPM y InTra utilizan diferentes marcos de reconstrucción que van desde Redes Adversarias Generativas (GAN) y autoencoders hasta modelos de difusión y transformadores.

Por otro lado, en un marco de IAD basado en incrustación de características, el objetivo principal es centrarse en modelar la incrustación de características de los datos normales. Métodos como PatchSSVD intentan encontrar una hipersfera que pueda encapsular las muestras normales de manera ajustada, mientras que marcos como PyramidFlow y Cfl proyectan las muestras normales en una distribución gaussiana utilizando flujos normalizadores. Los marcos CFA y PatchCore han establecido un banco de memoria de muestras normales a partir de incrustaciones de parches y utilizan la distancia entre la incrustación de la muestra de prueba y la incrustación normal para detectar anomalías.

Ambos métodos siguen el paradigma de aprendizaje “uno a uno”, que requiere una gran cantidad de muestras normales para aprender las distribuciones de cada clase de objetos. La necesidad de una gran cantidad de muestras normales hace que sea impráctico para categorías de objetos nuevas y con aplicaciones limitadas en entornos de productos dinámicos. Por otro lado, el marco de AnomalyGPT utiliza un paradigma de aprendizaje en contexto para categorías de objetos, lo que le permite permitir la interferencia solo con un puñado de muestras normales.

Avanzando, tenemos los Grandes Modelos de Lenguaje de Visión o LVLM. Los Grandes Modelos de Lenguaje (LLM) han disfrutado de un gran éxito en la industria de NLP, y ahora se están explorando sus aplicaciones en tareas visuales. El marco BLIP-2 aprovecha Q-former para ingresar características visuales del Transformador de Visión en el modelo Flan-T5. Además, el marco MiniGPT conecta el segmento de imagen del marco BLIP-2 y el modelo Vicuna con una capa lineal, y realiza un proceso de ajuste fino en dos etapas utilizando datos de imagen-texto. Estos enfoques indican que los marcos LLM pueden tener algunas aplicaciones para tareas visuales. Sin embargo, estos modelos se han entrenado con datos generales y carecen de la experiencia específica del dominio necesaria para aplicaciones generalizadas.

¿Cómo Funciona AnomalyGPT?

AnomalyGPT en su núcleo es un modelo de lenguaje de visión conversacional de IAD novedoso diseñado principalmente para detectar anomalías industriales y determinar su ubicación exacta utilizando imágenes. El marco de AnomalyGPT utiliza un LLM y un codificador de imagen preentrenado para alinear imágenes con sus descripciones textuales correspondientes utilizando datos de anomalías estimuladas. El modelo introduce un módulo de decodificador y un módulo de aprendizaje de prompts para mejorar el rendimiento de los sistemas de IAD y lograr una salida de localización a nivel de píxel.

Arquitectura del Modelo

La imagen anterior muestra la arquitectura de AnomalyGPT. El modelo primero pasa la imagen de consulta al codificador de imagen congelado. El modelo luego extrae características a nivel de parche de las capas intermedias y las alimenta a un decodificador de imagen para calcular su similitud con textos anormales y normales para obtener los resultados de localización. El módulo de aprendizaje de prompts luego convierte estos en incrustaciones de prompts adecuadas para ser utilizadas como entradas en el LLM junto con las entradas textuales del usuario. El modelo LLM luego aprovecha las incrustaciones de prompts, las entradas de imagen y las entradas textuales del usuario para detectar anomalías y determinar su ubicación, y crea respuestas finales para el usuario.

Decodificador

Para lograr la localización de anomalías a nivel de píxel, el modelo AnomalyGPT despliega un decodificador de imagen basado en coincidencia de características ligero que admite tanto marcos de IAD de pocos disparos como marcos de IAD no supervisados. El diseño del decodificador utilizado en AnomalyGPT se inspira en los marcos WinCLIP, PatchCore y APRIL-GAN. El modelo divide el codificador de imagen en 4 etapas y extrae las características a nivel de parche intermedias en cada etapa.

Sin embargo, estas características intermedias no han pasado por la alineación final de imagen-texto, por lo que no se pueden comparar directamente con características. Para abordar este problema, el modelo AnomalyGPT introduce capas adicionales para proyectar las características intermedias y alinearlas con las características de texto que representan semánticas normales y anormales.

Aprendizaje de Prompts

El marco de AnomalyGPT introduce un módulo de aprendizaje de prompts que intenta transformar el resultado de localización en incrustaciones de prompts para aprovechar semánticas granulares de las imágenes y mantener la coherencia semántica entre las salidas del decodificador y el LLM. Además, el modelo incorpora incrustaciones de prompts aprendibles, no relacionadas con las salidas del decodificador, en el módulo de aprendizaje de prompts para proporcionar información adicional para la tarea de IAD. Finalmente, el modelo alimenta las incrustaciones y la información de imagen original al LLM.

El módulo de aprendizaje de prompts consiste en incrustaciones de prompts base aprendibles y una red neuronal convolucional. La red convierte el resultado de localización en incrustaciones de prompts y forma un conjunto de incrustaciones de prompts que se combinan con las incrustaciones de imagen en el LLM.

Simulación de Anomalías

El modelo AnomalyGPT adopta el método NSA para simular datos anómalos. El método NSA utiliza la técnica de corte y pegado utilizando el método de edición de imágenes de Poisson para aliviar la discontinuidad introducida al pegar segmentos de imágenes. El corte y pegado es una técnica comúnmente utilizada en los marcos de IAD para generar imágenes de anomalías simuladas.

El método de corte y pegado implica recortar una región de bloque de una imagen de manera aleatoria y pegarla en una ubicación aleatoria en otra imagen, creando así una porción de anomalía simulada. Estas muestras de anomalías simuladas pueden mejorar el rendimiento de los modelos de IAD, pero hay una desventaja, ya que a menudo pueden producir discontinuidades notables. El método de edición de Poisson tiene como objetivo clonar de manera fluida un objeto de una imagen a otra resolviendo las ecuaciones diferenciales parciales de Poisson.

La imagen anterior ilustra la comparación entre la edición de Poisson y el corte y pegado. Como se puede ver, hay discontinuidades visibles en el método de corte y pegado, mientras que los resultados de la edición de Poisson parecen más naturales.

Contenido de Preguntas y Respuestas

Para realizar un ajuste de prompts en el Gran Modelo de Lenguaje de Visión, el modelo AnomalyGPT genera una consulta textual correspondiente en función de la imagen de anomalía. Cada consulta consiste en dos componentes principales. La primera parte de la consulta consiste en una descripción de la imagen de entrada que proporciona información sobre los objetos presentes en la imagen, junto con sus atributos esperados. La segunda parte de la consulta es para detectar la presencia de anomalías dentro del objeto o para verificar si hay una anomalía en la imagen.

El LLM responde primero a la consulta de si hay una anomalía en la imagen. Si el modelo detecta anomalías, continúa especificando la ubicación y el número de áreas anómalas. El modelo divide la imagen en una cuadrícula de 3×3 de regiones distintas para permitir que el LLM indique verbalmente la posición de las anomalías, como se muestra en la figura a continuación.

El modelo LLM se alimenta con el conocimiento descriptivo de la entrada con conocimiento fundamental de la imagen de entrada que ayuda a que el modelo comprenda mejor los componentes de la imagen.

Conjuntos de Datos y Métricas de Evaluación

El modelo realiza sus experimentos principalmente en los conjuntos de datos VisA y MVTec-AD. El conjunto de datos MVTec-AD consiste en 3629 imágenes para fines de entrenamiento y 1725 imágenes para pruebas que se dividen en 15 categorías diferentes, lo que lo convierte en uno de los conjuntos de datos más populares para los marcos de IAD. Las imágenes de entrenamiento presentan solo imágenes normales, mientras que las imágenes de prueba presentan tanto imágenes normales como anómalas. Por otro lado, el conjunto de datos VisA consiste en 9621 imágenes normales y casi 1200 imágenes anómalas que se dividen en 12 categorías diferentes.

Avanzando, al igual que los marcos de IAD existentes, el modelo AnomalyGPT emplea el Área Bajo la Curva de las Características del Receptor (AUC) como su métrica de evaluación, utilizando AUC a nivel de píxel y AUC a nivel de imagen para evaluar el rendimiento de localización de anomalías y detección de anomalías, respectivamente. Sin embargo, el modelo también utiliza la precisión a nivel de imagen para evaluar el rendimiento de su enfoque propuesto porque permite determinar la presencia de anomalías sin la necesidad de configurar umbrales manualmente.

Resultados

Resultados Cuantitativos

Detección de Anomalías Industriales de Pocos Disparos

El modelo AnomalyGPT compara sus resultados con los marcos de IAD de pocos disparos anteriores, incluidos PaDiM, SPADE, WinCLIP y PatchCore como líneas base.

La figura anterior compara los resultados del modelo AnomalyGPT con los marcos de IAD de pocos disparos. En ambos conjuntos de datos, el método seguido por AnomalyGPT supera los enfoques adoptados por los modelos anteriores en términos de AUC a nivel de imagen y también devuelve una buena precisión.

Detección de Anomalías Industriales No Supervisada

En un entorno de entrenamiento no supervisado con un gran número de muestras normales, AnomalyGPT entrena un solo modelo en muestras obtenidas de todas las clases dentro de un conjunto de datos. Los desarrolladores de AnomalyGPT han optado por el marco UniAD porque se entrena bajo la misma configuración y actuará como una línea base para la comparación. Además, el modelo también se compara con los marcos JNLD y PaDim utilizando la misma configuración unificada.

La figura anterior compara el rendimiento de AnomalyGPT en comparación con otros marcos.

Resultados Cualitativos

La imagen anterior ilustra el rendimiento del modelo AnomalyGPT en la detección de anomalías no supervisada, mientras que la figura a continuación demuestra el rendimiento del modelo en el aprendizaje en contexto de un disparo.

El modelo AnomalyGPT es capaz de indicar la presencia de anomalías, marcar su ubicación y proporcionar resultados de localización a nivel de píxel. Cuando el modelo se encuentra en el método de aprendizaje en contexto de un disparo, el rendimiento de localización del modelo es ligeramente inferior en comparación con el método de aprendizaje no supervisado debido a la falta de entrenamiento.

Conclusión

AnomalyGPT es un modelo de lenguaje de visión conversacional de IAD novedoso diseñado para aprovechar las poderosas capacidades de los grandes modelos de lenguaje de visión. Puede no solo identificar anomalías en una imagen sino también determinar sus ubicaciones exactas. Además, AnomalyGPT facilita diálogos de varios giros centrados en la detección de anomalías y muestra un rendimiento destacado en el aprendizaje en contexto de pocos disparos. AnomalyGPT explora las posibles aplicaciones de los LVLM en la detección de anomalías, introduciendo nuevas ideas y posibilidades para la industria de IAD.