Искусственный интеллект

AnomalyGPT: Обнаружение промышленных аномалий с помощью моделей LVLM

Published September 13, 2023

Updated April 4, 2026

Kunal Kejriwal

Недавно крупные модели зрения и языка (LVLM) такие как LLava и MiniGPT-4 продемонстрировали способность понимать изображения и достигать высокой точности и эффективности в нескольких визуальных задачах. Хотя LVLM хорошо справляются с распознаванием обычных объектов благодаря их обширным наборам данных для обучения, они缺уют конкретных знаний в области и имеют ограниченное понимание локализованных деталей внутри изображений. Это ограничивает их эффективность в задачах обнаружения промышленных аномалий (IAD). С другой стороны, существующие框架 IAD могут только выявлять источники аномалий и требуют ручной настройки порогов для различия между нормальными и аномальными образцами, что ограничивает их практическую реализацию.

Основная цель框架 IAD – обнаружить и локализовать аномалии в промышленных сценариях и изображениях продукции. Однако из-за непредсказуемости и редкости реальных образцов изображений модели обычно обучаются только на нормальных данных. Они различают аномальные образцы от нормальных на основе отклонений от типичных образцов. В настоящее время框架 и модели IAD в основном предоставляют оценки аномалий для тестовых образцов. Кроме того, различие между нормальными и аномальными экземплярами для каждого класса предметов требует ручного указания порогов, что делает их непригодными для реальных приложений.

Для изучения использования и реализации крупных моделей зрения и языка в решении задач, поставленных框amework IAD, был введен AnomalyGPT, новый подход IAD на основе LVLM. AnomalyGPT может обнаруживать и локализовать аномалии без необходимости ручной настройки порогов. Кроме того, AnomalyGPT может предоставлять соответствующую информацию об изображении для взаимодействия с пользователями, позволяя им задавать дополнительные вопросы на основе аномалии или их конкретных потребностей.

Обнаружение промышленных аномалий и крупные модели зрения и языка

Существующие框架 IAD можно классифицировать на две категории.

Reconstruction-based IAD.
Feature Embedding-based IAD.

В框amework Reconstruction-based IAD основная цель – реконструировать аномальные образцы до их соответствующих нормальных образцов, и обнаруживать аномалии путем расчета ошибки реконструкции. SCADN, RIAD, AnoDDPM и InTra используют различные框ramework реконструкции, от генеративных противостоящих сетей (GAN) и автоэнкодеров до диффузионных моделей и трансформеров.

С другой стороны, в框amework Feature Embedding-based IAD основная цель – сосредоточиться на моделировании вложения функций нормальных данных. Методы, такие как PatchSSVD, пытаются найти гиперсферу, которая может плотно охватить нормальные образцы, тогда как框ramework, такие как PyramidFlow и Cfl, проецируют нормальные образцы на гауссовское распределение с помощью нормализующих потоков. CFA и PatchCore框ramework установили память нормальных образцов из вложений патчей и используют расстояние между тестовым образцом и нормальным вложением для обнаружения аномалий.

Оба этих метода следуют парадигме “один класс – одна модель”, которая требует большого количества нормальных образцов для обучения распределениям каждого класса объектов. Требование большого количества нормальных образцов делает его непригодным для новых категорий объектов и имеет ограниченное применение в динамичных производственных средах. С другой стороны,框ramework AnomalyGPT использует парадигму контекстного обучения для категорий объектов, что позволяет ему включать интерференцию только с небольшим количеством нормальных образцов.

Двигаясь вперед, у нас есть крупные модели зрения и языка или LVLM. Модели крупного языка (LLM) добились огромного успеха в отрасли NLP, и теперь они исследуются для своих применений в визуальных задачах. Фреймворк BLIP-2 использует Q-former для ввода визуальных функций из Vision Transformer в модель Flan-T5. Кроме того, фреймворк MiniGPT соединяет изображение сегмента фреймворка BLIP-2 и модель Vicuna с линейным слоем и выполняет двухэтапный процесс тонкой настройки с помощью изображений и текста. Эти подходы указывают на то, что фреймворки LLM могут иметь некоторые применения для визуальных задач. Однако эти модели были обучены на общих данных и им не хватает необходимой экспертизы в конкретной области для широкого применения.

Как работает AnomalyGPT?

AnomalyGPT в своей основе является новой беседочной моделью IAD на основе LVLM, предназначенной в основном для обнаружения промышленных аномалий и указания их точного местоположения с помощью изображений. Фреймворк AnomalyGPT использует LLM и предварительно обученный изображение-кодировщик для выравнивания изображений с их соответствующими текстовыми описаниями с помощью стимулированных аномальных данных. Модель вводит модуль декодера и модуль обучения подсказок для улучшения производительности систем IAD и достижения пиксельного уровня локализации вывода.

Архитектура модели

Вышеизображение изображает архитектуру AnomalyGPT. Модель сначала передает запросное изображение в замороженный изображение-кодировщик. Модель затем извлекает функции уровня патчей из промежуточных слоев и подает эти функции в изображение-декодер для расчета их сходства с аномальными и нормальными текстами для получения результатов локализации. Модуль обучения подсказок затем преобразует их в вложения подсказок, которые подходят для использования в качестве входных данных в LLM вместе с текстовыми входными данными пользователя. Модель LLM затем использует вложения подсказок, входные данные изображения и текстовые входные данные пользователя для обнаружения аномалий, указания их местоположения и создания окончательных ответов для пользователя.

Декодер

Для достижения пиксельного уровня локализации аномалий модель AnomalyGPT развертывает легкий функциональный декодер изображения на основе совпадения, который поддерживает как несколько выстрелов IAD-фреймворка, так и бесконтрольные IAD-фреймворка. Дизайн декодера, используемого в AnomalyGPT, вдохновлен фреймворками WinCLIP, PatchCore и APRIL-GAN. Модель делит изображение-кодировщик на 4 этапа и извлекает промежуточные функции уровня патчей на каждом этапе.

Однако эти промежуточные функции не прошли окончательное выравнивание изображения и текста, поэтому они не могут быть напрямую сравнены с функциями. Для решения этой проблемы модель AnomalyGPT вводит дополнительные слои для проектирования промежуточных функций и их выравнивания с текстовыми функциями, представляющими нормальные и аномальные семантики.

Модуль обучения подсказок

Фреймворк AnomalyGPT вводит модуль обучения подсказок, который пытается преобразовать результат локализации в вложения подсказок для использования тонкой семантики из изображений и поддержания семантической последовательности между выводами декодера и LLM. Кроме того, модель включает в себя обучаемые вложения подсказок, не связанные с выводами декодера, в модуль обучения подсказок для предоставления дополнительной информации для задачи IAD. Наконец, модель подает вложения и исходную информацию об изображении в LLM.

Модуль обучения подсказок состоит из обучаемых базовых вложений подсказок и сверточной нейронной сети. Сеть преобразует результат локализации в вложения подсказок и образует набор вложений подсказок, которые затем объединяются с вложениями изображения в LLM.

Симуляция аномалий

Модель AnomalyGPT принимает метод NSA для симуляции аномальных данных. Метод NSA использует технику Cut-paste с помощью метода редактирования изображения Пуассона для смягчения разрыва, введенного путем вставки сегментов изображения. Cut-paste – это распространенная техника, используемая в фреймворках IAD для генерации симулированных аномальных изображений.

Техника Cut-paste включает в себя обрезку блочного региона из изображения случайным образом и вставку его в случайное местоположение в другом изображении, создавая таким образом часть симулированной аномалии. Эти симулированные аномальные образцы могут улучшить производительность моделей IAD, но есть недостаток, поскольку они часто производят заметные разрывы. Метод редактирования Пуассона направлен на бесшовное клонирование объекта из одного изображения в другое путем решения уравнений Пуассона.

Вышеизображение иллюстрирует сравнение между методами Пуассона и Cut-paste. Как можно видеть, есть заметные разрывы в методе Cut-paste, тогда как результаты метода Пуассона кажутся более естественными.

Вопрос и ответ

Для проведения настройки подсказок на крупной модели зрения и языка модель AnomalyGPT генерирует соответствующий текстовый запрос на основе аномального изображения. Каждый запрос состоит из двух основных компонентов. Первая часть запроса состоит из описания входного изображения, которое предоставляет информацию об объектах, присутствующих в изображении, вместе с их ожидаемыми атрибутами. Вторая часть запроса направлена на обнаружение присутствия аномалий внутри объекта или проверку наличия аномалии в изображении.

Модель LLM сначала реагирует на запрос о наличии аномалии в изображении. Если модель обнаруживает аномалии, она продолжает указывать местоположение и количество аномальных областей. Модель делит изображение на 3×3 сетку из отдельных регионов, чтобы позволить модели LLM указать положение аномалий вербально, как показано на рисунке ниже.

Модель LLM подается описательные знания о входных данных с основными знаниями о входном изображении, которые помогают модели лучше понять компоненты изображения.

Данные и метрики оценки

Модель проводит свои эксперименты в основном на наборах данных VisA и MVTec-AD. Набор данных MVTec-AD состоит из 3629 изображений для обучения и 1725 изображений для тестирования, разделенных на 15 разных категорий, что делает его одним из наиболее популярных наборов данных для фреймворков IAD. Обучение изображений содержит только нормальные изображения, тогда как тестовые изображения содержат как нормальные, так и аномальные изображения. С другой стороны, набор данных VisA состоит из 9621 нормальных изображений и почти 1200 аномальных изображений, разделенных на 12 разных категорий.

Двигаясь дальше, как и существующие фреймворки IAD, модель AnomalyGPT использует AUC или площадь под кривой оперативной характеристики получателя в качестве метрики оценки, с пиксельным уровнем и изображением уровня AUC для оценки производительности локализации аномалий и обнаружения аномалий соответственно. Однако модель также использует изображение уровня точности для оценки производительности предложенного подхода, поскольку она уникально позволяет определить присутствие аномалий без необходимости ручной настройки порогов.

Результаты

Количественные результаты

Несколько выстрелов промышленного обнаружения аномалий

Модель AnomalyGPT сравнивает свои результаты с предыдущими фреймворками нескольких выстрелов IAD, включая PaDiM, SPADE, WinCLIP и PatchCore в качестве базовых линий.

Вышеизображение сравнивает результаты модели AnomalyGPT с фреймворками нескольких выстрелов IAD. На обоих наборах данных метод, используемый AnomalyGPT, превосходит подходы, принятые предыдущими моделями, в плане изображения уровня AUC, и также возвращает хорошую точность.

Бесконтрольное промышленное обнаружение аномалий

В настройке бесконтрольного обучения с большим количеством нормальных образцов модель AnomalyGPT обучает одну модель на образцах, полученных из всех классов в наборе данных. Разработчики модели AnomalyGPT выбрали фреймворк UniAD, поскольку он обучается в той же настройке и будет служить базовой линией для сравнения. Кроме того, модель также сравнивает себя с фреймворками JNLD и PaDim, используя ту же объединенную настройку.

Вышеизображение сравнивает производительность модели AnomalyGPT с другими фреймворками.

Качественные результаты

Вышеизображение иллюстрирует производительность модели AnomalyGPT в методе бесконтрольного обнаружения аномалий, тогда как рисунок ниже демонстрирует производительность модели в методе 1-выстрела в контексте обучения.

Модель AnomalyGPT способна указывать присутствие аномалий, отмечать их местоположение и предоставлять пиксельный уровень локализации результатов. Когда модель находится в методе 1-выстрела в контексте обучения, производительность локализации модели немного ниже по сравнению с бесконтрольным методом обучения из-за отсутствия обучения.

Заключение

AnomalyGPT – это новая беседочная модель IAD-взгляда и языка, предназначенная для использования мощных возможностей крупных моделей зрения и языка. Она не только может обнаруживать аномалии в изображении, но и указывать их точное местоположение. Кроме того, AnomalyGPT облегчает многоповоротные диалоги, сосредоточенные на обнаружении аномалий, и демонстрирует исключительную производительность в нескольких выстрелах в контексте обучения. AnomalyGPT проникает в потенциальные применения моделей LVLM в обнаружении аномалий, вводя новые идеи и возможности для отрасли IAD.

Unite.AI