Artificial Intelligence
AnomalyGPT: Wykrywanie anomalii przemysłowych przy użyciu LVLM

Niedawno modele języka dużego wzroku (LVLM), takie jak LLava i MiniGPT-4, wykazały zdolność rozumienia obrazów oraz osiągania wysokiej dokładności i wydajności w kilku zadaniach wzrokowych. Chociaż LVLM wyróżniają się rozpoznawaniem typowych obiektów dzięki obszernym zbiorom danych szkoleniowych, brakuje im specjalistycznej wiedzy dziedzinowej i mają ograniczone zrozumienie zlokalizowanych szczegółów obrazów. Ogranicza to ich skuteczność w zadaniach wykrywania anomalii przemysłowych (IAD). Z drugiej strony istniejące ramy IAD mogą jedynie identyfikować źródła anomalii i wymagają ręcznego ustawiania progów w celu rozróżnienia próbek normalnych od anomalnych, ograniczając w ten sposób ich praktyczne wdrożenie.
Podstawowym celem struktury IAD jest wykrywanie i lokalizowanie anomalii w scenariuszach przemysłowych i obrazach produktów. Jednak ze względu na nieprzewidywalność i rzadkość próbek obrazów ze świata rzeczywistego, modele są zazwyczaj trenowane tylko na normalnych danych. Odróżniają próbki anomalne od normalnych na podstawie odchyleń od próbek typowych. Obecnie struktury i modele IAD zapewniają przede wszystkim wyniki anomalii dla próbek testowych. Co więcej, rozróżnienie normalnych i anomalnych przypadków dla każdej klasy elementów wymaga ręcznego określenia progów, co czyni je nieprzydatnymi do zastosowań w świecie rzeczywistym.
Aby zbadać zastosowanie i wdrożenie modeli języka wielkowzrokowego w stawianiu czoła wyzwaniom stawianym przez struktury IAD, wprowadzono AnomalyGPT, nowatorskie podejście IAD oparte na LVLM. AnomalyGPT może wykrywać i lokalizować anomalie bez konieczności ręcznego ustawiania progów. Co więcej, AnomalyGPT może również oferować istotne informacje o obrazie, aby umożliwić interaktywną interakcję z użytkownikami, umożliwiając im zadawanie dodatkowych pytań w oparciu o anomalię lub ich specyficzne potrzeby.
Wykrywanie anomalii branżowych i modele języka o dużej wizji
Istniejące ramy IAD można podzielić na dwie kategorie.
- IAD oparty na rekonstrukcji.
- Funkcja IAD oparta na osadzaniu.
W strukturze IAD opartej na rekonstrukcji głównym celem jest rekonstrukcja próbek anomalii do ich odpowiednich normalnych próbek odpowiedników i wykrycie anomalii poprzez obliczenie błędu rekonstrukcji. SCADN, RIAD, AnoDDPM i InTra wykorzystują różne platformy rekonstrukcji, począwszy od generatywnych sieci przeciwstawnych (GAN) i autoenkoderów, po modele dyfuzji i transformatory.
Z drugiej strony, w środowisku IAD opartym na osadzaniu funkcji, głównym motywem jest skupienie się na modelowaniu osadzania funkcji w normalnych danych. Metody takie jak PatchSSVD próbują znaleźć hipersferę, która może ściśle otoczyć normalne próbki, podczas gdy struktury takie jak PyramidFlow i Cfl rzutują normalne próbki na rozkład Gaussa przy użyciu normalizujących przepływów. Frameworki CFA i PatchCore utworzyły bank pamięci normalnych próbek z osadzonych poprawek i wykorzystują odległość pomiędzy próbką testową zawierającą normalne osadzenie w celu wykrycia anomalii.
Obie te metody są zgodne z „jedna klasa, jeden model”, paradygmat uczenia się, który wymaga dużej liczby normalnych próbek, aby poznać rozkłady każdej klasy obiektów. Wymóg dotyczący dużej liczby normalnych próbek sprawia, że jest to niepraktyczne w przypadku nowych kategorii obiektów i przy ograniczonych zastosowaniach w dynamicznych środowiskach produktów. Z drugiej strony platforma AnomalyGPT wykorzystuje paradygmat uczenia się w kontekście dla kategorii obiektów, umożliwiając interakcję jedynie z kilkoma normalnymi próbkami.
Idąc dalej, mamy duże modele języka wizyjnego lub LVLM. LLM lub modele wielkojęzykowe odniosły ogromny sukces w branży NLP i obecnie są badane pod kątem ich zastosowania w zadaniach wizualnych. Struktura BLIP-2 wykorzystuje Q-former do wprowadzania funkcji wizualnych z Vision Transformer do modelu Flan-T5. Ponadto, Struktura MiniGPT łączy segment obrazu frameworku BLIP-2 i modelu Vicuna z warstwą liniową i przeprowadza dwuetapowy proces dostrajania z wykorzystaniem danych obrazowo-tekstowych. Podejścia te wskazują, że struktury LLM mogą mieć pewne zastosowania do zadań wizualnych. Jednakże modele te zostały przeszkolone na ogólnych danych i brakuje im wymaganej specjalistycznej wiedzy specjalistycznej w danej dziedzinie do powszechnych zastosowań.
Jak działa AnomalyGPT?
Podstawą AnomalyGPT jest nowatorski, konwersacyjny model języka IAD o dużej wizji, przeznaczony przede wszystkim do wykrywania anomalii przemysłowych i określania ich dokładnej lokalizacji za pomocą obrazów. Struktura AnomalyGPT wykorzystuje LLM i wstępnie wytrenowany koder obrazu do dopasowywania obrazów do odpowiadających im opisów tekstowych przy użyciu danych o stymulowanych anomaliach. Model wprowadza moduł dekodera i moduł szybkiego uczenia się, aby zwiększyć wydajność systemów IAD i uzyskać wyniki lokalizacji na poziomie pikseli.
Architektura modelu
Powyższy obrazek przedstawia architekturę AnomalyGPT. Model najpierw przekazuje obraz zapytania do kodera zamrożonego obrazu. Następnie model wyodrębnia cechy na poziomie fragmentu z warstw pośrednich i przekazuje te cechy do dekodera obrazu, aby obliczyć ich podobieństwo do tekstów nienormalnych i normalnych, aby uzyskać wyniki lokalizacji. Osoba ucząca się podpowiadająca konwertuje je następnie do osadzania podpowiedzi, które nadają się do wykorzystania jako dane wejściowe w LLM wraz z tekstem wprowadzanym przez użytkownika. Model LLM wykorzystuje następnie szybkie osadzanie, wprowadzane obrazy i wprowadzane przez użytkownika dane tekstowe w celu wykrywania anomalii i określania ich lokalizacji oraz tworzenia reakcji końcowych dla użytkownika.
dekoder
Aby osiągnąć lokalizację anomalii na poziomie pikseli, model AnomalyGPT wdraża lekki dekoder obrazu oparty na dopasowywaniu funkcji, który obsługuje zarówno struktury IAD z kilkoma strzałami, jak i struktury IAD bez nadzoru. Konstrukcja dekodera użytego w AnomalyGPT jest inspirowana frameworkami WinCLIP, PatchCore i APRIL-GAN. Model dzieli koder obrazu na 4 etapy i na każdym etapie wyodrębnia cechy pośredniego poziomu poprawki.
Jednakże te cechy pośrednie nie przeszły ostatecznego wyrównania obrazu i tekstu, dlatego nie można ich bezpośrednio porównać z cechami. Aby rozwiązać ten problem, model AnomalyGPT wprowadza dodatkowe warstwy projektować cechy pośrednie i dopasowywać je do cech tekstowych, które reprezentują normalną i nienormalną semantykę.
Szybki Uczeń
Struktura AnomalyGPT wprowadza moduł szybkiego uczenia się, który próbuje przekształcić wynik lokalizacji w szybkie osadzenie, aby wykorzystać precyzyjną semantykę z obrazów, a także utrzymuje spójność semantyczną między wynikami dekodera i LLM. Co więcej, model zawiera możliwe do nauczenia osadzanie podpowiedzi, niezwiązane z wyjściami dekodera, w uczącym się, aby zapewnić dodatkowe informacje na potrzeby zadania IAD. Na koniec model przekazuje osady i informacje o oryginalnym obrazie do LLM.
Element uczący się składa się z możliwych do nauczenia osadzonych podpowiedzi podstawowych i splotowej sieci neuronowej. Sieć konwertuje wynik lokalizacji na osadzanie natychmiastowe i tworzy zestaw osadzań natychmiastowych, które są następnie łączone z osadzonymi obrazami w LLM.
Symulacja anomalii
Model AnomalyGPT wykorzystuje metodę NSA do symulacji nieprawidłowych danych. Metoda NSA wykorzystuje technikę wycinania i wklejania, wykorzystując metodę edycji obrazu Poissona w celu złagodzenia nieciągłości spowodowanej wklejaniem segmentów obrazu. Wytnij i wklej to powszechnie stosowana technika w frameworkach IAD do generowania symulowanych obrazów anomalii.
Metoda Wytnij-wklej polega na losowym przycięciu obszaru bloku z obrazu i wklejeniu go w losowym miejscu innego obrazu, tworząc w ten sposób część symulowanej anomalii. Te symulowane próbki anomalii mogą poprawić wydajność modeli IAD, ale mają tę wadę, ponieważ często mogą powodować zauważalne nieciągłości. Metoda edycji Poissona ma na celu płynne klonowanie obiektu z jednego obrazu na drugi poprzez rozwiązanie cząstkowych równań różniczkowych Poissona.
Powyższy obraz ilustruje porównanie edycji obrazu metodą Poissona i metodą wycinania i wklejania. Jak widać, w metodzie wycinania i wklejania widoczne są nieciągłości, natomiast wyniki edycji Poissona wydają się bardziej naturalne.
Treść pytań i odpowiedzi
Aby przeprowadzić szybkie dostrajanie modelu języka dużego wzroku, model AnomalyGPT generuje odpowiednie zapytanie tekstowe na podstawie obrazu anomalii. Każde zapytanie składa się z dwóch głównych komponentów. Pierwsza część zapytania składa się z opisu obrazu wejściowego, który dostarcza informacji o obiektach występujących na obrazie wraz z ich oczekiwanymi atrybutami. Druga część zapytania polega na wykryciu obecności anomalii w obiekcie lub sprawdzeniu, czy na obrazie nie występuje anomalia.
LVLM najpierw odpowiada na pytanie, czy na obrazie występuje anomalia? Jeśli model wykryje anomalie, w dalszym ciągu określa lokalizację i liczbę obszarów anomalnych. Model dzieli obraz na siatkę 3 × 3 odrębnych obszarów, aby umożliwić LVLM słowne wskazanie położenia anomalii, jak pokazano na poniższym rysunku.
Model LVLM zasilany jest opisową wiedzą na temat danych wejściowych wraz z podstawową wiedzą na temat obrazu wejściowego, która pomaga modelowi lepiej zrozumieć komponenty obrazu.
Zbiory danych i metryki oceny
Model przeprowadza swoje eksperymenty głównie na zbiorach danych VisA i MVTec-AD. Zbiór danych MVTech-AD składa się z 3629 obrazów do celów szkoleniowych i 1725 obrazów do testów, które są podzielone na 15 różnych kategorii, dlatego jest to jeden z najpopularniejszych zbiorów danych dla frameworków IAD. Obraz szkoleniowy zawiera tylko obrazy normalne, podczas gdy obrazy testowe zawierają zarówno obrazy normalne, jak i anomalne. Z drugiej strony zbiór danych VisA składa się z 9621 normalnych obrazów i prawie 1200 anomalnych obrazów podzielonych na 12 różnych kategorii.
Idąc dalej, podobnie jak istniejąca struktura IAD, model AnomalyGPT wykorzystuje AUC, czyli obszar pod charakterystyką operacyjną odbiornika, jako metrykę oceny, przy czym AUC na poziomie piksela i poziomu obrazu służy odpowiednio do oceny wydajności lokalizacji anomalii i wykrywania anomalii. Jednak model wykorzystuje również dokładność na poziomie obrazu do oceny wydajności proponowanego podejścia, ponieważ w unikalny sposób pozwala określić obecność anomalii bez konieczności ręcznego ustawiania progów.
Efekt
Wyniki ilościowe
Wykrywanie anomalii przemysłowych w trybie kilku strzałów
Model AnomalyGPT porównuje swoje wyniki z wcześniejszymi, kilkuetapowymi frameworkami IAD, w tym PaDiM, SPADE, WinCLIP i PatchCore, jako punktami odniesienia.
Powyższy rysunek porównuje wyniki modelu AnomalyGPT w porównaniu z kilkuetapowymi frameworkami IAD. W obu zbiorach danych metoda zastosowana przez AnomalyGPT przewyższa podejścia przyjęte w poprzednich modelach pod względem AUC na poziomie obrazu, a także zapewnia dobrą dokładność.
Nienadzorowane wykrywanie anomalii przemysłowych
W nienadzorowanym ustawieniu szkoleniowym z dużą liczbą normalnych próbek AnomalyGPT trenuje pojedynczy model na próbkach uzyskanych ze wszystkich klas w zestawie danych. Twórcy AnomalyGPT wybrali framework UniAD, ponieważ jest on szkolony w tej samej konfiguracji i będzie działał jako punkt odniesienia do porównań. Co więcej, model porównuje się również ze frameworkami JNLD i PaDim przy użyciu tych samych ujednoliconych ustawień.
Powyższy rysunek porównuje wydajność AnomalyGPT z innymi frameworkami.
Wyniki jakościowe
Powyższy obraz ilustruje wydajność modelu AnomalyGPT w metodzie wykrywania anomalii bez nadzoru, podczas gdy poniższy rysunek przedstawia wydajność modelu w jednoetapowym uczeniu się w kontekście.
Model AnomalyGPT jest w stanie wskazać obecność anomalii, oznaczyć ich lokalizację i dostarczyć wyniki lokalizacji na poziomie pikseli. Gdy model wykorzystuje jednoetapową metodę uczenia się w kontekście, wydajność lokalizacji modelu jest nieco niższa w porównaniu z metodą uczenia się bez nadzoru z powodu braku szkolenia.
Podsumowanie
AnomalyGPT to nowatorski model konwersacyjnego języka wizyjnego IAD, zaprojektowany w celu wykorzystania potężnych możliwości dużych modeli języka wizyjnego. Potrafi nie tylko zidentyfikować anomalie na obrazie, ale także wskazać ich dokładną lokalizację. Dodatkowo AnomalyGPT ułatwia wieloobrotowe dialogi skupione na wykrywaniu anomalii i prezentuje wyjątkową wydajność w zakresie uczenia się kontekstowego w kilku ujęciach. AnomalyGPT bada potencjalne zastosowania LVLM w wykrywaniu anomalii, wprowadzając nowe pomysły i możliwości dla branży IAD.