Τεχνητή νοημοσύνη

AnomalyGPT: Αναίρεση Βιομηχανικών Αναomalιών με LVLMs

Published September 13, 2023

Updated April 4, 2026

Kunal Kejriwal

Πρόσφατα, τα Μεγάλα Μοντέλα Όρασης Γλώσσας (LVLMs) όπως το LLava και το MiniGPT-4 έχουν αποδείξει την ικανότητα να κατανοούν εικόνες και να επιτύχουν υψηλή ακρίβεια και αποδοτικότητα σε διάφορες οπτικές εργασίες. Ενώ τα LVLMs διακρίνονται στην αναγνώριση κοινών αντικειμένων λόγω των εκτενών συνόλων δεδομένων εκπαίδευσής τους, ihnen λείπει η ειδική γνώση τομέα και έχουν μια περιορισμένη κατανόηση των τοπικών λεπτομερειών μέσα στις εικόνες. Αυτό περιορίζει την αποτελεσματικότητά τους στις εργασίες Ανίχνευσης Βιομηχανικών Αναomalιών (IAD). Από την άλλη πλευρά, τα υπάρχοντα πλαίσια IAD μπορούν μόνο να αναγνωρίσουν τις πηγές των αναomalιών και απαιτούν χειροκίνητες ρυθμίσεις κατωφλίου για να διακρίνουν μεταξύ φυσιολογικών και αναμαλών δειγμάτων, περιορίζοντας έτσι την πρακτική εφαρμογή τους.

Η πρωταρχική σκοπός ενός πλαισίου IAD είναι να ανιχνεύσει και να τοποθετήσει αναomalίες σε βιομηχανικές σκηνές και εικόνες προϊόντων. Ωστόσο, λόγω της απρόβλεπτης και σπανιότητας των πραγματικών δειγμάτων εικόνων, τα μοντέλα εκπαιδεύονται συνήθως μόνο με φυσιολογικά δεδομένα. Διακρίνουν αναμαλών δείγματα από φυσιολογικά με βάση τις αποκλίσεις από τα τυπικά δείγματα. Hiện, τα πλαισιά IAD και τα μοντέλα παρέχουν κυρίως βαθμολογίες αναomalιών για τα δείγματα δοκιμής. Επιπλέον, η διάκριση μεταξύ φυσιολογικών και αναμαλών περιπτώσεων για κάθε κατηγορία αντικειμένων απαιτεί τη χειροκίνητη ορισμό κατωφλιών, καθιστώντας τα ακατάλληλα για πραγματικές εφαρμογές.

Για να εξερευνήσουμε τη χρήση και την εφαρμογή των Μεγάλων Μοντέλων Όρασης Γλώσσας στην αντιμετώπιση των προκλήσεων που θέτουν τα πλαισιά IAD, το AnomalyGPT, μια νέα προσέγγιση IAD βασισμένη στο LVLM, εισήχθη. Το AnomalyGPT μπορεί να ανιχνεύσει και να τοποθετήσει αναomalίες χωρίς την ανάγκη χειροκίνητων ρυθμίσεων κατωφλίου. Επιπλέον, το AnomalyGPT μπορεί επίσης να παρέχει σχετικές πληροφορίες για την εικόνα για να αλληλεπιδράσει διαδραστικά με τους χρήστες, επιτρέποντάς τους να κάνουν ερωτήσεις με βάση την αναمالία ή τις συγκεκριμένες ανάγκες τους.

Βιομηχανική Ανίχνευση Αναomalιών και Μεγάλα Μοντέλα Όρασης Γλώσσας

Τα υπάρχοντα πλαισιά IAD μπορούν να κατηγοριοποιηθούν σε δύο κατηγορίες.

Ανασυγκρότηση-βασισμένη IAD.
Ενσωμάτωση-βασισμένη IAD.

Σε ένα πλαίσιο Ανασυγκρότησης-βασισμένης IAD, ο πρωταρχικός σκοπός είναι να ανασυγκροτήσει δείγματα αναomalιών στα αντίστοιχα φυσιολογικά δείγματα, και να ανιχνεύσει αναomalίες μέσω του υπολογισμού του σφάλματος ανασυγκρότησης. Το SCADN, RIAD, AnoDDPM, και InTra χρησιμοποιούν διαφορετικά πλαισιά ανασυγκρότησης, που κυμαίνονται από Δίκτυα Ανταγωνιστικών Γενετικών Αλγορίθμων (GAN) και αυτο-κωδικοποιητές, σε μοντέλα διάχυσης και μετασχηματιστές.

Από την άλλη πλευρά, σε ένα πλαίσιο Ενσωμάτωσης-βασισμένης IAD, ο πρωταρχικός σκοπός είναι να επικεντρωθεί στην μοντελοποίηση της ενσωμάτωσης των φυσιολογικών δεδομένων. Μέθοδοι όπως το PatchSSVD προσπαθούν να βρουν одну υπερσφαίρα που μπορεί να περικλείσει στενά τα φυσιολογικά δείγματα, ενώ πλαισιά όπως το PyramidFlow και το Cfl προβάλλουν τα φυσιολογικά δείγματα σε μια κανονική κατανομή χρησιμοποιώντας ροές κανονικοποίησης. Τα πλαισιά CFA και PatchCore έχουν καθιερώσει μια τράπεζα μνήμης φυσιολογικών δειγμάτων από ενσωματώσεις patch, και χρησιμοποιούν την απόσταση μεταξύ της ενσωμάτωσης του δείγματος δοκιμής και της φυσιολογικής ενσωμάτωσης για να ανιχνεύσουν αναomalίες.

Και οι δύο μέθοδοι ακολουθούν το «ένα αντικείμενο, ένα μοντέλο», ένα παράδειγμα μάθησης που απαιτεί μεγάλο αριθμό φυσιολογικών δειγμάτων για να μάθει τις κατανομές κάθε κατηγορίας αντικειμένων. Η απαίτηση για μεγάλο αριθμό φυσιολογικών δειγμάτων καθιστά ακατάλληλο για νέες κατηγορίες αντικειμένων, και με περιορισμένες εφαρμογές σε δυναμικά περιβάλλοντα προϊόντων. Από την άλλη πλευρά, το πλαίσιο AnomalyGPT χρησιμοποιεί ένα παράδειγμα μάθησης σε контέκστ για κατηγορίες αντικειμένων, επιτρέποντάς του να ενεργοποιήσει παρέμβαση μόνο με ένα χέρι φυσιολογικών δειγμάτων.

Προχωρώντας, έχουμε τα Μεγάλα Μοντέλα Όρασης Γλώσσας ή LVLMs. LLMs ή Μεγάλα Μοντέλα Γλώσσας έχουν απολαύσει τεράστια επιτυχία στη βιομηχανία NLP, και τώρα εξετάζονται για τις εφαρμογές τους σε οπτικές εργασίες. Το πλαίσιο BLIP-2 χρησιμοποιεί το Q-former για να εισαγάγει οπτικά χαρακτηριστικά από το Vision Transformer στο μοντέλο Flan-T5. Επιπλέον, το πλαίσιο MiniGPT συνδέει το τμήμα εικόνας του πλαισίου BLIP-2 και το μοντέλο Vicuna με ένα γραμμικό επίπεδο, και thựcεί μια διπλή διαδικασία εξειδικεύματος χρησιμοποιώντας δεδομένα εικόνας-κειμένου. Αυτές οι προσεγγίσεις δείχνουν ότι τα πλαισιά LLM μπορεί να έχουν κάποιες εφαρμογές για οπτικές εργασίες. Ωστόσο, αυτά τα μοντέλα έχουν εκπαιδευτεί σε γενικά δεδομένα, και ihnen λείπει η απαραίτητη εξειδίκευση τομέα για ευρεία εφαρμογή.

Πώς Λειτουργεί το AnomalyGPT;

Το AnomalyGPT στην κεντρική του είναι ένα καινούριο διαλογικό μοντέλο IAD-όρασης γλώσσας σχεδιασμένο κυρίως για την ανίχνευση βιομηχανικών αναomalιών και την τοποθέτησή τους χρησιμοποιώντας εικόνες. Το πλαίσιο AnomalyGPT χρησιμοποιεί ένα LLM και ένα προ-εκπαιδευμένο κωδικοποιητή εικόνας για να ευθυγραμμίσει εικόνες με τις αντίστοιχες περιγραφές κειμένου χρησιμοποιώντας δεδομένα αναمالίας. Το μοντέλο εισάγει ένα μοντέλο αποκωδικοποιητή, και ένα μοντέλο μάθησης προτροπής για να βελτιώσει την απόδοση των συστημάτων IAD, και να επιτύχει pixel-επίπεδο τοποθέτηση εξόδου.

Αρχιτεκτονική Μοντέλου

Η παραπάνω εικόνα απεικονίζει την αρχιτεκτονική του AnomalyGPT. Το μοντέλο πρώτα περνά την εικόνα ερώτησης στο παγωμένο κωδικοποιητή εικόνας. Το μοντέλο然后 εξάγει χαρακτηριστικά patch-επιπέδου από τα ενδιάμεσα επίπεδα, και τα τροφοδοτεί σε einen αποκωδικοποιητή εικόνας για να υπολογίσει τη συσχέτιση τους με ανώμαλες και φυσιολογικές περιγραφές κειμένου για να λάβει τα αποτελέσματα για τοποθέτηση. Ο μάθησης προτροπής سپس μετατρέπει αυτά τα αποτελέσματα σε προτροπές που είναι κατάλληλες για χρήση ως εισόδους στο LLM μαζί με τις εισόδους κειμένου του χρήστη. Το LLM μοντέλο entonces χρησιμοποιεί τις προτροπές, τις εισόδους εικόνας, και τις εισόδους κειμένου του χρήστη για να ανιχνεύσει αναomalίες, να τοποθετήσει την τοποθεσία τους, και να δημιουργήσει τελικές απαντήσεις για τον χρήστη.

Αποκωδικοποιητής

Για να επιτύχει pixel-επίπεδο τοποθέτηση αναomalιών, το μοντέλο AnomalyGPT αναπτύσσει einen ελαφρύ αποκωδικοποιητή εικόνας που βασίζεται στη συσχέτιση χαρακτηριστικών και υποστηρίζει τόσο τα πλαισιά IAD με λίγα δείγματα όσο και τα ατελείωτα πλαισιά IAD. Η σχεδίαση του αποκωδικοποιητή που χρησιμοποιείται στο AnomalyGPT είναι εμπνευσμένη από τα πλαισιά WinCLIP, PatchCore, και APRIL-GAN. Το μοντέλο διαιρεί τον κωδικοποιητή εικόνας σε 4 στάδια, και εξάγει τα ενδιάμεσα χαρακτηριστικά patch-επιπέδου από κάθε στάδιο.

Ωστόσο, αυτά τα ενδιάμεσα χαρακτηριστικά δεν έχουν περάσει από την τελική ευθυγράμμιση εικόνας-κειμένου, γι’ αυτό δεν possono συγκριθεί trực tiếp με χαρακτηριστικά. Για να αντιμετωπίσουμε αυτό το ζήτημα, το μοντέλο AnomalyGPT εισάγει επιπλέον επίπεδα για να προβάλει τα ενδιάμεσα χαρακτηριστικά, και να τα ευθυγραμμίσει με χαρακτηριστικά κειμένου που αντιπροσωπεύουν φυσιολογικές και αναμαλές σημασίες.

Μάθησης Προτροπής

Το πλαίσιο AnomalyGPT εισάγει einen μάθησης προτροπής που προσπαθεί να μετατρέψει το αποτέλεσμα τοποθέτησης σε προτροπές για να εκμεταλλευτεί τις λεπτομερούς σημασίες από εικόνες, και επίσης να διατηρήσει τη σημασιολογική συνάφεια μεταξύ του αποκωδικοποιητή και του LLM. Επιπλέον, το μοντέλο ενσωματώνει προτροπές μάθησης, μη σχετικές με τα αποτελέσματα του αποκωδικοποιητή, στο μάθησης προτροπής για να παρέχει πρόσθετες πληροφορίες για την εργασία IAD. Τέλος, το μοντέλο τροφοδοτεί τις προτροπές και τις αρχικές πληροφορίες εικόνας στο LLM.

Το μάθησης προτροπής αποτελείται από προτροπές μάθησης, και ένα συνελικτικό νευρωνικό δίκτυο. Το δίκτυο μετατρέπει το αποτέλεσμα τοποθέτησης σε προτροπές, και σχηματίζει ένα σύνολο προτροπών που συνδυάζονται με τις προτροπές εικόνας στο LLM.

Σίμωση Αναomalίας

Το μοντέλο AnomalyGPT υιοθετεί τη μέθοδο NSA για να σιμώσει αναμαλές δεδομένα. Η μέθοδος NSA χρησιμοποιεί την τεχνική Cut-paste χρησιμοποιώντας τη μέθοδο Poisson για την επεξεργασία εικόνας για να ανακουφίσει την ακοή που εισάγεται από την επικόλληση τμημάτων εικόνας. Η τεχνική Cut-paste είναι μια κοινή τεχνική στα πλαισιά IAD για τη δημιουργία σιμωμένων αναμαλών εικόνων.

Η τεχνική Cut-paste περιλαμβάνει το κούρεμα ενός μπλοκ περιοχής από μια εικόνα τυχαία, και την επικόλληση σε μια τυχαία θέση σε μια άλλη εικόνα, δημιουργώντας έτσι ένα τμήμα σιμωμένης αναomalίας. Αυτά τα σιμωμένα δείγματα αναomalίας μπορούν να βελτιώσουν την απόδοση των μοντέλων IAD, αλλά υπάρχει ένα μειονέκτημα, καθώς μπορούν συχνά να παράγουν εμφανείς ακοές. Η μέθοδος Poisson έχει ως στόχο να κλωνοποιήσει ένα αντικείμενο από μια εικόνα σε μια άλλη, λύνοντας τις μερικές διαφορικές εξισώσεις Poisson.

Η παραπάνω εικόνα απεικονίζει τη σύγκριση μεταξύ Poisson και Cut-paste επεξεργασίας εικόνας. Όπως φαίνεται, υπάρχουν ορατές ακοές στη μέθοδο Cut-paste, ενώ τα αποτελέσματα από την επεξεργασία Poisson φαίνονται πιο φυσικά.

Περιεχόμενο Ερωτήσεων και Απαντήσεων

Για να διεξαγάγει την εκπαίδευση προτροπής στο Μεγάλο Μοντέλο Όρασης Γλώσσας, το μοντέλο AnomalyGPT γεννάει μια αντίστοιχη ερώτηση κειμένου με βάση την εικόνα αναomalίας. Κάθε ερώτηση αποτελείται από δύο κύρια μέρη. Το πρώτο μέρος της ερώτησης αποτελείται από μια περιγραφή της εικόνας εισόδου που παρέχει πληροφορίες για τα αντικείμενα που υπάρχουν στην εικόνα μαζί με τις αναμενόμενες ιδιότητες τους. Το δεύτερο μέρος της ερώτησης είναι να ανιχνεύσει την παρουσία αναomalιών μέσα στο αντικείμενο, ή να ελέγξει αν υπάρχει αναمالία στην εικόνα.

Το LLM απαντά πρώτα στην ερώτηση αν υπάρχει αναمالία στην εικόνα; Αν το μοντέλο ανιχνεύσει αναomalίες, συνεχίζει να ορίζει την τοποθεσία και τον αριθμό των αναμαλών περιοχών. Το μοντέλο διαιρεί την εικόνα σε ένα πλέγμα 3×3 από διαφορετικές περιοχές για να επιτρέψει στο LLM να δείξει τη θέση των αναomalιών με λόγια, όπως φαίνεται στην παρακάτω εικόνα.

Το LLM μοντέλο τροφοδοτείται με γνώσεις περιγραφής της εισόδου με βασικές γνώσεις της εισόδου εικόνας που βοηθούν την κατανόηση των στοιχείων της εικόνας.

Δεδομένα και Μέτρα Αξιολόγησης

Το μοντέλο διεξάγει τις πειραματικές του εργασίες κυρίως στα δεδομένα VisA και MVTec-AD. Το σύνολο δεδομένων MVTech-AD αποτελείται από 3629 εικόνες για εκπαίδευση, και 1725 εικόνες για δοκιμή που διαχωρίζονται σε 15 διαφορετικές κατηγορίες, καθιστώντας το ένα από τα πιο δημοφιλή σύνολα δεδομένων για πλαισιά IAD. Οι εικόνες εκπαίδευσης περιέχουν μόνο φυσιολογικές εικόνες, ενώ οι εικόνες δοκιμής περιέχουν και φυσιολογικές και αναμαλές εικόνες. Από την άλλη πλευρά, το σύνολο δεδομένων VisA αποτελείται από 9621 φυσιολογικές εικόνες, και लगभग 1200 αναμαλές εικόνες που διαχωρίζονται σε 12 διαφορετικές κατηγορίες.

Συνεχίζοντας, όπως και τα υπάρχοντα πλαισιά IAD, το μοντέλο AnomalyGPT χρησιμοποιεί την AUC ή την Περιοχή Κάτω από την Καμπύλη Λήψης-Εκτελέσεως ως μέτρο αξιολόγησης, με pixel-επίπεδο και εικόνα-επίπεδο AUC για να αξιολογήσει την απόδοση τοποθέτησης αναomalίας, και ανίχνευσης αναomalίας αντίστοιχα. Ωστόσο, το μοντέλο επίσης χρησιμοποιεί την ακρίβεια εικόνας-επιπέδου για να αξιολογήσει την απόδοση της προτεινόμενης προσέγγισης, επειδή αυτό επιτρέπει να καθορίσει την παρουσία αναomalιών χωρίς την ανάγκη ρύθμισης κατωφλιών χειροκίνητα.

Αποτελέσματα

Ποσοτικά Αποτελέσματα

Λίγα-Δείγματα Βιομηχανική Ανίχνευση Αναomalιών

Το μοντέλο AnomalyGPT συγκρίνει τα αποτελέσματά του με προηγούμενα πλαισιά λίγα-δείγματα IAD, συμπεριλαμβανομένων των PaDiM, SPADE, WinCLIP, και PatchCore ως βάσεις.

Η παραπάνω εικόνα συγκρίνει τα αποτελέσματα του μοντέλου AnomalyGPT σε σύγκριση με πλαισιά λίγα-δείγματα IAD. Σε cả τα δύο σύνολα δεδομένων, η μέθοδος που ακολουθεί το AnomalyGPT υπερέχει τις προσεγγίσεις που υιοθετούν τα προηγούμενα μοντέλα όσον αφορά την AUC εικόνας-επιπέδου, και επίσης επιστρέφει καλή ακρίβεια.

Ανεξάρτητη Βιομηχανική Ανίχνευση Αναomalιών

Σε μια ανεξάρτητη ρύθμιση εκπαίδευσης με μεγάλο αριθμό φυσιολογικών δειγμάτων, το AnomalyGPT εκπαιδεύει ένα μοντέλο σε δείγματα που λαμβάνονται από όλες τις κατηγορίες μέσα σε ένα σύνολο δεδομένων. Οι développers του AnomalyGPT έχουν επιλέξει το πλαίσιο UniAD επειδή εκπαιδεύεται με την ίδια ρύθμιση, και θα ενεργεί ως βάση σύγκρισης. Επιπλέον, το μοντέλο επίσης συγκρίνει με τα πλαισιά JNLD και PaDim χρησιμοποιώντας την ίδια ενιαία ρύθμιση.

Η παραπάνω εικόνα συγκρίνει την απόδοση του AnomalyGPT σε σύγκριση με άλλα πλαισιά.

Ποιοτικά Αποτελέσματα

Η παραπάνω εικόνα απεικονίζει την απόδοση του μοντέλου AnomalyGPT στην ανεξάρτητη ανίχνευση αναomalίας, ενώ η εικόνα παρακάτω δείχνει την απόδοση του μοντέλου στην 1-δείγμα μάθηση σε контέκστ.

Το μοντέλο AnomalyGPT είναι ικανό να δείξει την παρουσία αναomalιών, να σημειώσει την τοποθεσία τους, και να παρέχει pixel-επίπεδο τοποθέτηση αποτελεσμάτων. Όταν το μοντέλο είναι σε 1-δείγμα μάθηση σε контέκστ, η τοποθέτηση της απόδοσης του μοντέλου είναι ελαφρώς χαμηλότερη σε σύγκριση με την ανεξάρτητη μάθηση λόγω της απουσίας εκπαίδευσης.

Συμπέρασμα

Το AnomalyGPT είναι ένα καινούριο διαλογικό μοντέλο IAD-όρασης γλώσσας σχεδιασμένο για να εκμεταλλευτεί τις δυνατότητες των μεγάλων μοντέλων όρασης γλώσσας. Μπορεί όχι μόνο να ανιχνεύσει αναomalίες σε μια εικόνα, αλλά και να τις τοποθετήσει. Επιπλέον, το AnomalyGPT διευκολύνει τις πολυ-στροφικές διαλόγους που επικεντρώνονται στην ανίχνευση αναomalίας και παρουσιάζει εξαιρετική απόδοση στη μάθηση με λίγα δείγματα σε контέκστ. Το AnomalyGPT διεισδύει στις δυνατότητες εφαρμογής των LVLMs στην ανίχνευση αναomalίας, εισάγοντας νέες ιδέες και δυνατότητες για τη βιομηχανία IAD.

Unite.AI