בינה מלאכותית
AnomalyGPT: איתור חריגות תעשייתיות באמצעות LVLMs

לאחרונה, מודלים גדולים של חזון ושפה (LVLMs) כגון LLava ו-MiniGPT-4 הוכיחו את יכולתם להבין תמונות ולהשיג דיוק ויעילות גבוהים במגוון משימות חזותיות. בעוד ש-LVLMs מצטיינים בזיהוי אובייקטים רגילים בזכות מאגרי הנתונים הנרחבים שלהם, הם חסרים ידע ספציפי לתחום ויש להם הבנה מוגבלת של פרטים מקומיים בתוך תמונות. זה מגביל את יעילותם במשימות איתור חריגות תעשייתיות (IAD). מצד שני, מסגרות IAD קיימות יכולות רק לזהות מקורות של חריגות ודורשות הגדרות אוטומטיות של סף על מנת להבדיל בין דגימות נורמליות לחריגות, מה שמגביל את יישומם המעשי.

במטרה לחקור את השימוש והיישום של Large Vision Language Models בפתרון אתגרים המוצגים על ידי מסגרות IAD, AnomalyGPT, גישה חדשה ל-IAD המבוססת על LVLM, הוצגה. AnomalyGPT יכול לזהות ולמקם חריגות ללא צורך בהגדרות אוטומטיות של סף. כמו כן, AnomalyGPT יכול גם לספק מידע רלוונטי על התמונה כדי ליצור אינטראקציה אינטראקטיבית עם משתמשים, ולאפשר להם לשאול שאלות נוספות על בסיס החריגות או צרכיהם הספציפיים.
איתור חריגות תעשייתיות ומודלים גדולים של חזון ושפה
מסגרות IAD קיימות יכולות להיקטלג בשתי קטגוריות.
- IAD מבוסס שחזור.
- IAD מבוסס הטמעת תכונות.
במסגרת IAD מבוסס שחזור, המטרה העיקרית היא לשחזר דגימות חריגות לדגימות נורמליות, ולזהות חריגות על ידי חישוב שגיאות שחזור. SCADN, RIAD, AnoDDPM, ו-InTra משתמשים במסגרות שחזור שונות, החל מרשתות יריבות גנרטיביות (GAN) ואוטו-אנקודרים, ועד מודלים דיפוזיוניים וטרנספורמרים.
מצד שני, במסגרת IAD מבוסס הטמעת תכונות, המטרה העיקרית היא להתמקד בדגמים של הטמעת תכונות של נתונים נורמליים. שיטות כגון PatchSSVD מנסות למצוא היפר-כדור שיכול לכסות דגימות נורמליות בצורה חזקה, בעוד שמסגרות כגון PyramidFlow ו-Cfl מפרסמות דגימות נורמליות על פני התפלגות גאוסיאנית באמצעות זרימים מנורמלים. מסגרות CFA ו-PatchCore הקימו בנק זיכרון של דגימות נורמליות מהטמעות פצ’ים, ומשתמשות במרחק בין הדגימה הנבדקת להטמעה הנורמלית כדי לזהות חריגות.
שתי השיטות האלו עוקבות אחר הגישה ” קטגוריה אחת, מודל אחד”, פרדיגמת למידה שדורשת כמות גדולה של דגימות נורמליות כדי ללמוד את ההתפלגויות של כל קטגוריה. הדרישה לכמות גדולה של דגימות נורמליות הופכת אותה לבלתי מעשית עבור קטגוריות אובייקטים חדשות, ועם יישומים מוגבלים בסביבות מוצרים דינאמיות. מצד שני, מסגרת AnomalyGPT משתמשת בפרדיגמת למידה בהקשר עבור קטגוריות אובייקטים, מה שמאפשר לה לאפשר הפרעה רק עם מספר קטן של דגימות נורמליות.
מודלים גדולים של חזון ושפה או LVLMs. LLMs או מודלים גדולים של שפה זכו להצלחה רבה בתעשיית NLP, וכעת הם מחקרים את יישומיהם במשימות חזותיות. המסגרת BLIP-2 מנצלת Q-former כדי להכניס תכונות חזותיות מ-Vision Transformer למודל Flan-T5. כמו כן, מסגרת MiniGPT מחברת את החלק החזותי של BLIP-2 ואת מודל Vicuna עם שכבה ליניארית, ומבצעת תהליך עדינות בשני שלבים באמצעות נתונים חזותיים-טקסטואליים. גישות אלו מראות שמודלים LLM עשויים להיות שימושיים עבור משימות חזותיות. אולם, מודלים אלו אומנו על נתונים כלליים, והם חסרים את הידע הספציפי לתחום הנדרש עבור יישומים נרחבים.
איך AnomalyGPT עובד?
AnomalyGPT בליבתו הוא מודל IAD שיחתי חדש, המיועד בעיקר לזיהוי חריגות תעשייתיות וזיהוי מיקומן המדויק באמצעות תמונות. מסגרת AnomalyGPT משתמשת ב-LLM ובמקודד תמונות מוכשר מראש כדי ליישר תמונות עם תיאורים טקסטואליים מתאימים באמצעות נתונים חריגים מופעלים. המודל מציג מודול מפענח ומודול לומד פרומפטים כדי לשפר את ביצועי מערכות IAD, ולהשיג פלט מיקום ברמת פיקסל.
… (the rest of the translation remains the same, following the exact structure and format as the original text)
