Yapay Zeka
AnomalyGPT: LVLM'leri Kullanarak Endüstriyel Anomalileri Tespit Etme

Son zamanlarda, LLava ve MiniGPT-4 gibi Büyük Görme Dili Modelleri (LVLM'ler), görüntüleri anlama ve çeşitli görsel görevlerde yüksek doğruluk ve verimlilik elde etme yeteneğini göstermiştir. LVLM'ler, kapsamlı eğitim veri kümeleri nedeniyle ortak nesneleri tanıma konusunda başarılı olsalar da, belirli alan bilgisinden yoksundurlar ve görüntülerdeki yerelleştirilmiş ayrıntılar konusunda sınırlı bir anlayışa sahiptirler. Bu, Endüstriyel Anomali Tespiti (IAD) görevlerindeki etkinliğini sınırlar. Öte yandan, mevcut IAD çerçeveleri yalnızca anormallik kaynaklarını tanımlayabilir ve normal ve anormal numuneler arasında ayrım yapmak için manuel eşik ayarları gerektirebilir, dolayısıyla pratik uygulamalarını kısıtlayabilir.
IAD çerçevesinin temel amacı, endüstriyel senaryolardaki ve ürün görsellerindeki anormallikleri tespit etmek ve yerelleştirmektir. Ancak gerçek dünyadaki görüntü örneklerinin öngörülemezliği ve nadirliği nedeniyle modeller genellikle yalnızca normal veriler üzerinde eğitilir. Tipik örneklerden sapmalara dayanarak anormal örnekleri normal olanlardan ayırırlar. Şu anda IAD çerçeveleri ve modelleri öncelikle test örnekleri için anormallik puanları sağlamaktadır. Dahası, her bir öğe sınıfı için normal ve anormal örnekler arasında ayrım yapmak, eşik değerlerinin manuel olarak belirlenmesini gerektirir ve bu da onları gerçek dünya uygulamaları için uygunsuz hale getirir.
IAD çerçevelerinin yarattığı zorlukların çözümünde Büyük Vizyon Dil Modellerinin kullanımını ve uygulanmasını araştırmak için LVLM'ye dayalı yeni bir IAD yaklaşımı olan AnomalyGPT tanıtıldı. AnomalyGPT, manuel eşik ayarlarına gerek kalmadan anormallikleri tespit edebilir ve konumlandırabilir. Ayrıca AnomalyGPT, kullanıcılarla etkileşimli bir şekilde etkileşime geçmek için görüntü hakkında ilgili bilgileri de sunarak, anormalliğe veya özel ihtiyaçlarına göre takip soruları sormalarına olanak tanıyor.
Endüstri Anomalisi Tespiti ve Büyük Vizyon Dil Modelleri
Mevcut IAD çerçeveleri iki kategoriye ayrılabilir.
- Yeniden yapılandırma tabanlı IAD.
- Özellik Gömme tabanlı IAD.
Yeniden Yapılandırma tabanlı IAD çerçevesinde birincil amaç, anormallik örneklerini ilgili normal karşılık örneklerine göre yeniden oluşturmak ve yeniden yapılandırma hatası hesaplamasıyla anormallikleri tespit etmektir. SCADN, RIAD, AnoDDPM ve InTra, Üretken Rekabetçi Ağlar (GAN) ve otomatik kodlayıcılardan difüzyon modeli ve transformatörlere kadar farklı yeniden yapılandırma çerçevelerinden yararlanır.
Öte yandan, Özellik Gömme tabanlı IAD çerçevesinde, temel amaç, normal verilere özellik yerleştirmenin modellenmesine odaklanmaktır. PatchSSVD gibi yöntemler, normal örnekleri sıkı bir şekilde kapsülleyebilen bir hiperküre bulmaya çalışırken PyramidFlow ve Cfl gibi çerçeveler, normalleştirme akışlarını kullanarak normal örnekleri bir Gauss dağılımına yansıtır. CFA ve PatchCore çerçeveleri, yama yerleştirmelerinden normal örneklerden oluşan bir bellek bankası oluşturmuştur ve anormallikleri tespit etmek için normal yerleştirmeyi içeren test örneği arasındaki mesafeyi kullanır.
Bu yöntemlerin her ikisi de “bir sınıf bir model”, her nesne sınıfının dağılımlarını öğrenmek için büyük miktarda normal örnek gerektiren bir öğrenme paradigması. Büyük miktarda normal numuneye duyulan gereksinim, onu yeni nesne kategorileri ve dinamik ürün ortamlarındaki sınırlı uygulamalar için kullanışsız hale getirir. Öte yandan, AnomalyGPT çerçevesi, nesne kategorileri için bağlam içi öğrenme paradigmasını kullanarak yalnızca bir avuç normal örnekle müdahaleye izin verir.
İleride Büyük Görme Dili Modellerimiz veya LVLM'lerimiz var. Yüksek Lisans veya Büyük Dil Modelleri NLP endüstrisinde muazzam bir başarı elde ettiler ve şimdi görsel görevlerdeki uygulamaları için araştırılıyorlar. BLIP-2 çerçevesi, Vision Transformer'dan gelen görsel özellikleri Flan-T5 modeline girmek için Q-former'dan yararlanır. Ayrıca, MiniGPT çerçevesi BLIP-2 çerçevesinin görüntü segmentini ve Vicuna modelini doğrusal bir katmanla birbirine bağlar ve görüntü-metin verilerini kullanarak iki aşamalı bir ince ayar işlemi gerçekleştirir. Bu yaklaşımlar, LLM çerçevelerinin görsel görevlere yönelik bazı uygulamalara sahip olabileceğini göstermektedir. Ancak bu modeller genel veriler üzerine eğitilmiştir ve yaygın uygulamalar için gerekli alana özgü uzmanlığa sahip değildirler.
AnomalyGPT Nasıl Çalışır?
AnomalyGPT özünde, öncelikle endüstriyel anormallikleri tespit etmek ve görüntüleri kullanarak tam konumlarını belirlemek için tasarlanmış yeni bir konuşmalı IAD geniş görüş dili modelidir. AnomalyGPT çerçevesi, uyarılmış anormallik verilerini kullanarak görüntüleri karşılık gelen metin açıklamalarıyla hizalamak için bir LLM ve önceden eğitilmiş bir görüntü kodlayıcı kullanır. Model, IAD sistemlerinin performansını artırmak ve piksel düzeyinde yerelleştirme çıktısı elde etmek için bir kod çözücü modülü ve hızlı öğrenen modülü sunar.
Model Mimarisi
Yukarıdaki görüntü AnomalyGPT'nin mimarisini göstermektedir. Model ilk olarak sorgu görüntüsünü dondurulmuş görüntü kodlayıcıya aktarır. Model daha sonra ara katmanlardan yama düzeyindeki özellikleri çıkarır ve yerelleştirme sonuçlarını elde etmek amacıyla bu özellikleri, anormal ve normal metinlerle benzerliklerini hesaplamak için bir görüntü kod çözücüye besler. Bilgi istemi öğrenicisi daha sonra bunları kullanıcı metin girişlerinin yanında LLM'ye girdi olarak kullanılmaya uygun bilgi istemi yerleştirmelerine dönüştürür. LLM modeli daha sonra anormallikleri tespit etmek, konumlarını belirlemek ve kullanıcı için son yanıtlar oluşturmak için hızlı yerleştirmelerden, görüntü girişlerinden ve kullanıcı tarafından sağlanan metin girişlerinden yararlanır.
şifre çözücü
AnomalyGPT modeli, piksel düzeyinde anormallik yerelleştirmesi elde etmek için hem birkaç çekimli IAD çerçevelerini hem de denetimsiz IAD çerçevelerini destekleyen hafif bir özellik eşleştirme tabanlı görüntü kod çözücüyü dağıtır. AnomalyGPT'de kullanılan kod çözücünün tasarımı WinCLIP, PatchCore ve APRIL-GAN çerçevelerinden ilham almıştır. Model, görüntü kodlayıcıyı 4 aşamaya böler ve her aşamada ara yama düzeyi özelliklerini çıkarır.
Ancak bu ara özellikler son görüntü-metin hizalamasından geçmemiştir, bu nedenle doğrudan özelliklerle karşılaştırılamazlar. Bu sorunun üstesinden gelmek için AnomalyGPT modeli ek katmanlar sunar ara özellikleri yansıtmak ve bunları normal ve anormal anlambilimi temsil eden metin özellikleriyle hizalamak.
Öğrenciyi İsteme
AnomalyGPT çerçevesi, görüntülerden ayrıntılı anlambilimden yararlanmak için yerelleştirme sonucunu hızlı yerleştirmelere dönüştürmeye çalışan ve aynı zamanda kod çözücü ile LLM çıktıları arasındaki anlamsal tutarlılığı koruyan hızlı bir öğrenici sunar. Ayrıca model, kod çözücü çıktılarıyla ilgisi olmayan öğrenilebilir bilgi istemi yerleştirmelerini, IAD görevi için ek bilgi sağlamak amacıyla bilgi istemi öğrenicisine dahil eder. Son olarak model, yerleştirmeleri ve orijinal görüntü bilgilerini LLM'ye iletir.
Anında öğrenen, öğrenilebilir temel bilgi istemi yerleştirmelerinden ve evrişimli bir sinir ağından oluşur. Ağ, yerelleştirme sonucunu bilgi istemi yerleştirmelerine dönüştürür ve daha sonra görüntü yerleştirmeleriyle birleştirilen bir dizi bilgi istemi yerleştirmesi oluşturur. Yüksek Lisans.
Anormallik Simülasyonu
AnomalyGPT modeli, anormal verileri simüle etmek için NSA yöntemini kullanır. NSA yöntemi, görüntü bölümlerinin yapıştırılmasıyla ortaya çıkan süreksizliği hafifletmek için Poisson görüntü düzenleme yöntemini kullanarak Kes-yapıştır tekniğini kullanır. Kes-yapıştır, IAD çerçevelerinde simüle edilmiş anormallik görüntüleri oluşturmak için yaygın olarak kullanılan bir tekniktir.
Kes-yapıştır yöntemi, bir görüntüden bir blok bölgesinin rastgele kırpılmasını ve bunu başka bir görüntüde rastgele bir konuma yapıştırılmasını, böylece simüle edilmiş anomalinin bir kısmının oluşturulmasını içerir. Bu simüle edilmiş anormallik örnekleri, IAD modellerinin performansını artırabilir, ancak çoğu zaman fark edilebilir süreksizlikler üretebildikleri için bir dezavantajı vardır. Poisson düzenleme yöntemi, Poisson kısmi diferansiyel denklemlerini çözerek bir nesneyi bir görüntüden diğerine sorunsuz bir şekilde kopyalamayı amaçlamaktadır.
Yukarıdaki resim Poisson ve Kes-yapıştır resim düzenleme arasındaki karşılaştırmayı göstermektedir. Görüldüğü gibi kes-yapıştır yönteminde gözle görülür süreksizlikler mevcutken Poisson düzenlemeden elde edilen sonuçlar daha doğal görünmektedir.
Soru-Cevap İçeriği
Büyük Görüş Dili Modelinde hızlı ayarlama yapmak için AnomalyGPT modeli, anormallik görüntüsüne dayalı olarak karşılık gelen bir metin sorgusu oluşturur. Her sorgu iki ana bileşenden oluşur. Sorgunun ilk kısmı, görüntüde bulunan nesneler ve bunların beklenen özellikleri hakkında bilgi sağlayan giriş görüntüsünün bir açıklamasından oluşur. Sorgunun ikinci kısmı ise nesne içerisindeki anormalliklerin varlığının tespit edilmesi veya görüntüde bir anormallik olup olmadığının kontrol edilmesidir.
LVLM öncelikle görüntüde bir anormallik var mı sorusuna yanıt verir. Model anormallikler tespit ederse anormal alanların konumunu ve sayısını belirtmeye devam eder. Model, LVLM'nin aşağıdaki şekilde gösterildiği gibi anormalliklerin konumunu sözlü olarak belirtmesine olanak sağlamak için görüntüyü 3x3'lük farklı bölgelerden oluşan bir ızgaraya böler.
LVLM modeli, girdinin tanımlayıcı bilgisiyle, modelin görüntü bileşenlerini daha iyi anlamasına yardımcı olan girdi görüntüsüne ilişkin temel bilgiyle beslenir.
Veri Kümeleri ve Değerlendirme Metrikleri
Model, deneylerini öncelikli olarak VisA ve MVTec-AD veri kümeleri üzerinde gerçekleştirmektedir. MVTech-AD veri seti, 3629 farklı kategoriye bölünmüş eğitim amaçlı 1725 görüntü ve test amaçlı 15 görüntüden oluşur; bu nedenle IAD çerçeveleri için en popüler veri kümelerinden biridir. Eğitim görüntüsünde yalnızca normal görüntüler bulunurken test görüntülerinde hem normal hem de anormal görüntüler bulunur. Öte yandan, VisA veri seti 9621 farklı kategoriye ayrılmış 1200 normal görüntü ve yaklaşık 12 anormal görüntüden oluşuyor.
AnomalyGPT modeli, tıpkı mevcut IAD çerçevesi gibi hareket ederek, değerlendirme ölçüsü olarak AUC'yi veya Alıcı İşletim Karakteristikleri Altındaki Alanı kullanır; piksel düzeyinde ve görüntü düzeyinde AUC, sırasıyla anormallik lokalizasyon performansını ve anormallik tespitini değerlendirmek için kullanılır. Bununla birlikte model, önerilen yaklaşımın performansını değerlendirmek için görüntü düzeyindeki doğruluğu da kullanır çünkü eşiklerin manuel olarak ayarlanmasına gerek kalmadan anormalliklerin varlığının belirlenmesine benzersiz bir şekilde olanak tanır.
ÇIKTILAR
Nicel Sonuçlar
Birkaç Atışta Endüstriyel Anomali Tespiti
AnomalyGPT modeli, sonuçlarını temel olarak PaDiM, SPADE, WinCLIP ve PatchCore dahil olmak üzere önceki birkaç atışlı IAD çerçeveleriyle karşılaştırır.
Yukarıdaki şekil AnomalyGPT modelinin sonuçlarını birkaç çekimli IAD çerçeveleriyle karşılaştırmaktadır. Her iki veri kümesinde de AnomalyGPT'nin izlediği yöntem, görüntü düzeyi AUC açısından önceki modellerin benimsediği yaklaşımlardan daha iyi performans gösteriyor ve aynı zamanda iyi bir doğruluk sağlıyor.
Denetimsiz Endüstriyel Anomali Tespiti
Çok sayıda normal örneğin bulunduğu denetimsiz bir eğitim ortamında AnomalyGPT, bir veri kümesindeki tüm sınıflardan elde edilen örnekler üzerinde tek bir modeli eğitir. AnomalyGPT geliştiricileri, aynı kurulum altında eğitildiğinden ve karşılaştırma için bir temel oluşturacağından UniAD çerçevesini tercih etti. Ayrıca model aynı birleşik ayarı kullanan JNLD ve PaDim çerçeveleriyle de karşılaştırılır.
Yukarıdaki şekil AnomalyGPT'nin performansını diğer çerçevelerle karşılaştırmaktadır.
Niteliksel Sonuçlar
Yukarıdaki görüntü AnomalyGPT modelinin denetimsiz anormallik algılama yöntemindeki performansını gösterirken aşağıdaki şekil, modelin 1 çekimlik bağlam içi öğrenmedeki performansını göstermektedir.
AnomalyGPT modeli anormalliklerin varlığını gösterme, konumlarını işaretleme ve piksel düzeyinde yerelleştirme sonuçları sağlama yeteneğine sahiptir. Model, 1 adımlık bağlam içi öğrenme yönteminde olduğunda, eğitim eksikliği nedeniyle modelin yerelleştirme performansı, denetimsiz öğrenme yöntemiyle karşılaştırıldığında biraz daha düşüktür.
Sonuç
AnomalyGPT, büyük görüş dili modellerinin güçlü özelliklerinden yararlanmak üzere tasarlanmış yeni bir konuşmalı IAD-görüş dili modelidir. Yalnızca görüntüdeki anormallikleri tespit etmekle kalmıyor, aynı zamanda bunların kesin konumlarını da tespit edebiliyor. Ek olarak AnomalyGPT, anormallik tespitine odaklanan çok turlu diyalogları kolaylaştırır ve bağlam içi öğrenmede birkaç çekimde olağanüstü performans sergiler. AnomalyGPT, anormallik tespitinde LVLM'lerin potansiyel uygulamalarını araştırarak IAD endüstrisi için yeni fikirler ve olanaklar sunar.