Yapay Zekâ

AnomalyGPT: Endüstriyel Anomalileri LVLM’ler Kullanarak Tespit Etme

Published September 13, 2023

Updated April 4, 2026

Kunal Kejriwal

Son zamanlarda, LLava ve MiniGPT-4 gibi Büyük Görüntü Dili Modelleri (LVLM’ler), görüntüleri anlamak ve çeşitli görsel görevlerde yüksek doğruluk ve verimlilik elde etme yeteneğini göstermiştir. LVLM’ler, geniş eğitim veri setleri nedeniyle ortak nesneleri tanımada uzmanlaşmış olsalar da, özel alan bilgisi eksikliği vardır ve görüntüler içindeki yerel ayrıntıları anlamak konusunda sınırlı bir anlayışa sahiptirler. Bu, Endüstriyel Anomaliler Tespit (IAD) görevlerinde их etkinliğini sınırlar. Öte yandan, mevcut IAD çerçeveleri yalnızca anomalilerin kaynaklarını belirleyebilir ve normal ve anormal örnekleri ayırt etmek için elle eşik ayarları gerektirir, bu da pratik uygulamalarını kısıtlar.

Bir IAD çerçevesinin birincil amacı, endüstriyel senaryolarda ve ürün görüntülerinde anomalileri tespit etmek ve yerelleştirmektir. Ancak, gerçek dünya görüntü örneklerinin öngörülemez ve nadir olması nedeniyle, modeller genellikle yalnızca normal verilerle eğitilir. Anormal örnekleri normal örneklerden, tipik örneklerden sapmalara dayanarak ayırt eder. Şu anda, IAD çerçeveleri ve modeller主要 olarak test örnekleri için anomalilik puanları sağlar. Ayrıca, her öğe sınıfı için normal ve anormal örnekleri ayırt etmek için elle eşik ayarları belirlemek gerekir, bu da onları gerçek dünya uygulamaları için uygun hale getirir.

IAD çerçevelerinin sunduğu zorlukları ele almak için Büyük Görüntü Dili Modellerinin kullanımını ve uygulanmasını keşfetmek için, AnomalyGPT, bir LVLM’ye dayalı yeni bir IAD yaklaşımı tanıtıldı. AnomalyGPT, elle eşik ayarlarına gerek kalmadan anomalileri tespit edebilir ve yerelleştirebilir. Ayrıca, AnomalyGPT, görüntüye ilişkin ilgili bilgileri sunabilir ve kullanıcılarla etkileşimli olarak iletişim kurabilir, böylece kullanıcılar anomali veya özel ihtiyaçları temelinde takip soruları sorabilir.

Endüstri Anomalisi Tespiti ve Büyük Görüntü Dili Modelleri

Mevcut IAD çerçeveleri iki kategoriye ayrılabilir.

Yeniden Yapılandırma Tabanlı IAD.
Özellik Gömme Tabanlı IAD.

Yeniden Yapılandırma Tabanlı bir IAD çerçevesinde, birincil amaç, anormal örnekleri karşılık gelen normal karşıtı örneklerine yeniden yapılandırmak ve yeniden yapılandırma hatası hesaplayarak anomalileri tespit etmektir. SCADN, RIAD, AnoDDPM ve InTra, GAN’ler ve oto-encoder’lar, difüzyon modeli ve transformer’lar dahil olmak üzere farklı yeniden yapılandırma çerçevelerini kullanır.

Öte yandan, bir Özellik Gömme Tabanlı IAD çerçevesinde, birincil amaç, normal verilerin özellik gömmesini modellemektir. PatchSSVD gibi yöntemler, normal örnekleri sıkı bir şekilde kapsayan bir hipersfer bulunmaya çalışır, mentre PyramidFlow ve Cfl gibi çerçeveler, normalizing flows kullanarak normal örnekleri bir Gaussian dağılımına projeler. CFA ve PatchCore çerçeveleri, yama gömme örneklerinden bir normal örnek belleği kurar ve anomali tespitinde test örnek gömmesi ile normal gömme arasındaki mesafeyi kullanır.

Her iki yöntem de “bir sınıf bir model” öğrenme paradigmasını takip eder, bu, her nesne sınıfının dağılımını öğrenmek için büyük miktarda normal örnek gerektirir. Normal örneklerin büyük miktarda gereksinimi, yeni nesne kategorileri için pratik olmaktan çıkar ve dinamik ürün ortamlarında sınırlı uygulamalara sahiptir. Öte yandan, AnomalyGPT çerçevesi, nesne kategorileri için bağlam içi öğrenme paradigmasını kullanır, bu da yalnızca birkaç normal örnek ile çıkarımı etkinleştirmesine olanak tanır.

İlerleyerek, Büyük Görüntü Dili Modelleri veya LVLM’ler var. LLM’ler veya Büyük Dil Modelleri, NLP endüstrisinde büyük bir başarı elde etti ve şimdi görsel görevlerdeki uygulamaları için исследiliyor. BLIP-2 çerçevesi, Q-former’ı kullanarak Vision Transformer’dan görsel özelliklerini Flan-T5 modeline girdi olarak kullanır. Ayrıca, MiniGPT çerçevesi, BLIP-2 çerçevesinin görüntü segmentini ve Vicuna modelini bir lineer katmanla bağlar ve görüntü-metin verisi kullanılarak iki aşamalı fine-tuning işlemi gerçekleştirir. Bu yaklaşımlar, LLM çerçevelerinin görsel görevlerde bazı uygulamaları olabileceğini gösterir. Ancak, bu modeller genel veri üzerinde eğitilmiştir ve yaygın uygulamalar için gerekli alan özgü uzmanlığa sahip değildir.

AnomalyGPT Nasıl Çalışır?

AnomalyGPT temelde, endüstriyel anomalileri tespit etmek ve görüntülerdeki kesin konumlarını belirlemek için tasarlanmış bir novel konversasyonel IAD büyük görüntüdili modelidir. AnomalyGPT çerçevesi, bir LLM ve önceden eğitilmiş bir görüntü kodlayıcıyı kullanarak, görüntüleri karşılık gelen metinsel açıklamalarıyla hizalar ve uyandırılmış anormal veri kullanır. Model, bir dekoder modülü ve bir.prompt öğrenme modülü tanıtır, böylece IAD sistemlerinin performansını artırır ve piksel düzeyinde yerelleştirme çıkışı elde edilir.

Model Mimarisi

Yukarıdaki resim, AnomalyGPT’nin mimarisini gösterir. Model, sorgu görüntüsünü dondurulmuş görüntü kodlayıcısına geçirir. Model, ara katmanlardan yama düzeyinde özellikler çıkarır ve bunları anormal ve normal metinlerle benzerlik hesaplamak için görüntü dekoderine besler ve yerelleştirme sonuçlarını elde eder. Prompt öğrenme, bunları LLM’ye girdi olarak kullanılabilen.prompt gömme dönüşümlerine dönüştürür. LLM modeli, prompt gömme, görüntü girişleri ve kullanıcı tarafından sağlanan metinsel girişleri kullanarak anomalileri tespit eder, konumlarını belirler ve kullanıcı için son yanıtlar oluşturur.

Dekoder

Piksel düzeyinde anormali yerelleştirmeyi gerçekleştirmek için, AnomalyGPT modeli, hem birkaç örnek IAD çerçevelerini hem de denetimsiz IAD çerçevelerini destekleyen bir hafif özellik eşleme tabanlı görüntü dekoderi kullanır. AnomalyGPT’de kullanılan dekoder tasarımı, WinCLIP, PatchCore ve APRIL-GAN çerçevelerinden esinlenmiştir. Model, görüntü kodlayıcısını 4 aşamaya böler ve her aşamada ara yama düzeyinde özellikler çıkarır.

Ancak, bu ara özellikler son görüntü-metin hizalamasından geçmediği için doğrudan özelliklerle karşılaştırılamaz. Bu sorunu çözmek için, AnomalyGPT modeli, ara özellikleri projelemek ve normal ve anormal anlamları temsil eden metin özellikleriyle hizalamak için ek katmanlar tanıtır.

Prompt Öğrenme

AnomalyGPT çerçevesi, yerelleştirme sonucunu.prompt gömme dönüşümlerine dönüştürmeye çalışan bir.prompt öğrenme tanıtır, böylece görüntülerden ince düzeyde anlamlar elde edilebilir ve dekoder ile LLM çıkışları arasındaki anlamsal tutarlılık korunur. Ayrıca, model, dekoder çıkışlarıyla ilgili olmayan öğrenilebilir.prompt gömme dönüşümlerini.prompt öğrenme modülüne entegre eder, böylece IAD görevi için ek bilgi sağlar. Son olarak, model, gömme dönüşümleri ve orijinal görüntü bilgilerini LLM’ye besler.

Prompt öğrenme, öğrenilebilir temel.prompt gömme dönüşümlerinden ve bir konvolüsyonel sinir ağından oluşur. Ağ, yerelleştirme sonucunu.prompt gömme dönüşümlerine dönüştürür ve.prompt gömme dönüşümleri kümesini oluşturur, daha sonra bu küme görüntü gömme dönüşümleriyle birlikte LLM’ye beslenir.

Anomalilik Simülasyonu

AnomalyGPT modeli, anormal veri oluşturmak için NSA yöntemini benimser. NSA yöntemi, Poisson görüntü düzenleme yöntemini kullanarak, görüntü segmentlerini yapıştırmayla oluşan kesintileri hafifletmek için Cut-paste tekniğini kullanır. Cut-paste, IAD çerçevelerinde simüle anormal görüntü oluşturmak için yaygın olarak kullanılan bir tekniktir.

Cut-paste yöntemi, bir görüntüden rasgele bir blok bölgesini kırpıp başka bir görüntüye rasgele bir konuma yapıştırmayı içerir, böylece simüle anormal bir bölüm oluşturur. Bu simüle anormal örnekler, IAD modellerinin performansını artırabilir, ancak bir dezavantajı vardır, çünkü genellikle belirgin kesintiler üretebilir. Poisson düzenleme yöntemi, bir nesneyi bir görüntüden diğerine sorunsuz bir şekilde klonlamak amacıyla Poisson kısmi diferansiyel denklemlerini çözmeyi hedefler.

Yukarıdaki resim, Poisson ve Cut-paste görüntü düzenleme arasındaki karşılaştırmayı gösterir. Görüldüğü gibi, Cut-paste yönteminde belirgin kesintiler vardır, mentre Poisson düzenleme sonuçları daha doğal görünmektedir.

Soru ve Cevap İçeriği

Büyük Görüntü Dili Modelinde.prompt ayarını gerçekleştirmek için, AnomalyGPT modeli, anormali görüntüsüne dayalı bir metinsel sorgu oluşturur. Her sorgu, iki ana bileşenden oluşur. Sorgunun ilk kısmı, görüntüde bulunan nesneleri ve beklendiği atributları tanımlayan bir görüntü açıklaması sağlar. Sorgunun ikinci kısmı, nesne içinde anomalilerin varlığını tespit etmek veya görüntüdeki bir anomalinin olup olmadığını kontrol etmektir.

LVLM, görüntüdeki bir anomalinin olup olmadığını sorgusuna yanıt verir. Model anomalileri tespit ederse, anomalinin konumunu ve anomali alanlarının sayısını belirtmeye devam eder. Model, görüntüyü 3×3’lük ayrı bölgelerin bir ızgarasına böler, böylece LVLM, anomalilerin konumunu sözlü olarak gösterebilir, aşağıdaki resimde gösterildiği gibi.

LVLM modeli, girdi görüntüsünün tanımlayıcı bilgilerini alır, bu da modelin görüntü bileşenlerini daha iyi anlamasını sağlar.

Veri Setleri ve Değerlendirme Ölçütleri

Model, deneylerini主要 olarak VisA ve MVTec-AD veri setleri üzerinde gerçekleştirir. MVTec-AD veri seti, 15 farklı kategoriye bölünmüş 3629 eğitim görüntüsünden ve 1725 test görüntüsünden oluşur, bu da onu IAD çerçeveleri için en popüler veri setlerinden biri haline getirir. Eğitim görüntüleri yalnızca normal görüntüleri içerir, mentre test görüntüleri hem normal hem de anormal görüntüleri içerir. Öte yandan, VisA veri seti, 12 farklı kategoriye bölünmüş 9621 normal görüntü ve yaklaşık 1200 anormal görüntüden oluşur.

Devam ederek, mevcut IAD çerçevelerinin çoğunda olduğu gibi, AnomalyGPT modeli, Alıcı İşletme Karakteristiği (AUC) veya Alıcı İşletme Eğrisi Altında Alan olarak bilinen AUC’yi, piksel düzeyinde ve görüntü düzeyinde AUC’yi anomali yerelleştirme performansını değerlendirmek ve anomali tespitini değerlendirmek için kullanılan değerlendirme ölçütü olarak kullanır. Ancak, model ayrıca, önerilen yaklaşımın performansını değerlendirmek için görüntü düzeyinde doğruluğu kullanır, çünkü bu, eşik ayarlarını elle ayarlamaya gerek kalmadan anomalilerin varlığını belirlemeyi sağlar.

Sonuçlar

Nicel Sonuçlar

Az Örnekli Endüstriyel Anomalilik Tespiti

AnomalyGPT modeli, önceki birkaç örnekli IAD çerçeveleri ile sonuçlarını karşılaştırır, bunlar arasında PaDiM, SPADE, WinCLIP ve PatchCore bulunur.

Yukarıdaki resim, AnomalyGPT modelinin birkaç örnekli IAD çerçeveleri ile karşılaştırıldığında sonuçlarını gösterir. Her iki veri setinde, AnomalyGPT’nin izlediği yöntem, önceki modellerin approach’larına göre görüntü düzeyinde AUC ve doğruluk açısından daha iyi performans gösterir.

Denetimsiz Endüstriyel Anomalilik Tespiti

Denetimsiz eğitim ayarında, büyük miktarda normal örneklerle, AnomalyGPT, bir veri setindeki tüm sınıflardan alınan örneklerle tek bir modeli eğitir. AnomalyGPT’nin geliştiricileri, aynı ayar altında eğitilen UniAD çerçevesini karşılaştırma için temel olarak seçmiştir. Ayrıca, model JNLD ve PaDim çerçeveleri ile aynı birleşik ayar altında karşılaştırma yapar.

Yukarıdaki resim, AnomalyGPT’nin diğer çerçevelerle karşılaştırıldığında performansını gösterir.

Nitel Sonuçlar

Yukarıdaki resim, AnomalyGPT modelinin denetimsiz anomali tespitindeki performansını gösterir, aşağıdaki resim ise modelin 1-örnekli bağlam içi öğrenme performansını gösterir.

AnomalyGPT modeli, anomalilerin varlığını gösterebilir, konumlarını belirleyebilir ve piksel düzeyinde yerelleştirme sonuçları sağlayabilir. Model 1-örnekli bağlam içi öğrenme yöntemindeyken, yerelleştirme performansı, eğitim olmaması nedeniyle denetimsiz öğrenme yöntemine göre slightly daha düşüktür.

Sonuç

AnomalyGPT, büyük görüntüdili modellerinin güçlü yeteneklerini kullanarak tasarlanmış yeni bir konversasyonel IAD-vizyon dili modelidir. AnomalyGPT sadece görüntülerdeki anomalileri tespit edebilir, aynı zamanda kesin konumlarını belirleyebilir. Ayrıca, AnomalyGPT, çoklu dönüşlü diyalogları anomali tespitine odaklar ve birkaç örnekli bağlam içi öğrenmede mükemmel performans gösterir. AnomalyGPT, IAD endüstrisi için yeni fikirler ve olanaklar sunar.

Unite.AI