Kecerdasan Buatan
AnomalyGPT: Mendeteksi Anomali Industri menggunakan LVLM

Baru-baru ini, Model Bahasa Visi Besar (LVLM) seperti LLava dan MiniGPT-4 telah menunjukkan kemampuan untuk memahami gambar dan mencapai akurasi dan efisiensi tinggi dalam beberapa tugas visual. Meskipun LVLM unggul dalam mengenali objek umum karena kumpulan data pelatihannya yang ekstensif, LVLM kurang memiliki pengetahuan domain spesifik dan memiliki pemahaman terbatas tentang detail lokal dalam gambar. Hal ini membatasi efektivitasnya dalam tugas Deteksi Anomali Industri (IAD). Di sisi lain, kerangka IAD yang ada hanya dapat mengidentifikasi sumber anomali dan memerlukan pengaturan ambang batas manual untuk membedakan antara sampel normal dan sampel anomali, sehingga membatasi penerapan praktisnya.
Tujuan utama kerangka IAD adalah untuk mendeteksi dan melokalisasi anomali dalam skenario industri dan citra produk. Namun, karena sampel gambar dunia nyata tidak dapat diprediksi dan jarang, model biasanya dilatih hanya pada data normal. Mereka membedakan sampel anomali dari sampel normal berdasarkan penyimpangan dari sampel tipikal. Saat ini, kerangka dan model IAD terutama memberikan skor anomali untuk sampel uji. Selain itu, membedakan antara kejadian normal dan anomali untuk setiap kelas item memerlukan spesifikasi ambang batas secara manual, sehingga menjadikannya tidak sesuai untuk aplikasi dunia nyata.
Untuk mengeksplorasi penggunaan dan penerapan Model Bahasa Visi Besar dalam mengatasi tantangan yang ditimbulkan oleh kerangka kerja IAD, AnomalyGPT, sebuah pendekatan IAD baru berdasarkan LVLM, diperkenalkan. AnomalyGPT dapat mendeteksi dan melokalisasi anomali tanpa memerlukan pengaturan ambang batas manual. Selain itu, AnomalyGPT juga dapat menawarkan informasi relevan tentang gambar untuk berinteraksi secara interaktif dengan pengguna, memungkinkan mereka mengajukan pertanyaan lanjutan berdasarkan anomali atau kebutuhan spesifik mereka.
Deteksi Anomali Industri dan Model Bahasa Visi Besar
Kerangka kerja IAD yang ada dapat dikategorikan menjadi dua kategori.
- IAD berbasis rekonstruksi.
- Fitur IAD berbasis penyematan.
Dalam kerangka IAD berbasis Rekonstruksi, tujuan utamanya adalah merekonstruksi sampel anomali ke sampel normalnya masing-masing, dan mendeteksi anomali dengan perhitungan kesalahan rekonstruksi. SCADN, RIAD, AnoDDPM, dan InTra memanfaatkan kerangka rekonstruksi yang berbeda mulai dari Generative Adversarial Networks (GAN) dan autoencoder, hingga model & transformator difusi.
Di sisi lain, dalam kerangka IAD berbasis Penyematan Fitur, motif utamanya adalah fokus pada pemodelan penyematan fitur pada data normal. Metode seperti PatchSSVD mencoba menemukan hipersfer yang dapat merangkum sampel normal dengan erat, sedangkan kerangka kerja seperti PyramidFlow dan Cfl memproyeksikan sampel normal ke distribusi Gaussian menggunakan aliran normalisasi. Kerangka kerja CFA dan PatchCore telah membentuk bank memori sampel normal dari penyematan patch, dan menggunakan jarak antara sampel uji yang menyematkan penyematan normal untuk mendeteksi anomali.
Kedua metode ini mengikuti “model satu kelas satu”, paradigma pembelajaran yang memerlukan sampel normal dalam jumlah besar untuk mempelajari distribusi setiap kelas objek. Persyaratan untuk sampel normal dalam jumlah besar membuatnya tidak praktis untuk kategori objek baru, dan dengan aplikasi terbatas dalam lingkungan produk yang dinamis. Di sisi lain, kerangka kerja AnomalyGPT menggunakan paradigma pembelajaran dalam konteks untuk kategori objek, sehingga memungkinkannya mengaktifkan interferensi hanya pada segelintir sampel normal.
Ke depannya, kami memiliki Model Bahasa Visi Besar atau LVLM. LLM atau Model Bahasa Besar telah menikmati kesuksesan luar biasa dalam industri NLP, dan sekarang mereka sedang dieksplorasi untuk penerapannya dalam tugas visual. Kerangka kerja BLIP-2 memanfaatkan Q-former untuk memasukkan fitur visual dari Vision Transformer ke dalam model Flan-T5. Selain itu, Kerangka kerja MiniGPT menghubungkan segmen gambar kerangka BLIP-2 dan model Vicuna dengan lapisan linier, dan melakukan proses penyempurnaan dua tahap menggunakan data gambar-teks. Pendekatan ini menunjukkan bahwa kerangka LLM mungkin memiliki beberapa aplikasi untuk tugas visual. Namun, model ini telah dilatih berdasarkan data umum, dan model tersebut tidak memiliki keahlian khusus domain yang diperlukan untuk aplikasi luas.
Bagaimana Cara Kerja AnomalyGPT?
AnomalyGPT pada intinya adalah model bahasa visi besar IAD percakapan baru yang dirancang terutama untuk mendeteksi anomali industri dan menunjukkan dengan tepat lokasi tepatnya menggunakan gambar. Kerangka kerja AnomalyGPT menggunakan LLM dan encoder gambar terlatih untuk menyelaraskan gambar dengan deskripsi tekstualnya yang sesuai menggunakan data anomali terstimulasi. Model ini memperkenalkan modul dekoder, dan modul pembelajar cepat untuk meningkatkan kinerja sistem IAD, dan mencapai keluaran lokalisasi tingkat piksel.
Arsitektur Model
Gambar di atas menggambarkan arsitektur AnomalyGPT. Model pertama-tama meneruskan gambar kueri ke pembuat enkode gambar yang dibekukan. Model tersebut kemudian mengekstrak fitur tingkat patch dari lapisan perantara, dan memasukkan fitur-fitur ini ke dekoder gambar untuk menghitung kemiripannya dengan teks abnormal dan normal guna memperoleh hasil pelokalan. Pembelajar yang cepat kemudian mengubahnya menjadi penyematan cepat yang cocok untuk digunakan sebagai masukan ke dalam LLM bersama dengan masukan teks pengguna. Model LLM kemudian memanfaatkan penyematan cepat, masukan gambar, dan masukan tekstual yang disediakan pengguna untuk mendeteksi anomali, dan menentukan lokasinya, serta membuat respons akhir bagi pengguna.
Decoder
Untuk mencapai lokalisasi anomali tingkat piksel, model AnomalyGPT menerapkan dekoder gambar berbasis pencocokan fitur ringan yang mendukung kerangka kerja IAD beberapa gambar, dan kerangka kerja IAD tanpa pengawasan. Desain decoder yang digunakan di AnomalyGPT terinspirasi oleh framework WinCLIP, PatchCore, dan APRIL-GAN. Model ini mempartisi encoder gambar menjadi 4 tahap, dan mengekstrak fitur tingkat patch menengah pada setiap tahap.
Namun, fitur perantara ini belum melalui penyelarasan akhir gambar-teks sehingga tidak dapat dibandingkan secara langsung dengan fitur. Untuk mengatasi masalah ini, model AnomalyGPT memperkenalkan lapisan tambahan untuk memproyeksikan fitur perantara, dan menyelaraskannya dengan fitur teks yang mewakili semantik normal dan abnormal.
Pembelajar yang Cepat
Kerangka kerja AnomalyGPT memperkenalkan pembelajar cepat yang mencoba mengubah hasil pelokalan menjadi penyematan cepat untuk memanfaatkan semantik terperinci dari gambar, dan juga menjaga konsistensi semantik antara dekoder & keluaran LLM. Selain itu, model ini menggabungkan penyematan cepat yang dapat dipelajari, yang tidak terkait dengan keluaran dekoder, ke dalam pembelajar cepat untuk memberikan informasi tambahan untuk tugas IAD. Terakhir, model memasukkan informasi embeddings dan gambar asli ke LLM.
Pelajar cepat terdiri dari penyematan perintah dasar yang dapat dipelajari, dan jaringan saraf konvolusional. Jaringan mengubah hasil pelokalan menjadi penyematan cepat, dan membentuk sekumpulan penyematan cepat yang kemudian digabungkan dengan penyematan gambar ke dalam LLM.
Simulasi Anomali
Model AnomalyGPT mengadopsi metode NSA untuk mensimulasikan data anomali. Metode NSA menggunakan teknik Potong-tempel dengan menggunakan metode pengeditan gambar Poisson untuk mengurangi diskontinuitas yang ditimbulkan dengan menempelkan segmen gambar. Potong-tempel adalah teknik yang umum digunakan dalam kerangka IAD untuk menghasilkan gambar anomali simulasi.
Metode Potong-tempel melibatkan pemotongan wilayah blok dari suatu gambar secara acak, dan menempelkannya ke lokasi acak di gambar lain, sehingga menciptakan sebagian anomali yang disimulasikan. Sampel anomali yang disimulasikan ini dapat meningkatkan performa model IAD, namun ada kelemahannya, karena sampel tersebut sering kali menghasilkan diskontinuitas yang nyata. Metode pengeditan Poisson bertujuan untuk mengkloning objek dari satu gambar ke gambar lainnya secara mulus dengan menyelesaikan persamaan diferensial parsial Poisson.
Gambar di atas mengilustrasikan perbandingan antara pengeditan gambar Poisson dan Cut-paste. Terlihat ada diskontinuitas yang terlihat pada metode potong-tempel, sedangkan hasil penyuntingan Poisson tampak lebih natural.
Isi Tanya Jawab
Untuk melakukan penyesuaian cepat pada Model Bahasa Visi Besar, model AnomalyGPT menghasilkan kueri tekstual yang sesuai berdasarkan gambar anomali. Setiap kueri terdiri dari dua komponen utama. Bagian pertama dari query terdiri dari deskripsi gambar masukan yang memberikan informasi tentang objek yang ada dalam gambar beserta atribut yang diharapkan. Bagian kedua dari query adalah mendeteksi keberadaan anomali di dalam objek, atau memeriksa apakah ada anomali pada gambar.
LVLM pertama-tama merespons pertanyaan apakah ada anomali pada gambar? Jika model mendeteksi anomali, model akan terus menentukan lokasi dan jumlah area anomali. Model membagi gambar menjadi grid 3Ă—3 dengan wilayah berbeda untuk memungkinkan LVLM secara verbal menunjukkan posisi anomali seperti yang ditunjukkan pada gambar di bawah.
Model LVLM diberi pengetahuan deskriptif tentang masukan dengan pengetahuan dasar tentang gambar masukan yang membantu model memahami komponen gambar dengan lebih baik.
Kumpulan Data dan Metrik Evaluasi
Model ini melakukan eksperimennya terutama pada kumpulan data VisA dan MVTec-AD. Kumpulan data MVTech-AD terdiri dari 3629 gambar untuk tujuan pelatihan, dan 1725 gambar untuk pengujian yang dibagi menjadi 15 kategori berbeda, itulah sebabnya ini merupakan salah satu kumpulan data paling populer untuk kerangka kerja IAD. Gambar pelatihan hanya menampilkan gambar normal sedangkan gambar pengujian menampilkan gambar normal dan anomali. Di sisi lain, kumpulan data VisA terdiri dari 9621 gambar normal, dan hampir 1200 gambar anomali yang dibagi menjadi 12 kategori berbeda.
Selanjutnya, seperti kerangka IAD yang ada, model AnomalyGPT menggunakan AUC atau Area Under the Receiver Operating Characteristics sebagai metrik evaluasinya, dengan AUC tingkat piksel dan tingkat gambar digunakan untuk menilai kinerja lokalisasi anomali, dan deteksi anomali. Namun, model ini juga menggunakan akurasi tingkat gambar untuk mengevaluasi kinerja pendekatan yang diusulkan karena model ini secara unik memungkinkan untuk menentukan keberadaan anomali tanpa perlu menyiapkan ambang batas secara manual.
Hasil
Hasil Kuantitatif
Deteksi Anomali Industri Beberapa Tembakan
Model AnomalyGPT membandingkan hasilnya dengan beberapa kerangka kerja IAD sebelumnya termasuk PaDiM, SPADE, WinCLIP, dan PatchCore sebagai dasar.
Gambar di atas membandingkan hasil model AnomalyGPT dibandingkan dengan kerangka kerja IAD beberapa kali. Di kedua kumpulan data, metode yang diikuti oleh AnomalyGPT mengungguli pendekatan yang diadopsi oleh model sebelumnya dalam hal AUC tingkat gambar, dan juga menghasilkan akurasi yang baik.
Deteksi Anomali Industri Tanpa Pengawasan
Dalam pengaturan pelatihan tanpa pengawasan dengan sejumlah besar sampel normal, AnomalyGPT melatih satu model pada sampel yang diperoleh dari semua kelas dalam kumpulan data. Pengembang AnomalyGPT memilih kerangka kerja UniAD karena kerangka tersebut dilatih dengan pengaturan yang sama, dan akan bertindak sebagai dasar perbandingan. Selain itu, model ini juga dibandingkan dengan kerangka kerja JNLD dan PaDim menggunakan pengaturan terpadu yang sama.
Gambar di atas membandingkan performa AnomalyGPT jika dibandingkan dengan framework lainnya.
Hasil Kualitatif
Gambar di atas mengilustrasikan performa model AnomalyGPT dalam metode deteksi anomali tanpa pengawasan sedangkan gambar di bawah menunjukkan performa model dalam pembelajaran dalam konteks 1-shot.
Model AnomalyGPT mampu menunjukkan adanya anomali, menandai lokasinya, dan memberikan hasil lokalisasi tingkat piksel. Ketika model menggunakan metode pembelajaran 1-shot dalam konteks, performa lokalisasi model sedikit lebih rendah jika dibandingkan dengan metode pembelajaran tanpa pengawasan karena tidak adanya pelatihan.
Kesimpulan
AnomalyGPT adalah model bahasa visi IAD percakapan baru yang dirancang untuk memanfaatkan kemampuan canggih model bahasa visi besar. Ini tidak hanya dapat mengidentifikasi anomali dalam suatu gambar tetapi juga menentukan lokasi tepatnya. Selain itu, AnomalyGPT memfasilitasi dialog multi-putaran yang berfokus pada deteksi anomali dan menampilkan kinerja luar biasa dalam pembelajaran dalam konteks beberapa kali. AnomalyGPT menyelidiki potensi penerapan LVLM dalam deteksi anomali, memperkenalkan ide dan kemungkinan baru untuk industri IAD.