Kecerdasan buatan

DiffSeg : Segmentasi Tidak Terawasi Zero-Shot Menggunakan Difusi Stabil

Published December 26, 2023

Updated April 27, 2026

Kunal Kejriwal

DiffSeg : Unsupervised Zero-Shot Segmentation using Stable Diffusion

Salah satu tantangan inti dalam model berbasis penglihatan komputer adalah pembangkitan masker segmentasi berkualitas tinggi. Kemajuan baru-baru ini dalam pelatihan terawasi skala besar telah memungkinkan segmentasi zero-shot di seluruh gaya gambar yang berbeda. Selain itu, pelatihan tidak terawasi telah mempermudah segmentasi tanpa memerlukan anotasi ekstensif. Meskipun demikian, membangun kerangka kerja penglihatan komputer yang mampu membagi segala sesuatu dalam pengaturan zero-shot tanpa anotasi masih merupakan tugas yang kompleks. Segmentasi semantik, konsep dasar dalam model penglihatan komputer, melibatkan pembagian gambar menjadi wilayah yang lebih kecil dengan semantik seragam. Teknik ini membentuk landasan untuk berbagai tugas hilir, seperti pencitraan medis, pengeditan gambar, mengemudi otonom, dan lain-lain.

Untuk memajukan pengembangan model penglihatan komputer, sangat penting bahwa segmentasi gambar tidak terbatas pada dataset tetap dengan kategori terbatas. Sebaliknya, harus bertindak sebagai tugas dasar yang serbaguna untuk berbagai aplikasi lain. Namun, biaya tinggi mengumpulkan label pada basis per-pixel merupakan tantangan signifikan, membatasi kemajuan metode segmentasi zero-shot dan terawasi yang memerlukan anotasi dan tidak memiliki akses sebelumnya ke target. Artikel ini akan membahas bagaimana lapisan perhatian diri dalam model difusi stabil dapat memfasilitasi pembuatan model yang mampu membagi segala sesuatu dalam pengaturan zero-shot, bahkan tanpa anotasi yang tepat. Lapisan perhatian diri ini secara inheren memahami konsep objek yang dipelajari oleh model difusi stabil pra-terlatih.

DiffSeg : Algoritma Segmentasi Zero-Shot yang Ditingkatkan

Segmentasi semantik adalah proses yang membagi gambar menjadi berbagai bagian, dengan setiap bagian berbagi semantik yang sama. Teknik ini membentuk landasan untuk berbagai tugas hilir. Secara tradisional, tugas penglihatan komputer zero-shot bergantung pada segmentasi semantik terawasi, menggunakan dataset besar dengan kategori yang dianotasi dan diberi label. Namun, implementasi segmentasi semantik tidak terawasi dalam pengaturan zero-shot masih merupakan tantangan. Sementara metode terawasi tradisional efektif, biaya pelabelan per-pixel mereka sering kali prohibitif, menyoroti kebutuhan untuk mengembangkan metode segmentasi tidak terawasi dalam pengaturan zero-shot yang kurang restriktif, di mana model tidak memerlukan data yang dianotasi atau pengetahuan sebelumnya tentang data.

Untuk mengatasi keterbatasan ini, DiffSeg memperkenalkan strategi pasca-pengolahan baru, memanfaatkan kemampuan kerangka kerja Difusi Stabil untuk membangun model segmentasi generik yang mampu melakukan transfer zero-shot pada gambar apa pun. Kerangka kerja Difusi Stabil telah terbukti efektif dalam menghasilkan gambar resolusi tinggi berdasarkan kondisi prompt. Untuk gambar yang dihasilkan, kerangka kerja ini dapat menghasilkan masker segmentasi menggunakan prompt teks yang sesuai, yang biasanya hanya mencakup objek foreground yang dominan.

Berbeda dengan itu, DiffSeg adalah metode pasca-pengolahan inovatif yang membuat masker segmentasi dengan menggunakan tensor perhatian dari lapisan perhatian diri dalam model difusi. Algoritma DiffSeg terdiri dari tiga komponen kunci: penggabungan perhatian iteratif, agregasi perhatian, dan penekanan non-maksimum, seperti yang ditunjukkan pada gambar berikut.

Algoritma DiffSeg mempertahankan informasi visual di seluruh resolusi yang berbeda dengan mengagregasi tensor perhatian 4D dengan konsistensi spasial, dan menggunakan proses penggabungan iteratif dengan sampling titik jangkar. Titik jangkar ini berfungsi sebagai titik awal untuk menggabungkan masker perhatian dengan jangkar objek yang sama yang akhirnya diserap. Kerangka kerja DiffSeg mengontrol proses penggabungan dengan bantuan metode divergensi KL untuk mengukur kesamaan antara dua peta perhatian.

Dibandingkan dengan metode segmentasi tidak terawasi berbasis pengelompokan, pengembang tidak perlu menentukan jumlah klaster sebelumnya dalam algoritma DiffSeg, dan bahkan tanpa pengetahuan sebelumnya, algoritma DiffSeg dapat menghasilkan segmentasi tanpa menggunakan sumber daya tambahan. Secara keseluruhan, algoritma DiffSeg adalah “metode segmentasi tidak terawasi dan zero-shot yang baru, yang menggunakan model Difusi Stabil pra-terlatih, dan dapat membagi gambar tanpa sumber daya tambahan atau pengetahuan sebelumnya.”

DiffSeg : Konsep Dasar

DiffSeg adalah algoritma baru yang dibangun dari pembelajaran model Difusi, Segmentasi Tidak Terawasi, dan Segmentasi Zero-Shot.

Model Difusi

Algoritma DiffSeg dibangun dari pembelajaran model difusi pra-terlatih. Model difusi adalah salah satu kerangka generatif paling populer untuk model penglihatan komputer, dan mempelajari proses difusi maju dan mundur dari gambar noise Gaussian isotropik sampel ke gambar. Difusi Stabil adalah varian model difusi paling populer, dan digunakan untuk melakukan berbagai tugas, termasuk segmentasi terawasi, klasifikasi zero-shot, pencocokan korespondensi semantik, segmentasi label-efisien, dan segmentasi vokabuler terbuka. Namun, masalah dengan model difusi adalah bahwa mereka bergantung pada fitur visual berdimensi tinggi untuk melakukan tugas-tugas ini, dan sering kali memerlukan pelatihan tambahan untuk memanfaatkan fitur-fitur ini sepenuhnya.

Segmentasi Tidak Terawasi

Algoritma DiffSeg erat terkait dengan segmentasi tidak terawasi, praktik AI modern yang bertujuan untuk menghasilkan masker segmentasi padat tanpa menggunakan anotasi. Namun, untuk memberikan kinerja yang baik, model segmentasi tidak terawasi memerlukan beberapa pelatihan tidak terawasi sebelumnya pada dataset target. Model segmentasi tidak terawasi berbasis AI dapat dikategorikan menjadi dua kategori: pengelompokan menggunakan model pra-terlatih, dan pengelompokan berbasis invariansi. Dalam kategori pertama, kerangka kerja menggunakan fitur diskriminatif yang dipelajari oleh model pra-terlatih untuk menghasilkan masker segmentasi, sedangkan kerangka kerja dalam kategori kedua menggunakan algoritma pengelompokan generik yang mengoptimalkan informasi mutual antara dua gambar untuk membagi gambar menjadi klaster semantik dan menghindari segmentasi degeneratif.

Segmentasi Zero-Shot

Algoritma DiffSeg erat terkait dengan kerangka kerja segmentasi zero-shot, metode yang memiliki kemampuan untuk membagi segala sesuatu tanpa pelatihan atau pengetahuan sebelumnya tentang data. Model segmentasi zero-shot telah menunjukkan kemampuan transfer zero-shot yang luar biasa dalam beberapa waktu terakhir, meskipun mereka memerlukan beberapa input teks dan prompt. Berbeda dengan itu, algoritma DiffSeg menggunakan model difusi untuk menghasilkan segmentasi tanpa mengquery dan mensintesis beberapa gambar dan tanpa mengetahui isi objek.

DiffSeg : Metode dan Arsitektur

Algoritma DiffSeg menggunakan lapisan perhatian diri dalam model difusi stabil pra-terlatih untuk menghasilkan tugas segmentasi berkualitas tinggi.

Model Difusi Stabil

Difusi Stabil adalah salah satu konsep dasar dalam kerangka kerja DiffSeg. Difusi Stabil adalah kerangka AI generatif, dan salah satu model difusi paling populer. Salah satu karakteristik utama model difusi adalah proses maju dan mundur. Dalam proses maju, sejumlah kecil noise Gaussian ditambahkan ke gambar secara iteratif pada setiap langkah waktu sampai gambar menjadi gambar noise Gaussian isotropik. Di sisi lain, dalam proses mundur, model difusi secara iteratif menghilangkan noise dalam gambar noise Gaussian isotropik untuk memulihkan gambar asli tanpa noise Gaussian.

Kerangka kerja Difusi Stabil menggunakan encoder-decoder, dan desain U-Net dengan lapisan perhatian, di mana menggunakan encoder untuk mengompresi gambar ke ruang laten dengan dimensi spasial yang lebih kecil, dan menggunakan decoder untuk mengembalikan gambar. Arsitektur U-Net terdiri dari tumpukan blok modular, di mana setiap blok terdiri dari salah satu dari dua komponen berikut: Lapisan Transformer, dan Lapisan ResNet.

Komponen dan Arsitektur

Lapisan perhatian diri dalam model difusi mengelompokkan informasi objek bawaan dalam bentuk peta perhatian spasial, dan DiffSeg adalah metode pasca-pengolahan baru untuk menggabungkan tensor perhatian menjadi masker segmentasi yang valid, dengan pipa yang terdiri dari tiga komponen utama: agregasi perhatian, penekanan non-maksimum, dan perhatian iteratif.

Agregasi Perhatian

Untuk gambar input yang melewati lapisan U-Net, dan Encoder, model Difusi Stabil menghasilkan total 16 tensor perhatian, dengan 5 tensor untuk setiap dimensi. Tujuan utama menghasilkan 16 tensor adalah untuk mengagregasi tensor perhatian ini dengan resolusi yang berbeda menjadi tensor dengan resolusi tertinggi. Untuk mencapai ini, algoritma DiffSeg memperlakukan empat dimensi secara berbeda.

Dari empat dimensi, dua dimensi terakhir dalam sensor perhatian memiliki resolusi yang berbeda namun konsisten secara spasial karena peta spasial 2D dari kerangka kerja DiffSeg sesuai dengan korelasi antara lokasi dan lokasi spasial. Hasilnya, kerangka kerja DiffSeg mengambil sampel dari dua dimensi ini dari semua peta perhatian ke resolusi tertinggi, 64 x 64. Di sisi lain, dua dimensi pertama menunjukkan referensi lokasi peta perhatian seperti yang ditunjukkan pada gambar berikut.

Karena dimensi ini merujuk pada lokasi peta perhatian, peta perhatian perlu diagregasi sesuai. Selain itu, untuk memastikan bahwa peta perhatian yang diagregasi memiliki distribusi yang valid, kerangka kerja menormalkan distribusi setelah agregasi dengan setiap peta perhatian yang diberi bobot proporsional dengan resolusinya.

Penggabungan Perhatian Iteratif

Sementara tujuan utama agregasi perhatian adalah untuk menghitung tensor perhatian, tujuan utama adalah untuk menggabungkan peta perhatian dalam tensor menjadi tumpukan proposal objek di mana setiap proposal individu berisi kategori “stuff” atau aktivasi objek tunggal. Solusi yang diusulkan untuk mencapai ini adalah dengan mengimplementasikan algoritma K-Means pada distribusi yang valid dari tensor untuk menemukan klaster objek. Namun, menggunakan K-Means bukanlah solusi optimal karena K-Means memerlukan pengguna untuk menentukan jumlah klaster sebelumnya. Selain itu, mengimplementasikan algoritma K-Means mungkin menghasilkan hasil yang berbeda untuk gambar yang sama karena bergantung pada inisialisasi. Untuk mengatasi hambatan ini, kerangka kerja DiffSeg mengusulkan untuk menghasilkan grid sampling untuk membuat proposal dengan menggabungkan peta perhatian secara iteratif.

Penekanan Non-Maksimum

Langkah sebelumnya dari penggabungan perhatian iteratif menghasilkan daftar proposal objek dalam bentuk peta perhatian probabilitas di mana setiap proposal objek berisi aktivasi objek. Kerangka kerja menggunakan penekanan non-maksimum untuk mengubah daftar proposal objek menjadi masker segmentasi yang valid, dan proses ini adalah pendekatan yang efektif karena setiap elemen dalam daftar sudah merupakan peta distribusi probabilitas. Untuk setiap lokasi spasial di seluruh peta, algoritma mengambil indeks probabilitas terbesar, dan menetapkan keanggotaan berdasarkan indeks peta yang sesuai.

DiffSeg : Eksperimen dan Hasil

Kerangka kerja yang bekerja pada segmentasi tidak terawasi menggunakan dua benchmark segmentasi, yaitu Cityscapes, dan COCO-stuff-27. Benchmark Cityscapes adalah dataset mengemudi otonom dengan 27 kategori tingkat menengah, sedangkan benchmark COCO-stuff-27 adalah versi yang dikurasi dari dataset COCO-stuff asli yang menggabungkan 80 “things” dan 91 kategori menjadi 27 kategori. Selain itu, untuk menganalisis kinerja segmentasi, kerangka kerja DiffSeg menggunakan mean intersection over union atau mIoU dan akurasi piksel atau ACC, dan karena algoritma DiffSeg tidak dapat memberikan label semantik, menggunakan algoritma pencocokan Hungaria untuk menetapkan masker ground truth dengan setiap masker yang diprediksi. Jika jumlah masker yang diprediksi melebihi jumlah masker ground truth, kerangka kerja akan mempertimbangkan tugas yang diprediksi yang tidak cocok sebagai negatif palsu.

Selain itu, kerangka kerja DiffSeg juga menekankan tiga pekerjaan berikut untuk menjalankan interferensi: Ketergantungan Bahasa atau LD, Adaptasi Tidak Terawasi atau UA, dan Gambar Bantu atau AX. Ketergantungan Bahasa berarti bahwa metode memerlukan input teks deskriptif untuk memfasilitasi segmentasi untuk gambar, Adaptasi Tidak Terawasi merujuk pada kebutuhan metode untuk menggunakan pelatihan tidak terawasi pada dataset target, sedangkan Gambar Bantu merujuk pada kebutuhan metode untuk input tambahan baik sebagai gambar sintetis atau sebagai kumpulan gambar referensi.

Hasil

Pada benchmark COCO, kerangka kerja DiffSeg mencakup dua baseline K-Means, K-Means-S dan K-Means-C. Benchmark K-Means-C mencakup 6 klaster yang dihitung dengan mengambil rata-rata jumlah objek dalam gambar yang dievaluasi, sedangkan benchmark K-Means-S menggunakan jumlah klaster tertentu untuk setiap gambar berdasarkan jumlah objek dalam ground truth gambar, dan hasil pada kedua benchmark ini ditunjukkan pada gambar berikut.

Seperti yang dapat dilihat, baseline K-Means mengungguli metode yang ada, sehingga menunjukkan manfaat dari menggunakan tensor perhatian diri. Yang menarik adalah bahwa baseline K-Means-S mengungguli baseline K-Means-C yang menunjukkan bahwa jumlah klaster adalah hiper-parameter fundamental, dan mengatur hiper-parameter ini sangat penting untuk setiap gambar. Selain itu, bahkan ketika bergantung pada tensor perhatian yang sama, kerangka kerja DiffSeg mengungguli baseline K-Means yang membuktikan kemampuan kerangka kerja DiffSeg untuk tidak hanya memberikan segmentasi yang lebih baik, tetapi juga menghindari kelemahan yang ditimbulkan oleh menggunakan baseline K-Means.

Pada dataset Cityscapes, kerangka kerja DiffSeg memberikan hasil yang serupa dengan kerangka kerja yang menggunakan input dengan resolusi lebih rendah 320, sambil mengungguli kerangka kerja yang menggunakan input dengan resolusi lebih tinggi 512 di seluruh akurasi dan mIoU.

Seperti yang disebutkan sebelumnya, kerangka kerja DiffSeg menggunakan beberapa hiper-parameter seperti yang ditunjukkan pada gambar berikut.

Agregasi perhatian adalah salah satu konsep dasar yang digunakan dalam kerangka kerja DiffSeg, dan efek dari menggunakan berat agregasi yang berbeda ditunjukkan pada gambar berikut dengan resolusi gambar yang konstan.

Seperti yang dapat diamati, peta resolusi tinggi pada Fig (b) dengan peta 64 x 64 menghasilkan segmentasi yang paling rinci, meskipun segmentasi memiliki beberapa retakan yang terlihat, sedangkan peta resolusi yang lebih rendah 32 x 32 cenderung mengover-segmentasi detail, meskipun menghasilkan segmentasi yang lebih konsisten. Pada Fig (d), peta resolusi yang lebih rendah gagal menghasilkan segmentasi karena seluruh gambar digabungkan menjadi satu objek dengan pengaturan hiper-parameter yang ada. Akhirnya, Fig (a) yang menggunakan strategi agregasi proporsional menghasilkan detail yang ditingkatkan dan konsistensi yang seimbang.

Pemikiran Akhir

Segmentasi tidak terawasi zero-shot masih merupakan salah satu hambatan terbesar untuk kerangka kerja penglihatan komputer, dan model yang ada bergantung pada adaptasi tidak terawasi non-zero-shot atau pada sumber daya eksternal. Untuk mengatasi hambatan ini, kita telah membahas bagaimana lapisan perhatian diri dalam model difusi stabil dapat memungkinkan pembangunan model yang mampu membagi segala sesuatu dalam pengaturan zero-shot tanpa anotasi yang tepat, karena lapisan perhatian diri ini memegang konsep bawaan objek yang dipelajari oleh model difusi stabil pra-terlatih. Kita juga telah membahas DiffSeg, strategi pasca-pengolahan baru, yang bertujuan untuk memanfaatkan potensi kerangka kerja Difusi Stabil untuk membangun model segmentasi generik yang dapat melakukan transfer zero-shot pada gambar apa pun. Algoritma ini bergantung pada Kesamaan Perhatian Antara dan Kesamaan Perhatian Dalam untuk menggabungkan peta perhatian secara iteratif menjadi masker segmentasi yang valid untuk mencapai kinerja yang setara dengan yang terbaik pada benchmark yang populer.

Kunal Kejriwal

Seorang insinyur oleh profesi, seorang penulis oleh hati. Kunal adalah seorang penulis teknis dengan cinta yang mendalam & pemahaman tentang AI dan ML, yang didedikasikan untuk menyederhanakan konsep-konsep kompleks dalam bidang ini melalui dokumentasi yang menarik dan informatif.