Kecerdasan buatan
YOLO-World: Deteksi Objek Waktu Nyata dengan Kosakata Terbuka
Deteksi objek telah menjadi tantangan fundamental dalam industri penglihatan komputer, dengan aplikasi di robotika, pemahaman gambar, kendaraan otonom, dan pengenalan gambar. Dalam beberapa tahun terakhir, pekerjaan yang sangat berpengaruh dalam AI, terutama melalui jaringan neural dalam, telah secara signifikan memajukan deteksi objek. Namun, model ini memiliki kosakata yang tetap, terbatas pada mendeteksi objek dalam 80 kategori dari dataset COCO. Keterbatasan ini berasal dari proses pelatihan, di mana detektor objek dilatih untuk mengenali hanya kategori tertentu, sehingga membatasi kemampuan mereka.
Untuk mengatasi ini, kami memperkenalkan YOLO-World, sebuah pendekatan inovatif yang bertujuan untuk meningkatkan kerangka kerja YOLO (You Only Look Once) dengan kemampuan deteksi kosakata terbuka. Ini dicapai dengan melakukan pra-pelatihan kerangka kerja pada dataset skala besar dan mengimplementasikan pendekatan pemodelan bahasa-penglihatan. Secara khusus, YOLO-World menggunakan Jaringan Agregasi Jalur Penglihatan-Bahasa yang Dapat Diparameterkan (RepVL-PAN) dan kerugian kontrastif teks-wilayah untuk memfasilitasi interaksi antara informasi linguistik dan visual. Melalui RepVL-PAN dan kerugian kontrastif teks-wilayah, YOLO-World dapat mendeteksi objek dengan akurat dalam berbagai kategori dalam pengaturan zero-shot, menunjukkan kinerja yang luar biasa dalam tugas segmentasi dan deteksi objek kosakata terbuka.
Artikel ini bertujuan untuk memberikan pemahaman yang menyeluruh tentang fondasi teknis YOLO-World, arsitektur model, proses pelatihan, dan skenario aplikasi. Mari kita mulai.
YOLO-World: Deteksi Objek Waktu Nyata dengan Kosakata Terbuka
YOLO atau You Only Look Once adalah salah satu metode paling populer untuk deteksi objek modern dalam industri penglihatan komputer. Terkenal karena kecepatan dan efisiensinya yang luar biasa, kemunculan mekanisme YOLO telah merevolusi cara mesin menafsirkan dan mendeteksi objek tertentu dalam gambar dan video secara waktu nyata. Kerangka kerja deteksi objek tradisional mengimplementasikan pendekatan deteksi objek dua langkah: pada langkah pertama, kerangka kerja mengusulkan wilayah yang mungkin mengandung objek, dan kerangka kerja mengklasifikasikan objek pada langkah berikutnya. Kerangka kerja YOLO, di sisi lain, mengintegrasikan dua langkah ini menjadi satu model jaringan neural, pendekatan yang memungkinkan kerangka kerja untuk melihat gambar hanya sekali untuk memprediksi objek dan lokasinya dalam gambar, dan oleh karena itu, namanya YOLO atau You Only Look Once.
Selanjutnya, kerangka kerja YOLO mengobati deteksi objek sebagai masalah regresi, dan memprediksi probabilitas kelas dan kotak pembatas langsung dari gambar penuh dalam satu pandangan. Implementasi metode ini tidak hanya meningkatkan kecepatan proses deteksi, tetapi juga meningkatkan kemampuan model untuk menggeneralisasi dari data yang kompleks dan beragam, membuatnya menjadi pilihan yang tepat untuk aplikasi yang beroperasi secara waktu nyata seperti mengemudi otonom, deteksi kecepatan atau pengenalan pelat nomor. Selain itu, kemajuan yang signifikan dalam jaringan neural dalam beberapa tahun terakhir juga telah berkontribusi secara signifikan dalam pengembangan kerangka kerja deteksi objek, tetapi kesuksesan kerangka kerja deteksi objek masih terbatas karena mereka hanya dapat mendeteksi objek dengan kosakata yang terbatas. Ini terutama karena sekali kategori objek didefinisikan dan diberi label dalam dataset, detektor yang dilatih dalam kerangka kerja hanya dapat mengenali kategori tertentu, sehingga membatasi kemampuan dan kemampuan mengirimkan model deteksi objek dalam skenario waktu nyata dan terbuka.
Melangkah maju, model bahasa-penglihatan yang baru-baru ini dikembangkan menggunakan pengetahuan kosakata yang diperoleh dari pengkode bahasa untuk menangani deteksi kosakata terbuka. Meskipun kerangka kerja ini performa lebih baik daripada model deteksi objek tradisional dalam deteksi kosakata terbuka, mereka masih memiliki keterbatasan karena ketersediaan data pelatihan yang terbatas dengan keragaman kosakata yang terbatas. Selain itu, kerangka kerja yang dipilih melatih detektor objek kosakata terbuka skala besar, dan mengategorikan detektor objek pelatihan sebagai pra-pelatihan visi-bahasa tingkat wilayah. Namun, pendekatan ini masih mengalami kesulitan dalam mendeteksi objek secara waktu nyata karena dua alasan utama: proses penerapan yang kompleks untuk perangkat tepi, dan persyaratan komputasi yang berat. Di sisi positif, kerangka kerja ini telah menunjukkan hasil positif dari pra-pelatihan detektor besar untuk menggunakannya dengan kemampuan pengenalan terbuka.
Kerangka kerja YOLO-World bertujuan untuk mencapai deteksi objek kosakata terbuka yang sangat efisien, dan menjelajahi kemungkinan pendekatan pra-pelatihan skala besar untuk meningkatkan efisiensi detektor YOLO tradisional untuk deteksi objek kosakata terbuka. Berbeda dengan pekerjaan sebelumnya dalam deteksi objek, kerangka kerja YOLO-World menampilkan efisiensi yang luar biasa dengan kecepatan inferensi yang tinggi, dan dapat diterapkan pada aplikasi hilir dengan mudah. Model YOLO-World mengikuti arsitektur YOLO tradisional, dan mengkodekan teks input dengan menggunakan kemampuan pengkode teks CLIP pra-pelatihan. Selain itu, kerangka kerja YOLO-World juga mencakup komponen Jaringan Agregasi Jalur Penglihatan-Bahasa yang Dapat Diparameterkan (RepVL-PAN) dalam arsitektur untuk menghubungkan fitur gambar dan teks untuk perwakilan visual-semantik yang ditingkatkan. Selama fase inferensi, kerangka kerja menghapus pengkode teks, dan memparamaterkan kembali penyematan teks ke dalam berat RepVL-PAN, menghasilkan penerapan yang efisien. Kerangka kerja ini juga mencakup pembelajaran kontrastif teks-wilayah untuk mempelajari metode pra-pelatihan kosakata terbuka untuk model YOLO tradisional. Metode pembelajaran kontrastif teks-wilayah menggabungkan data gambar-teks, data grounding, dan data deteksi ke dalam pasangan teks-wilayah. Berdasarkan ini, kerangka kerja YOLO-World yang telah pra-pelatihan pada pasangan teks-wilayah menunjukkan kemampuan yang luar biasa untuk deteksi kosakata terbuka dan besar. Selain itu, kerangka kerja YOLO-World juga menjelajahi paradigma prompt-then-detect dengan tujuan untuk meningkatkan efisiensi deteksi objek kosakata terbuka dalam skenario waktu nyata dan dunia nyata.
Seperti yang ditunjukkan dalam gambar berikut, detektor objek tradisional fokus pada himpunan tertutup deteksi kosakata tetap dengan kategori yang telah ditentukan sebelumnya, sedangkan detektor kosakata terbuka mendeteksi objek dengan mengkode prompt pengguna dengan pengkode teks untuk kosakata terbuka. Dalam perbandingan, pendekatan prompt-then-detect YOLO-World pertama-tama membangun kosakata offline (kosakata yang bervariasi untuk kebutuhan yang bervariasi) dengan mengkode prompt pengguna, memungkinkan detektor untuk menafsirkan kosakata offline secara waktu nyata tanpa harus mengkode ulang prompt.

YOLO-World : Metode dan Arsitektur
Pasangan Teks-Wilayah
Secara tradisional, kerangka kerja deteksi objek, termasuk keluarga detektor YOLO, dilatih menggunakan anotasi instance yang mengandung label kategori dan kotak pembatas. Sebaliknya, kerangka kerja YOLO-World merumuskan kembali anotasi instance sebagai pasangan teks-wilayah di mana teks dapat menjadi deskripsi objek, frasa kata benda, atau nama kategori. Ini patut disebutkan bahwa kerangka kerja YOLO-World mengadopsi baik teks dan gambar sebagai input dan output prediksi kotak dengan penyematan objek yang sesuai.
Arsitektur Model
Pada intinya, model YOLO-World terdiri dari Pengkode Teks, detektor YOLO, dan komponen Jaringan Agregasi Jalur Penglihatan-Bahasa yang Dapat Diparameterkan (RepVL-PAN), seperti yang ditunjukkan dalam gambar berikut.

Untuk input teks, komponen pengkode teks mengkode teks menjadi penyematan teks, diikuti dengan ekstraksi fitur multi-skala dari input gambar oleh detektor gambar dalam komponen detektor YOLO. Komponen Jaringan Agregasi Jalur Penglihatan-Bahasa yang Dapat Diparameterkan (RepVL-PAN) kemudian memanfaatkan fusi antar-modality antara penyematan teks dan fitur untuk meningkatkan perwakilan teks dan gambar.
Detektor YOLO
Model YOLO-World dibangun di atas kerangka kerja YOLOv8 yang ada, yang mengandung komponen backbone Darknet sebagai pengkode gambar, kepala untuk penyematan objek dan regresi kotak pembatas, dan PAN atau Jaringan Agregasi Jalur untuk piramida fitur multi-skala.
Pengkode Teks
Untuk teks yang diberikan, model YOLO-World mengekstrak penyematan teks yang sesuai dengan mengadopsi pengkode teks Transformer CLIP pra-pelatihan dengan jumlah kata benda dan dimensi penyematan tertentu. Alasan utama mengapa kerangka kerja YOLO-World mengadopsi pengkode teks CLIP adalah karena menawarkan kinerja visual-semantik yang lebih baik untuk menghubungkan teks dengan objek visual, secara signifikan mengungguli pengkode bahasa tradisional. Namun, jika input teks adalah kapion atau ekspresi referensi, model YOLO-World memilih algoritma n-gram yang lebih sederhana untuk mengekstrak frasa. Frasa ini kemudian diumpankan ke pengkode teks.
Kepala Kontrastif Teks
Kepala terpisah adalah komponen yang digunakan oleh model deteksi objek sebelumnya, dan kerangka kerja YOLO-World mengadopsi kepala terpisah dengan konvolusi 3×3 ganda untuk mengregresi penyematan objek dan kotak pembatas untuk jumlah objek yang tetap. Kerangka kerja YOLO-World menggunakan kepala kontrastif teks untuk mendapatkan kesamaan objek-teks menggunakan pendekatan normalisasi L2 dan penyematan teks. Selain itu, model YOLO-World juga mengadopsi pendekatan transformasi afinitas dengan faktor pergeseran dan faktor penskalaan yang dapat dipelajari, dengan normalisasi L2 dan transformasi afinitas yang meningkatkan stabilitas model selama pelatihan teks-wilayah.
Pelatihan Kosakata Online
Selama fase pelatihan, model YOLO-World membangun kosakata online untuk setiap sampel mosaik yang terdiri dari 4 gambar. Model menyampel semua kata benda positif yang termasuk dalam gambar mosaik, dan menyampel beberapa kata benda negatif secara acak dari dataset yang sesuai. Kosakata untuk setiap sampel terdiri dari maksimal n kata benda, dengan nilai default 80.
Inferensi Kosakata Offline
Selama inferensi, model YOLO-World mempresentasikan strategi prompt-then-detect dengan kosakata offline untuk lebih meningkatkan efisiensi model. Pengguna pertama-tama mendefinisikan serangkaian prompt kustom yang mungkin termasuk kategori atau bahkan kapion. Model YOLO-World kemudian mendapatkan penyematan kosakata offline dengan menggunakan pengkode teks untuk mengkode prompt. Sebagai hasilnya, kosakata offline untuk inferensi membantu model menghindari perhitungan untuk setiap input, dan juga memungkinkan model untuk menyesuaikan kosakata dengan fleksibel sesuai dengan kebutuhan.
Jaringan Agregasi Jalur Penglihatan-Bahasa yang Dapat Diparameterkan (RepVL-PAN)
Gambar berikut mengilustrasikan struktur Jaringan Agregasi Jalur Penglihatan-Bahasa yang Dapat Diparameterkan yang mengikuti jalur atas-bawah dan bawah-atas untuk membangun piramida fitur dengan gambar fitur multi-skala.

Untuk meningkatkan interaksi antara fitur teks dan gambar, model YOLO-World mengusulkan Perhatian Pengumpulan Gambar dan Lapisan CSPL yang Dipandu Teks (Cross-Stage Partial Layers) dengan tujuan akhir untuk meningkatkan perwakilan visual-semantik untuk kemampuan kosakata terbuka. Selama inferensi, model YOLO-World memparamaterkan kembali penyematan kosakata offline ke dalam berat lapisan linier atau konvolusional untuk penerapan yang efektif.
Seperti yang dapat dilihat pada gambar di atas, model YOLO-World menggunakan Lapisan CSPL setelah fusi atas-bawah atau bawah-atas, dan mengintegrasikan panduan teks ke dalam fitur gambar multi-skala, membentuk Lapisan CSPL yang Dipandu Teks, sehingga memperluas Lapisan CSPL. Untuk setiap fitur gambar dan penyematan teks yang sesuai, model mengadopsi perhatian sigmoid-maks setelah blok bottleneck terakhir untuk menggabungkan fitur teks ke dalam fitur gambar. Fitur gambar yang diperbarui kemudian dihubungkan dengan fitur antar-tahap, dan disajikan sebagai output.
Selanjutnya, model YOLO-World menggabungkan fitur gambar untuk memperbarui penyematan teks dengan memperkenalkan Lapisan Perhatian Pengumpulan Gambar untuk meningkatkan penyematan teks dengan informasi yang sadar akan gambar. Sebagai gantinya menggunakan perhatian silang langsung pada fitur gambar, model memanfaatkan pengumpulan maksimum pada fitur multi-skala untuk mendapatkan wilayah 3×3, menghasilkan 27 token patch, dengan model memperbarui penyematan teks pada langkah berikutnya.
Skema Pra-Pelatihan
Model YOLO-World mengikuti dua skema pra-pelatihan utama: Pembelajaran dari Kerugian Kontrastif Teks-Wilayah dan Pemberian Label Pseudo dengan Data Gambar-Teks. Untuk skema pra-pelatihan utama, model mengeluarkan prediksi objek bersama dengan anotasi untuk teks dan sampel mosaik yang diberikan. Kerangka kerja YOLO-World mencocokkan prediksi dengan anotasi kebenaran dengan mengikuti dan memanfaatkan tugas label penugasan, dan menugaskan prediksi positif individu dengan indeks teks yang berfungsi sebagai label klasifikasi. Di sisi lain, skema pra-pelatihan Pemberian Label Pseudo dengan Data Gambar-Teks mengusulkan untuk menggunakan pendekatan pelabelan otomatis sebagai gantinya menggunakan pasangan gambar-teks untuk menghasilkan pasangan teks-wilayah. Pendekatan pelabelan yang diusulkan terdiri dari tiga langkah: ekstraksi frasa kata benda, pelabelan pseudo, dan penyaringan. Langkah pertama menggunakan algoritma n-gram untuk mengekstrak frasa kata benda dari teks input, langkah kedua mengadopsi detektor kosakata terbuka pra-pelatihan untuk menghasilkan kotak pseudo untuk frasa kata benda yang diberikan untuk gambar individu, sedangkan langkah ketiga dan terakhir menggunakan kerangka kerja CLIP pra-pelatihan untuk mengevaluasi relevansi pasangan teks-wilayah dan teks-gambar, setelah itu model menyaring gambar dan anotasi pseudo dengan relevansi rendah.
YOLO-World : Hasil
Setelah model YOLO-World telah pra-pelatihan, model dievaluasi langsung pada dataset LVIS dalam pengaturan zero-shot, dengan dataset LVIS yang terdiri dari lebih dari 1200 kategori, jauh lebih banyak daripada dataset pra-pelatihan yang digunakan oleh kerangka kerja yang ada untuk menguji kinerja mereka pada deteksi kosakata besar. Gambar berikut menunjukkan kinerja kerangka kerja YOLO-World dengan beberapa kerangka kerja deteksi objek yang ada pada dataset LVIS dalam pengaturan zero-shot.

Seperti yang dapat dilihat, kerangka kerja YOLO-World outperforms sebagian besar kerangka kerja yang ada dalam hal kecepatan inferensi dan kinerja zero-shot, bahkan dengan kerangka kerja seperti Grounding DINO, GLIP, dan GLIPv2 yang mengintegrasikan lebih banyak data. Secara keseluruhan, hasilnya menunjukkan bahwa model deteksi objek kecil seperti YOLO-World-S dengan hanya 13 juta parameter dapat digunakan untuk pra-pelatihan pada tugas bahasa-penglihatan dengan kemampuan kosakata terbuka yang luar biasa.
Pemikiran Akhir
Dalam artikel ini, kami telah membahas tentang YOLO-World, sebuah pendekatan inovatif yang bertujuan untuk meningkatkan kemampuan kerangka kerja YOLO atau You Only Look Once dengan kemampuan deteksi kosakata terbuka dengan melakukan pra-pelatihan pada dataset skala besar, dan mengimplementasikan pendekatan pemodelan bahasa-penglihatan. Lebih khusus, kerangka kerja YOLO-World mengusulkan untuk mengimplementasikan Jaringan Agregasi Jalur Penglihatan-Bahasa yang Dapat Diparameterkan (RepVL-PAN) bersama dengan kerugian kontrastif teks-wilayah untuk memfasilitasi interaksi antara informasi linguistik dan visual. Dengan mengimplementasikan RepVL-PAN dan kerugian kontrastif teks-wilayah, kerangka kerja YOLO-World dapat mendeteksi objek dengan akurat dalam berbagai kategori dalam pengaturan zero-shot.












