Kecerdasan buatan

YOLO-Dunia: Deteksi Objek Open-Vocabulary Waktu Nyata

Diterbitkan 15 Maret 2024

Diperbarui 22 Mei 2026

Oleh

Kunal Kejriwal

Deteksi objek telah menjadi tantangan fundamental dalam industri penglihatan komputer, dengan aplikasi dalam robotika, pemahaman gambar, kendaraan otonom, dan pengenalan gambar. Dalam beberapa tahun terakhir, pekerjaan yang sangat berpengaruh dalam AI, terutama melalui jaringan neural dalam, telah secara signifikan memajukan deteksi objek. Namun, model-model ini memiliki kosakata yang tetap, terbatas pada mendeteksi objek dalam 80 kategori dataset COCO. Keterbatasan ini berasal dari proses pelatihan, di mana detektor objek dilatih untuk mengenali hanya kategori tertentu, sehingga membatasi kegunaannya.

Untuk mengatasi hal ini, kami memperkenalkan YOLO-Dunia, sebuah pendekatan inovatif yang bertujuan untuk meningkatkan kemampuan kerangka kerja YOLO (You Only Look Once) dengan kemampuan deteksi objek open-vocabulary. Ini dicapai dengan melatih kerangka kerja pada dataset skala besar dan menerapkan pendekatan pemodelan bahasa-vision. Secara khusus, YOLO-Dunia menggunakan Jaringan Agregasi Jalur Bahasa-Vision yang dapat diparameterkan (RepVL-PAN) dan kerugian kontrastif teks-wilayah untuk memfasilitasi interaksi antara informasi linguistik dan visual. Melalui RepVL-PAN dan kerugian kontrastif teks-wilayah, YOLO-Dunia dapat mendeteksi objek dengan akurasi dan efektif dalam pengaturan zero-shot, menunjukkan kinerja yang luar biasa dalam tugas segmentasi dan deteksi objek open-vocabulary.

Artikel ini bertujuan untuk memberikan pemahaman yang menyeluruh tentang fondasi teknis YOLO-Dunia, arsitektur model, proses pelatihan, dan skenario aplikasi. Mari kita mulai.

YOLO-Dunia: Deteksi Objek Open-Vocabulary Waktu Nyata

YOLO atau You Only Look Once adalah salah satu metode deteksi objek paling populer dalam industri penglihatan komputer modern. Terkenal karena kecepatan dan efisiensinya yang luar biasa, kemunculan mekanisme YOLO telah merevolusi cara mesin menafsirkan dan mendeteksi objek tertentu dalam gambar dan video secara waktu nyata. Kerangka kerja deteksi objek tradisional menerapkan pendekatan deteksi objek dua langkah: dalam langkah pertama, kerangka kerja mengusulkan wilayah yang mungkin berisi objek, dan kerangka kerja mengklasifikasikan objek dalam langkah berikutnya. Kerangka kerja YOLO, di sisi lain, mengintegrasikan dua langkah ini menjadi satu model jaringan neural, sebuah pendekatan yang memungkinkan kerangka kerja untuk melihat gambar hanya sekali untuk memprediksi objek dan lokasinya dalam gambar, dan oleh karena itu, namanya YOLO atau You Only Look Once.

Selanjutnya, kerangka kerja YOLO mengobati deteksi objek sebagai masalah regresi, dan memprediksi kemungkinan kelas dan kotak pembatas langsung dari gambar penuh dalam satu pandangan. Implementasi metode ini tidak hanya meningkatkan kecepatan proses deteksi, tetapi juga meningkatkan kemampuan model untuk menggeneralisasi dari data yang kompleks dan beragam, membuatnya menjadi pilihan yang tepat untuk aplikasi yang beroperasi secara waktu nyata seperti pengemudi otonom, deteksi kecepatan, atau pengenalan pelat nomor. Selain itu, kemajuan yang signifikan dalam jaringan neural dalam beberapa tahun terakhir juga telah berkontribusi secara signifikan dalam pengembangan kerangka kerja deteksi objek, tetapi kesuksesan kerangka kerja deteksi objek masih terbatas karena mereka hanya dapat mendeteksi objek dengan kosakata yang terbatas. Ini terutama karena setelah kategori objek didefinisikan dan diberi label dalam dataset, detektor yang dilatih dalam kerangka kerja hanya dapat mengenali kategori tertentu, sehingga membatasi kegunaan dan kemampuan mengirimkan model deteksi objek dalam skenario waktu nyata dan terbuka.

Melanjutkan, model bahasa-vision yang baru-baru ini dikembangkan menggunakan pengetahuan kosakata yang diperoleh dari pengkode bahasa untuk menangani deteksi open-vocabulary. Meskipun kerangka kerja ini performa lebih baik daripada model deteksi objek tradisional dalam deteksi open-vocabulary, mereka masih memiliki keterbatasan karena ketersediaan data pelatihan yang terbatas dengan keragaman kosakata yang terbatas. Selain itu, kerangka kerja yang dipilih melatih detektor objek open-vocabulary skala besar, dan mengategorikan detektor objek pelatihan sebagai prapengajaran bahasa-vision tingkat wilayah. Namun, pendekatan ini masih mengalami kesulitan dalam mendeteksi objek secara waktu nyata karena dua alasan utama: proses pengiriman yang kompleks untuk perangkat tepi, dan persyaratan komputasi yang berat. Di sisi positif, kerangka kerja ini telah menunjukkan hasil yang positif dari prapengajaran detektor besar untuk menggunakan kemampuan pengenalan terbuka.

Kerangka kerja YOLO-Dunia bertujuan untuk mencapai deteksi objek open-vocabulary yang sangat efisien, dan menjelajahi kemungkinan pendekatan prapengajaran skala besar untuk meningkatkan efisiensi detektor YOLO tradisional untuk deteksi objek open-vocabulary. Berbeda dengan karya sebelumnya dalam deteksi objek, kerangka kerja YOLO-Dunia menunjukkan efisiensi yang luar biasa dengan kecepatan inferensi yang tinggi, dan dapat diimplementasikan pada aplikasi hilir dengan mudah. Model YOLO-Dunia mengikuti arsitektur YOLO tradisional, dan mengkodekan teks input dengan menggunakan kemampuan pengkode teks CLIP yang telah dilatih sebelumnya. Selain itu, kerangka kerja YOLO-Dunia juga mencakup komponen Jaringan Agregasi Jalur Bahasa-Vision yang dapat diparameterkan (RepVL-PAN) dalam arsitektur untuk menghubungkan fitur gambar dan teks untuk meningkatkan representasi visual-semantik. Selama fase inferensi, kerangka kerja menghilangkan pengkode teks, dan memparamaterkan kembali pengkodean teks menjadi bobot RepVL-PAN, menghasilkan pengiriman yang efisien. Kerangka kerja ini juga mencakup pembelajaran kontrastif teks-wilayah dalam kerangka kerja untuk mempelajari metode prapengajaran open-vocabulary untuk model YOLO tradisional. Metode pembelajaran kontrastif teks-wilayah ini menggabungkan data gambar-teks, data penempatan, dan data deteksi menjadi pasangan teks-wilayah. Berdasarkan hal ini, kerangka kerja YOLO-Dunia yang telah dilatih sebelumnya pada pasangan teks-wilayah menunjukkan kemampuan yang luar biasa untuk deteksi open-vocabulary dan besar. Selain itu, kerangka kerja YOLO-Dunia juga menjelajahi paradigma prompt-then-detect dengan tujuan untuk meningkatkan efisiensi deteksi objek open-vocabulary dalam skenario waktu nyata dan dunia nyata.

Seperti yang ditunjukkan dalam gambar berikut, detektor objek tradisional fokus pada himpunan tertutup dari deteksi kosakata tetap dengan kategori yang telah ditentukan, sedangkan detektor open-vocabulary mendeteksi objek dengan mengkodekan prompt pengguna dengan pengkode teks untuk kosakata terbuka. Dalam perbandingan, pendekatan prompt-then-detect YOLO-Dunia pertama-tama membangun kosakata offline (kosakata yang bervariasi untuk kebutuhan yang bervariasi) dengan mengkodekan prompt pengguna, memungkinkan detektor untuk menafsirkan kosakata offline dalam waktu nyata tanpa harus mengkode ulang prompt.

YOLO-Dunia : Metode dan Arsitektur

Pasangan Teks-Wilayah

Secara tradisional, kerangka kerja deteksi objek, termasuk keluarga detektor objek YOLO, dilatih menggunakan anotasi instance yang berisi label kategori dan kotak pembatas. Sebaliknya, kerangka kerja YOLO-Dunia merumuskan kembali anotasi instance sebagai pasangan teks-wilayah di mana teks dapat menjadi deskripsi objek, frasa noun, atau nama kategori. Ini patut disebutkan bahwa kerangka kerja YOLO-Dunia mengadopsi baik teks dan gambar sebagai input dan output prediksi kotak dengan pengkodean objek yang sesuai.

Arsitektur Model

Pada intinya, model YOLO-Dunia terdiri dari Pengkode Teks, detektor YOLO, dan komponen Jaringan Agregasi Jalur Bahasa-Vision yang dapat diparameterkan (RepVL-PAN), seperti yang ditunjukkan dalam gambar berikut.

Untuk teks input, komponen pengkode teks mengkodekan teks menjadi pengkodean teks, diikuti oleh ekstraksi fitur multi-skala dari gambar input oleh detektor gambar dalam komponen detektor YOLO. Komponen Jaringan Agregasi Jalur Bahasa-Vision yang dapat diparameterkan (RepVL-PAN) kemudian mengeksploitasi fusi cross-modality antara pengkodean teks dan fitur untuk meningkatkan representasi teks dan gambar.

Detektor YOLO

Model YOLO-Dunia dibangun di atas kerangka kerja YOLOv8 yang ada, yang berisi komponen backbone Darknet, kepala untuk pengkodean objek dan regresi kotak pembatas, dan jaringan Path Aggression (PAN) untuk piramida fitur multi-skala.

Pengkode Teks

Untuk teks yang diberikan, model YOLO-Dunia mengekstrak pengkodean teks yang sesuai dengan mengadopsi pengkode teks Transformer CLIP yang telah dilatih sebelumnya dengan jumlah noun dan dimensi pengkodean tertentu. Alasan utama mengapa kerangka kerja YOLO-Dunia mengadopsi pengkode teks CLIP adalah karena menawarkan kinerja visual-semantik yang lebih baik untuk menghubungkan teks dengan objek visual, secara signifikan mengungguli pengkode bahasa tradisional hanya teks. Namun, jika teks input adalah caption atau ekspresi referensi, model YOLO-Dunia memilih algoritma n-gram yang lebih sederhana untuk mengekstrak frasa. Frasa ini kemudian diberikan kepada pengkode teks.

Kepala Kontrastif Teks

Kepala terpisah adalah komponen yang digunakan oleh model deteksi objek sebelumnya, dan kerangka kerja YOLO-Dunia mengadopsi kepala terpisah dengan konvolusi ganda 3×3 untuk mengregresi pengkodean objek dan kotak pembatas untuk jumlah objek yang tetap. Kerangka kerja YOLO-Dunia menggunakan kepala kontrastif teks untuk mendapatkan kesamaan objek-teks menggunakan pendekatan normalisasi L2 dan pengkodean teks. Selain itu, model YOLO-Dunia juga mengadopsi pendekatan transformasi afinitas dengan faktor pergeseran dan faktor skala yang dapat dipelajari, dengan normalisasi L2 dan transformasi afinitas yang meningkatkan stabilitas model selama pelatihan teks-wilayah.

Pelatihan Kosakata Online

Selama fase pelatihan, model YOLO-Dunia membangun kosakata online untuk setiap sampel mosaik yang terdiri dari 4 gambar. Model ini menyampel semua noun positif yang termasuk dalam gambar mosaik, dan menyampel beberapa noun negatif secara acak dari dataset yang sesuai. Kosakata untuk setiap sampel terdiri dari maksimal n noun, dengan nilai default 80.

Pelatihan Kosakata Offline

Selama fase inferensi, model YOLO-Dunia mempresentasikan strategi prompt-then-detect dengan kosakata offline untuk lebih meningkatkan efisiensi model. Pengguna pertama-tama mendefinisikan serangkaian prompt kustom yang mungkin termasuk kategori atau bahkan caption. Model YOLO-Dunia kemudian mendapatkan pengkodean kosakata offline dengan menggunakan pengkode teks untuk mengkodekan prompt. Sebagai hasilnya, kosakata offline untuk inferensi membantu model menghindari perhitungan untuk setiap input, dan juga memungkinkan model untuk menyesuaikan kosakata dengan fleksibel sesuai dengan kebutuhan.

Jaringan Agregasi Jalur Bahasa-Vision yang dapat diparameterkan (RevVL-PAN)

Gambar berikut mengilustrasikan struktur Jaringan Agregasi Jalur Bahasa-Vision yang dapat diparameterkan yang diusulkan, yang mengikuti jalur atas-bawah dan bawah-atas untuk membangun piramida fitur dengan gambar fitur multi-skala.

Untuk meningkatkan interaksi antara teks dan fitur gambar, model YOLO-Dunia mengusulkan Perhatian Pengumpulan Gambar dan lapisan CSPLayer yang dipandu teks dengan tujuan akhir untuk meningkatkan representasi visual-semantik untuk kemampuan kosakata terbuka. Selama fase inferensi, model YOLO-Dunia memparamaterkan kembali pengkodean kosakata offline menjadi bobot lapisan linear atau konvolusional untuk pengiriman yang efektif.

Seperti yang dapat dilihat dalam gambar di atas, model YOLO-Dunia menggunakan lapisan CSPLayer setelah fusi atas-bawah atau bawah-atas, dan menggabungkan bimbingan teks ke dalam fitur gambar multi-skala, membentuk lapisan CSPLayer yang dipandu teks, sehingga memperluas lapisan CSPLayer. Untuk setiap fitur gambar dan pengkodean teks yang sesuai, model mengadopsi perhatian sigmoid-maks setelah blok bottleneck terakhir untuk menggabungkan fitur teks ke dalam fitur gambar. Fitur gambar yang diperbarui kemudian dikonkatenasikan dengan fitur antar-tahap, dan disajikan sebagai output.

Melanjutkan, model YOLO-Dunia menggabungkan fitur gambar untuk memperbarui pengkodean teks dengan memperkenalkan lapisan Perhatian Pengumpulan Gambar untuk meningkatkan pengkodean teks dengan informasi yang sadar akan gambar. Sebagai gantinya menggunakan perhatian silang langsung pada fitur gambar, model menggunakan pengumpulan maksimum pada fitur multi-skala untuk mendapatkan wilayah 3×3, menghasilkan 27 token patch dengan model memperbarui pengkodean teks pada langkah berikutnya.

Skema Prapengajaran

Model YOLO-Dunia mengikuti dua skema prapengajaran utama: Pembelajaran dari Kerugian Kontrastif Teks-Wilayah dan Pemberian Label Pseudo dengan Data Gambar-Teks. Untuk skema prapengajaran utama, model mengeluarkan prediksi objek bersama dengan anotasi untuk teks dan sampel mosaik yang diberikan. Kerangka kerja YOLO-Dunia mencocokkan prediksi dengan anotasi ground truth dengan mengikuti dan memanfaatkan penugasan label tugas, dan menugaskan prediksi positif individu dengan indeks teks yang berfungsi sebagai label klasifikasi. Di sisi lain, skema prapengajaran Pemberian Label Pseudo dengan Data Gambar-Teks mengusulkan untuk menggunakan pendekatan pelabelan otomatis sebagai gantinya menggunakan pasangan gambar-teks untuk menghasilkan pasangan teks-wilayah. Pendekatan pelabelan yang diusulkan terdiri dari tiga langkah: ekstraksi frasa noun, pelabelan pseudo, dan penyaringan. Langkah pertama menggunakan algoritma n-gram untuk mengekstrak frasa noun dari teks input, langkah kedua mengadopsi detektor kosakata terbuka yang telah dilatih sebelumnya untuk menghasilkan kotak pseudo untuk frasa noun yang diberikan untuk gambar individu, sedangkan langkah ketiga dan terakhir menggunakan kerangka kerja CLIP yang telah dilatih sebelumnya untuk mengevaluasi relevansi pasangan teks-wilayah dan teks-gambar, setelah itu model menyaring gambar dan anotasi dengan relevansi yang rendah.

YOLO-Dunia : Hasil

Setelah model YOLO-Dunia dilatih sebelumnya, model dievaluasi langsung pada dataset LVIS dalam pengaturan zero-shot, dengan dataset LVIS yang terdiri dari lebih dari 1200 kategori, jauh lebih banyak daripada dataset prapengajaran yang digunakan oleh kerangka kerja yang ada untuk menguji kinerja mereka dalam deteksi kosakata besar. Gambar berikut menunjukkan kinerja kerangka kerja YOLO-Dunia dengan beberapa kerangka kerja deteksi objek yang ada pada dataset LVIS dalam pengaturan zero-shot.

Seperti yang dapat dilihat, kerangka kerja YOLO-Dunia mengungguli sebagian besar kerangka kerja yang ada dalam hal kecepatan inferensi dan kinerja zero-shot, bahkan dengan kerangka kerja seperti Grounding DINO, GLIP, dan GLIPv2 yang menggabungkan lebih banyak data. Secara keseluruhan, hasilnya menunjukkan bahwa model deteksi objek kecil seperti YOLO-Dunia-S dengan hanya 13 juta parameter dapat digunakan untuk prapengajaran pada tugas bahasa-vision dengan kemampuan kosakata terbuka yang luar biasa.

Pemikiran Akhir

Dalam artikel ini, kami telah membahas tentang YOLO-Dunia, sebuah pendekatan inovatif yang bertujuan untuk meningkatkan kemampuan kerangka kerja YOLO dengan kemampuan deteksi objek kosakata terbuka dengan melatih kerangka kerja pada dataset skala besar dan menerapkan pendekatan pemodelan bahasa-vision. Secara khusus, kerangka kerja YOLO-Dunia mengusulkan untuk mengimplementasikan Jaringan Agregasi Jalur Bahasa-Vision yang dapat diparameterkan (RepVL-PAN) bersama dengan kerugian kontrastif teks-wilayah untuk memfasilitasi interaksi antara informasi linguistik dan visual. Dengan mengimplementasikan RepVL-PAN dan kerugian kontrastif teks-wilayah, kerangka kerja YOLO-Dunia dapat mendeteksi objek dengan akurasi dan efektif dalam pengaturan zero-shot, menunjukkan kinerja yang luar biasa dalam tugas segmentasi dan deteksi objek kosakata terbuka.

Kunal Kejriwal

Seorang insinyur oleh profesi, seorang penulis oleh hati. Kunal adalah seorang penulis teknis dengan cinta yang mendalam & pemahaman tentang AI dan ML, yang didedikasikan untuk menyederhanakan konsep-konsep kompleks dalam bidang ini melalui dokumentasi yang menarik dan informatif.