potongan YOLO-World: Deteksi Objek Kosakata Terbuka Waktu Nyata - Unite.AI
Terhubung dengan kami

Kecerdasan Buatan

YOLO-World: Deteksi Objek Kosakata Terbuka Waktu Nyata

mm

Diterbitkan

 on

Deteksi objek telah menjadi tantangan mendasar dalam hal ini visi komputer industri, dengan aplikasi dalam robotika, pemahaman gambar, kendaraan otonom, dan pengenalan gambar. Dalam beberapa tahun terakhir, terobosan dalam bidang AI, khususnya melalui jaringan saraf dalam, telah menghasilkan kemajuan yang signifikan dalam pendeteksian objek. Namun, model ini memiliki kosakata yang tetap, terbatas pada pendeteksian objek dalam 80 kategori kumpulan data COCO. Keterbatasan ini berasal dari proses pelatihan, dimana detektor objek dilatih untuk hanya mengenali kategori tertentu, sehingga membatasi penerapannya.

Untuk mengatasi hal ini, kami memperkenalkan YOLO-World, sebuah pendekatan inovatif yang bertujuan untuk meningkatkan kerangka kerja YOLO (You Only Look Once) dengan kemampuan deteksi kosakata terbuka. Hal ini dicapai dengan melakukan pra-pelatihan kerangka kerja pada kumpulan data berskala besar dan menerapkan pendekatan pemodelan bahasa visi. Secara khusus, YOLO-World menggunakan Jaringan Agregasi Jalur Bahasa-Visi yang Dapat Diparameterisasi Ulang (RepVL-PAN) dan hilangnya kontras teks wilayah untuk mendorong interaksi antara informasi linguistik dan visual. Melalui RepVL-PAN dan hilangnya kontras teks wilayah, YOLO-World dapat secara akurat mendeteksi berbagai objek dalam pengaturan zero-shot, menunjukkan kinerja luar biasa dalam segmentasi kosakata terbuka dan tugas deteksi objek.

Artikel ini bertujuan untuk memberikan pemahaman menyeluruh tentang dasar teknis YOLO-World, arsitektur model, proses pelatihan, dan skenario aplikasi. Mari selami.

YOLO-World: Deteksi Objek Kosakata Terbuka Waktu Nyata

YOLO atau You Only Look Once adalah salah satu metode paling populer untuk pendeteksian objek modern dalam industri visi komputer. Terkenal karena kecepatan dan efisiensinya yang luar biasa, munculnya YOLO Mekanisme ini telah merevolusi cara mesin menafsirkan dan mendeteksi objek tertentu dalam gambar dan video secara real time. Kerangka kerja deteksi objek tradisional menerapkan pendekatan deteksi objek dua langkah: pada langkah pertama, kerangka kerja mengusulkan wilayah yang mungkin berisi objek, dan kerangka kerja mengklasifikasikan objek pada langkah berikutnya. Kerangka kerja YOLO di sisi lain mengintegrasikan dua langkah ini ke dalam model jaringan saraf tunggal, sebuah pendekatan yang memungkinkan kerangka kerja untuk melihat gambar hanya sekali untuk memprediksi objek dan lokasinya di dalam gambar, dan oleh karena itu, dinamakan YOLO atau Anda Hanya Melihat Sekali. 

Lebih jauh lagi, kerangka kerja YOLO memperlakukan deteksi objek sebagai masalah regresi, dan memprediksi probabilitas kelas dan kotak pembatas langsung dari gambar penuh dalam sekali pandang. Penerapan metode ini tidak hanya meningkatkan kecepatan proses deteksi, namun juga meningkatkan kemampuan model untuk menggeneralisasi data yang kompleks dan beragam, menjadikannya pilihan yang cocok untuk aplikasi yang beroperasi secara real-time seperti mengemudi otonom, deteksi kecepatan, atau angka. pengenalan pelat. Selain itu, kemajuan signifikan jaringan saraf dalam dalam beberapa tahun terakhir juga telah memberikan kontribusi yang signifikan dalam pengembangan kerangka deteksi objek, namun keberhasilan kerangka deteksi objek masih terbatas karena hanya mampu mendeteksi objek dengan kosa kata yang terbatas. Hal ini terutama karena setelah kategori objek ditentukan dan diberi label dalam kumpulan data, detektor terlatih dalam kerangka kerja hanya mampu mengenali kategori spesifik ini, sehingga membatasi penerapan dan kemampuan penerapan model deteksi objek dalam skenario real-time dan terbuka. 

Selanjutnya, model bahasa visi yang dikembangkan baru-baru ini menggunakan pengetahuan kosakata yang disaring dari pembuat enkode bahasa untuk mengatasi deteksi kosakata terbuka. Meskipun kerangka kerja ini berkinerja lebih baik dibandingkan model deteksi objek tradisional dalam deteksi kosakata terbuka, penerapannya masih terbatas karena terbatasnya ketersediaan data pelatihan dengan keragaman kosakata yang terbatas. Selain itu, kerangka kerja yang dipilih melatih pendeteksi objek kosakata terbuka dalam skala besar, dan mengategorikan pendeteksi objek pelatihan sebagai pra-pelatihan bahasa penglihatan tingkat wilayah. Namun, pendekatan ini masih kesulitan dalam mendeteksi objek secara real-time karena dua alasan utama: proses penerapan yang rumit untuk perangkat edge, dan persyaratan komputasi yang berat. Sisi positifnya, kerangka kerja ini telah menunjukkan hasil positif dari pra-pelatihan detektor besar untuk mempekerjakan mereka dengan kemampuan pengenalan terbuka. 

Kerangka kerja YOLO-World bertujuan untuk mencapai deteksi objek kosakata terbuka yang sangat efisien, dan mengeksplorasi kemungkinan pendekatan pra-pelatihan skala besar untuk meningkatkan efisiensi detektor YOLO tradisional untuk deteksi objek kosakata terbuka. Bertentangan dengan karya sebelumnya dalam deteksi objek, kerangka kerja YOLO-World menampilkan efisiensi luar biasa dengan kecepatan inferensi tinggi, dan dapat diterapkan pada aplikasi hilir dengan mudah. Model YOLO-World mengikuti arsitektur YOLO tradisional, dan mengkodekan teks masukan dengan memanfaatkan kemampuan encoder teks CLIP yang telah dilatih sebelumnya. Selain itu, kerangka kerja YOLO-World menyertakan komponen Jaringan Agregasi Jalur Bahasa Visi (RepVL-PAN) yang Dapat Diparameterisasi Ulang dalam arsitekturnya untuk menghubungkan fitur gambar dan teks guna meningkatkan representasi visual-semantik. Selama fase inferensi, kerangka kerja menghapus encoder teks, dan membuat parameter ulang penyematan teks menjadi bobot RepVL-PAN, sehingga menghasilkan penerapan yang efisien. Kerangka kerja ini juga mencakup pembelajaran kontrastif teks wilayah dalam kerangkanya untuk mempelajari metode pra-pelatihan kosakata terbuka untuk model YOLO tradisional. Metode pembelajaran kontrastif wilayah-teks menyatukan data gambar-teks, data grounding, dan data deteksi menjadi pasangan teks wilayah. Berdasarkan hal ini, kerangka kerja YOLO-Dunia yang telah dilatih sebelumnya tentang pasangan teks wilayah menunjukkan kemampuan luar biasa untuk deteksi kosakata terbuka dan besar. Selain itu, kerangka kerja YOLO-World juga mengeksplorasi paradigma cepat lalu deteksi dengan tujuan untuk meningkatkan efisiensi deteksi objek kosakata terbuka dalam skenario waktu nyata dan dunia nyata. 

Seperti yang diperlihatkan dalam gambar berikut, pendeteksi objek tradisional berfokus pada deteksi kosakata tetap jarak dekat dengan kategori yang telah ditentukan sebelumnya, sedangkan pendeteksi kosakata terbuka mendeteksi objek dengan menyandikan perintah pengguna dengan pembuat enkode teks untuk kosakata terbuka. Sebagai perbandingan, pendekatan prompt-lalu-deteksi YOLO-World pertama-tama membangun kosakata offline (memvariasikan kosakata untuk berbagai kebutuhan) dengan menyandikan perintah pengguna sehingga detektor dapat menafsirkan kosakata offline secara real-time tanpa harus menyandikan ulang perintah tersebut. 

YOLO-World: Metode dan Arsitektur

Pasangan Wilayah-Teks

Secara tradisional, kerangka deteksi objek termasuk YOLO keluarga pendeteksi objek dilatih menggunakan anotasi instance yang berisi label kategori dan kotak pembatas. Sebaliknya, kerangka YOLO-World merumuskan kembali anotasi contoh sebagai pasangan wilayah-teks di mana teks tersebut dapat berupa deskripsi objek, frasa kata benda, atau nama kategori. Perlu diperhatikan bahwa kerangka YOLO-World mengadopsi teks dan gambar sebagai kotak prediksi masukan dan keluaran dengan penyematan objek yang sesuai. 

Arsitektur Model

Pada intinya, model YOLO-World terdiri dari Text Encoder, detektor YOLO, dan komponen Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN), seperti yang diilustrasikan dalam gambar berikut. 

Untuk teks masukan, komponen encoder teks mengkodekan teks ke dalam penyematan teks diikuti dengan ekstraksi fitur multiskala dari gambar masukan oleh detektor gambar di komponen detektor YOLO. Komponen Jaringan Agregasi Jalur Bahasa Visi yang Dapat Diparameterisasi Ulang (RepVL-PAN) kemudian mengeksploitasi perpaduan lintas modalitas antara teks dan penyematan fitur untuk menyempurnakan representasi teks dan gambar. 

Detektor YOLO

Model YOLO-World dibangun di atas kerangka kerja YOLOv8 yang sudah ada yang berisi komponen tulang punggung Darknet sebagai encoder gambarnya, kepala untuk penyematan objek dan regresi kotak pembatas, dan PAN atau Jaringan Agresi Jalur untuk piramida fitur multi-skala. 

Enkoder Teks

Untuk teks tertentu, model YOLO-World mengekstrak penyematan teks yang sesuai dengan mengadopsi encoder teks CLIP Transformer terlatih dengan sejumlah kata benda dan dimensi penyematan tertentu. Alasan utama mengapa kerangka kerja YOLO-World mengadopsi encoder teks CLIP adalah karena kerangka ini menawarkan kinerja visual-semantik yang lebih baik untuk menghubungkan teks dengan objek visual, secara signifikan mengungguli encoder bahasa tradisional yang hanya berisi teks. Namun, jika teks masukan berupa keterangan atau ekspresi rujukan, model YOLO-World memilih algoritma n-gram yang lebih sederhana untuk mengekstrak frasa. Frasa ini kemudian dimasukkan ke pembuat enkode teks. 

Teks Kepala Kontrasif

Kepala yang dipisahkan adalah komponen yang digunakan oleh model deteksi objek sebelumnya, dan kerangka kerja YOLO-World mengadopsi kepala yang dipisahkan dengan konvolusi ganda 3×3 untuk meregresi penyematan objek dan kotak pembatas untuk sejumlah objek yang tetap. Kerangka kerja YOLO-World menggunakan kepala kontras teks untuk mendapatkan kesamaan objek-teks menggunakan pendekatan normalisasi L2 dan penyematan teks. Selain itu, model YOLO-World juga menggunakan pendekatan transformasi affine dengan faktor pergeseran dan faktor penskalaan yang dapat dipelajari, dengan normalisasi L2 dan transformasi affine meningkatkan stabilitas model selama pelatihan teks wilayah. 

Pelatihan Kosakata Online

Selama fase pelatihan, model YOLO-World membuat kosakata online untuk setiap sampel mosaik yang masing-masing terdiri dari 4 gambar. Model ini mengambil sampel semua kata benda positif yang disertakan dalam gambar mosaik, dan mengambil sampel beberapa kata benda negatif secara acak dari kumpulan data yang sesuai. Kosakata untuk setiap sampel terdiri atas maksimal n kata benda, dengan nilai default 80. 

Inferensi Kosakata Offline

Selama inferensi, model YOLO-World menyajikan strategi cepat lalu deteksi dengan kosakata offline untuk lebih meningkatkan efisiensi model. Pengguna pertama-tama menentukan serangkaian perintah khusus yang mungkin menyertakan kategori atau bahkan keterangan. Model YOLO-World kemudian memperoleh penyematan kosakata offline dengan memanfaatkan encoder teks untuk mengkodekan perintah ini. Hasilnya, kosakata offline untuk inferensi membantu model menghindari penghitungan untuk setiap masukan, dan juga memungkinkan model menyesuaikan kosakata secara fleksibel sesuai dengan kebutuhan. 

Jaringan Agresi Jalur Bahasa Visi yang Dapat Diparameterisasi Ulang (RevVL-PAN)

Gambar berikut mengilustrasikan struktur Jaringan Agresi Jalur Visi-Bahasa yang Dapat Diparameterisasi Ulang yang mengikuti jalur top-down dan bottom-up untuk membentuk piramida fitur dengan gambar fitur multi-skala. 

Untuk meningkatkan interaksi antara fitur teks dan gambar, model YOLO-World mengusulkan Image-Pooling Attention dan CSPLayer yang dipandu teks (Cross-Stage Partial Layers) dengan tujuan akhir untuk meningkatkan representasi visual-semantik untuk kemampuan kosakata terbuka. Selama inferensi, model YOLO-World memparametrikan ulang penyematan kosakata offline ke dalam bobot lapisan linier atau konvolusional untuk penerapan yang efektif. 

Seperti dapat dilihat pada gambar di atas, model YOLO-World memanfaatkan CSPLayer setelah fusi top-down atau bottom-up, dan menggabungkan panduan teks ke dalam fitur gambar multi-skala, membentuk CSPLayer yang Dipandu Teks, sehingga memperluas CSPlayer. Untuk setiap fitur gambar tertentu dan penyematan teks terkait, model ini mengadopsi perhatian max-sigmoid setelah blok hambatan terakhir untuk menggabungkan fitur teks ke dalam fitur gambar. Fitur gambar yang diperbarui kemudian digabungkan dengan fitur lintas tahap, dan disajikan sebagai keluaran. 

 Selanjutnya, model YOLO-World menggabungkan fitur gambar untuk memperbarui penyematan teks dengan memperkenalkan lapisan Image Pooling Attention untuk menyempurnakan penyematan teks dengan informasi sadar gambar. Daripada menggunakan perhatian silang secara langsung pada fitur gambar, model ini memanfaatkan pengumpulan maksimal pada fitur multiskala untuk mendapatkan wilayah 3×3, sehingga menghasilkan 27 token patch dengan model memperbarui penyematan teks pada langkah berikutnya. 

Skema Pra-Pelatihan

Model YOLO-World mengikuti dua skema pra-pelatihan utama: Belajar dari Kerugian Kontrasif Wilayah-Teks dan Pelabelan Semu dengan Data Gambar-Teks. Untuk skema pra-pelatihan utama, model mengeluarkan prediksi objek beserta anotasi untuk teks dan sampel mosaik tertentu. Kerangka kerja YOLO-World mencocokkan prediksi dengan anotasi kebenaran dasar dengan mengikuti dan memanfaatkan penetapan label yang ditetapkan tugas, dan menetapkan prediksi positif individual dengan indeks teks yang berfungsi sebagai label klasifikasi. Di sisi lain, skema pra-pelatihan Pelabelan Semu dengan Data Gambar-Teks mengusulkan untuk menggunakan pendekatan pelabelan otomatis daripada menggunakan pasangan gambar-teks untuk menghasilkan pasangan wilayah-teks. Pendekatan pelabelan yang diusulkan terdiri dari tiga langkah: mengekstrak frasa kata benda, pelabelan semu, dan pemfilteran. Langkah pertama menggunakan algoritme n-gram untuk mengekstrak frasa kata benda dari teks masukan, langkah kedua menggunakan pendeteksi kosakata terbuka yang telah dilatih sebelumnya untuk menghasilkan kotak semu untuk frasa kata benda tertentu untuk gambar individual, sedangkan langkah ketiga dan terakhir menggunakan kerangka kerja CLIP yang telah dilatih sebelumnya untuk mengevaluasi relevansi pasangan wilayah-teks dan teks-gambar, setelah itu model memfilter gambar semu dan anotasi dengan relevansi rendah. 

YOLO-Dunia: Hasil

Setelah model YOLO-World dilatih sebelumnya, model tersebut dievaluasi langsung pada kumpulan data LVIS dalam pengaturan zero-shot, dengan kumpulan data LVIS yang terdiri lebih dari 1200 kategori, jauh lebih banyak daripada kumpulan data pra-pelatihan yang digunakan oleh kerangka kerja yang ada untuk pengujian. kinerja mereka pada deteksi kosakata besar. Gambar berikut menunjukkan performa kerangka kerja YOLO-World dengan beberapa kerangka deteksi objek canggih yang ada pada kumpulan data LVIS dalam pengaturan zero-shot. 

Seperti yang dapat diamati, kerangka kerja YOLO-World mengungguli sebagian besar kerangka kerja yang ada dalam hal kecepatan inferensi, dan kinerja zero-shot, bahkan dengan kerangka kerja seperti Grounding DINO, GLIP, dan GLIPv2 yang menggabungkan lebih banyak data. Secara keseluruhan, hasilnya menunjukkan bahwa model deteksi objek kecil seperti YOLO-World-S dengan hanya 13 juta parameter dapat digunakan untuk pra-pelatihan tugas-tugas bahasa penglihatan dengan kemampuan kosakata terbuka yang luar biasa. 

Final Thoughts

Dalam artikel ini, kita telah membahas tentang YOLO-World, sebuah pendekatan inovatif yang bertujuan untuk meningkatkan kemampuan kerangka kerja YOLO atau You Only Look Once dengan kemampuan deteksi kosakata terbuka dengan melakukan pra-pelatihan kerangka kerja tersebut pada kumpulan data berskala besar, dan mengimplementasikannya. pendekatan pemodelan bahasa visi. Untuk lebih spesifiknya, kerangka kerja YOLO-World mengusulkan untuk menerapkan Jaringan Agregasi Jalur Bahasa Visi yang Dapat Diparameterisasi Ulang atau RepVL-PAN bersama dengan hilangnya kontras teks wilayah untuk memfasilitasi interaksi antara informasi linguistik dan visual. Dengan menerapkan RepVL-PAN dan kerugian kontrastif teks wilayah, kerangka kerja YOLO-World mampu mendeteksi berbagai objek secara akurat dan efektif dalam pengaturan zero-shot.

"Seorang insinyur berdasarkan profesi, seorang penulis dengan hati". Kunal adalah seorang penulis teknis dengan kecintaan mendalam & pemahaman AI dan ML, berdedikasi untuk menyederhanakan konsep kompleks di bidang ini melalui dokumentasinya yang menarik dan informatif.