Kecerdasan buatan
MambaOut: Apakah Kita Benar-Benar Membutuhkan Mamba untuk Visi?
Dalam kerangka pembelajaran mesin dan kecerdasan buatan modern, transformer adalah salah satu komponen yang paling banyak digunakan di berbagai domain termasuk seri GPT, dan BERT dalam Pemrosesan Bahasa Alami, dan Vision Transformer dalam tugas penglihatan komputer. Meskipun memasukkan transformer dalam arsitektur model memberikan dorongan signifikan pada kinerja model, modul perhatian dalam Transformer berskala dengan panjang urutan kuadrat, menyebabkan tantangan komputasi yang tinggi. Selama beberapa tahun, berbagai model telah mengeksplorasi strategi yang berbeda untuk menangani tantangan komputasi termasuk metode seperti kernelisasi, kompresi memori sejarah, batasan jangkauan pencampuran token, dan pendekatan peringkat rendah. Baru-baru ini, Jaringan Saraf Rekuren seperti metode termasuk Mamba dan RWKV telah mengumpulkan perhatian yang signifikan karena hasilnya yang menjanjikan dalam model bahasa besar.
Mamba, sebuah keluarga model memiliki arsitektur dengan token mixer Jaringan Saraf Rekuren seperti model ruang keadaan yang baru-baru ini diperkenalkan untuk menangani kompleksitas kuadrat dari mekanisme perhatian dan diterapkan pada tugas visi selanjutnya. Peneliti telah mengeksplorasi cara untuk memasukkan Mamba dan SSM atau Model Ruang Keadaan ke dalam tugas pengenalan visi, dan Vision Mamba yang memasukkan Mamba untuk mengembangkan model visi isotropik serupa dengan Vision Transformer adalah contoh yang baik dari hal ini. Di sisi lain, LocalMamba memasukkan bias induktif lokal untuk meningkatkan model visi Mamba, dan kerangka VMamba menggunakan model Mamba dasar untuk membangun model hierarkis serupa dengan ResNet dan AlexNet. Namun, apakah kerangka Mamba benar-benar penting untuk tugas konteks visi? Pertanyaan ini muncul karena kinerja keluarga model Mamba untuk tugas visi telah mengecewakan sampai sekarang dibandingkan dengan model perhatian tradisional dan konvolusional.
MambaOut mencoba menjawab apakah Mamba ideal untuk tugas dengan karakteristik autoregresif dan urutan panjang. Kerangka MambaOut menghipotesiskan bahwa Mamba tidak perlu untuk tugas visi karena klasifikasi gambar tidak sesuai dengan karakteristik autoregresif atau urutan panjang. Meskipun tugas segmentasi dan deteksi tidak autoregresif, mereka menampilkan karakteristik urutan panjang, menyebabkan kerangka MambaOut menghipotesiskan potensi Mamba untuk tugas-tugas tersebut. Kerangka MambaOut dibangun dengan menumpuk blok Mamba di atas satu sama lain sambil menghapus model ruang keadaan, token mixernya yang inti. Hasil eksperimental mendukung hipotesis yang diajukan oleh kerangka MambaOut karena mampu mengungguli semua model visi Mamba pada kerangka klasifikasi gambar ImageNet, menunjukkan bahwa Mamba tidak perlu untuk tugas visi. Di sisi lain untuk tugas deteksi dan segmentasi, kerangka MambaOut tidak dapat mereplikasi kinerja yang ditawarkan oleh model Mamba canggih, menunjukkan potensi keluarga model Mamba untuk tugas visi urutan panjang.
Artikel ini bertujuan untuk membahas kerangka MambaOut secara mendalam, dan kami mengeksplorasi mekanisme, metode, arsitektur kerangka bersama dengan perbandingannya dengan kerangka canggih. Jadi mari kita mulai.
MambaOut: Apakah Mamba Benar-Benar Dibutuhkan untuk Visi?
Dengan kemajuan aplikasi dan kemampuan pembelajaran mesin, Transformer telah muncul sebagai backbone utama untuk berbagai tugas, memungkinkan model-model terkemuka termasuk Vision Transformers, seri model GPT, BERT, dan beberapa lainnya. Namun, token mixer transformer mengalami kompleksitas kuadrat terhadap panjang urutan, dan menimbulkan tantangan komputasi yang signifikan. Untuk menangani masalah ini, berbagai token mixer dengan kompleksitas linier terhadap panjang token seperti Linformer, Longformer, Performer, Dynamic Convolution, dan Big Bird telah diperkenalkan. Namun, baru-baru ini, model seperti Jaringan Saraf Rekuren telah mendapatkan perhatian karena kemampuan pelatihan paralel dan kinerja efisien pada urutan panjang. Dipandu oleh kinerja luar biasa dari model seperti Jaringan Saraf Rekuren, peneliti mencoba memperkenalkan dan menggunakan keluarga model Mamba ke dalam tugas pengenalan visi karena token mixer model Mamba adalah model ruang keadaan terstruktur di bawah semangat Jaringan Saraf Rekuren. Namun, hasil eksperimental menunjukkan bahwa kerangka berbasis model ruang keadaan untuk visi performa underwhelming di berbagai tugas visi nyata dibandingkan dengan model perhatian dan konvolusional canggih.
MambaOut adalah upaya untuk menyelidiki sifat keluarga model Mamba, dan merangkum bahwa Mamba cocok untuk tugas yang autoregresif atau urutan panjang karena model ruang keadaan memiliki mekanisme Jaringan Saraf Rekuren bawaan. Namun, sebagian besar tugas visi tidak menampilkan karakteristik autoregresif atau urutan panjang, dan berdasarkan beberapa eksperimen, MambaOut mengajukan dua hipotesis. Pertama, model ruang keadaan tidak perlu untuk klasifikasi gambar karena tugas klasifikasi gambar tidak sesuai dengan karakteristik autoregresif atau urutan panjang. Kedua, model ruang keadaan mungkin bermanfaat untuk tugas segmentasi instance dan segmentasi semantik serta deteksi objek, karena mereka menampilkan karakteristik urutan panjang meskipun tidak autoregresif. Hasil eksperimental yang dilakukan untuk menganalisis mekanisme seperti Jaringan Saraf Rekuren dari model ruang keadaan menyimpulkan bahwa kerangka Mamba cocok untuk tugas dengan karakteristik autoregresif atau urutan panjang, dan tidak perlu untuk tugas klasifikasi gambar. Mengenai kerangka MambaOut itu sendiri, itu adalah serangkaian model Mamba berdasarkan blok Jaringan Saraf Konvolusional Terkunci tanpa model ruang keadaan, dan hasil eksperimental menunjukkan bahwa kerangka MambaOut mampu mengungguli model Mamba visual dalam tugas klasifikasi gambar, tetapi gagal mereplikasi kinerja pada tugas deteksi dan segmentasi gambar.
Untuk Tugas Apa Mamba Cocok?
Token mixer kerangka Mamba adalah model ruang keadaan selektif yang mendefinisikan empat parameter yang bergantung pada input. Sifat rekuren dari kerangka ini membedakan model ruang keadaan seperti Jaringan Saraf Rekuren dari perhatian kausal. Keadaan tersembunyi dapat dilihat sebagai memori ukuran tetap yang menyimpan informasi historis. Ukuran tetap berarti bahwa memori ini lossy, tetapi juga memastikan bahwa kompleksitas komputasi untuk mengintegrasikan memori dengan input saat ini tetap konstan. Sebaliknya, lapisan perhatian kausal menyimpan semua kunci dan nilai dari token sebelumnya, dan memperluas dengan menambahkan kunci dan nilai token saat ini dengan setiap input baru, dan memori ini lossless, secara teoretis. Namun, ukuran memori tumbuh seiring dengan penambahan token, meningkatkan kompleksitas integrasi memori dengan input saat ini. Perbedaan antara mekanisme memori antara perhatian kausal dan model seperti Jaringan Saraf Rekuren diilustrasikan pada gambar berikut.

Karena memori model ruang keadaan secara inheren lossy, itu tidak mencapai memori lossless dari perhatian kausal, dan sebagai hasilnya, model Mamba tidak dapat menunjukkan kekuatannya dalam menangani urutan pendek, area di mana mekanisme perhatian kausal berperforma baik dengan mudah. Namun, dalam skenario yang melibatkan urutan panjang, pendekatan perhatian kausal gagal karena kompleksitas kuadrat. Dalam skenario ini, kerangka Mamba menunjukkan efisiensinya dalam menggabungkan memori dengan input saat ini, dan mampu menangani urutan panjang dengan lancar, menunjukkan bahwa keluarga model Mamba cocok untuk memproses urutan panjang.
Juga perlu diperhatikan bahwa di satu sisi di mana sifat rekuren dari model ruang keadaan memungkinkan model Mamba untuk menangani urutan panjang dengan efisien, itu memperkenalkan batasan tertentu karena hanya dapat mengakses informasi dari waktu sebelumnya dan saat ini, dan jenis pencampuran token ini disebut mode kausal, dan diilustrasikan pada gambar berikut. Karena sifat kausannya, metode ini cocok untuk tugas generasi autoregresif.

Mode fully-visible cocok untuk tugas pemahaman di mana model dapat mengakses semua input sekaligus. Selain itu, perhatian secara default berada dalam mode fully-visible, dan dapat diubah menjadi mode kausal dengan mudah dengan menerapkan masker kausal pada peta perhatian, dan model seperti Jaringan Saraf Rekuren secara inheren beroperasi dalam mode kausal karena sifat rekurensinya. Untuk merangkum, kerangka Mamba cocok untuk tugas yang melibatkan pemrosesan urutan panjang, atau tugas yang memerlukan mode pencampuran token kausal.
Tugas Pengenalan Visi, Kode Pencampuran Token Kausal, dan Urutan Sangat Panjang
Seperti yang dibahas sebelumnya, mode pencampuran token fully-visible memungkinkan jangkauan pencampuran tidak terbatas sedangkan mode kausal membatasi token saat ini untuk hanya mengakses informasi dari token sebelumnya. Selain itu, pengenalan visi dikategorikan sebagai tugas pemahaman di mana model dapat melihat gambar secara keseluruhan sekaligus, dan ini menghilangkan kebutuhan akan pembatasan pada pencampuran token, dan menerapkan pembatasan tambahan pada pencampuran token dapat merusak kinerja model secara potensial. Secara umum, mode fully-visible cocok untuk tugas pemahaman sedangkan mode kausal lebih cocok untuk tugas autoregresif. Selain itu, klaim ini didukung oleh fakta bahwa model BeRT dan ViT lebih banyak digunakan untuk tugas pemahaman daripada model GPT.
Verifikasi Eksperimental dan Hasil
Langkah selanjutnya adalah memverifikasi hipotesis yang diajukan oleh kerangka MambaOut secara eksperimental. Seperti yang ditunjukkan pada gambar berikut, blok Mamba didasarkan pada blok Jaringan Saraf Konvolusional Terkunci, dan meta-arsitektur blok Mamba dan Gated CNN dapat dianggap sebagai integrasi sederhana dari token mixer kerangka MetaFormer dan sebuah MLP.

Blok Mamba memperluas Jaringan Saraf Konvolusional Terkunci dengan model ruang keadaan tambahan, dan kehadiran model ruang keadaan adalah yang membedakan blok Gated CNN dan blok Mamba. Selain itu, untuk meningkatkan kecepatan praktis, kerangka MambaOut hanya melakukan konvolusi depthwise pada saluran sebagian, dan seperti yang ditunjukkan pada algoritma berikut, implementasi blok Gated CNN sederhana, efektif, dan elegan.

Tugas Klasifikasi Gambar
ImageNet berfungsi sebagai benchmark untuk tugas klasifikasi gambar karena terdiri dari lebih dari seribu kelas umum, lebih dari 1,3 juta gambar pelatihan, dan lebih dari 50.000 gambar validasi. Augmentasi data yang digunakan untuk eksperimen ini terdiri dari crop ukuran acak, Mixup, jitter warna, Penghapusan Acak, CutMix, dan Rand Augment. Tabel berikut merangkum kinerja keluarga model Mamba, model MambaOut, dan model perhatian serta konvolusional lainnya pada dataset ImageNet. Seperti yang terlihat, kerangka MambaOut tanpa model ruang keadaan konsisten mengungguli model visi Mamba dengan SSM di semua ukuran model.

Misalnya, model MambaOut-Small mengembalikan skor akurasi top-1 lebih dari 84%, 0,4% lebih tinggi dari pesaing Mamba terdekat. Hasil ini sangat mendukung hipotesis pertama yang menyatakan bahwa memperkenalkan model ruang keadaan untuk tugas klasifikasi gambar tidak diperlukan.
Tugas Deteksi Objek dan Segmentasi Instance
COCO berfungsi sebagai benchmark untuk tugas deteksi objek dan segmentasi instance. Meskipun kerangka MambaOut mampu mengungguli kinerja beberapa model visi Mamba, masih kalah dengan model visi Mamba canggih termasuk LocalVMamba dan VMamba. Perbedaan kinerja antara MambaOut dan model visi canggih menekankan pada manfaat dari integrasi keluarga model Mamba dalam tugas visi urutan panjang. Namun, perlu diperhatikan bahwa masih ada celah kinerja yang signifikan antara model hibrida konvolusional-perhatian canggih dan model visi Mamba.

Pemikiran Akhir
Keluarga model Mamba tampaknya cocok untuk tugas yang melibatkan karakteristik autoregresif dan urutan panjang. Kerangka MambaOut menghipotesiskan bahwa Mamba tidak perlu untuk tugas visi karena klasifikasi gambar tidak sesuai dengan karakteristik autoregresif atau urutan panjang. Meskipun tugas segmentasi dan deteksi tidak autoregresif, mereka menampilkan karakteristik urutan panjang, menyebabkan kerangka MambaOut menghipotesiskan potensi Mamba untuk tugas-tugas tersebut. Kerangka MambaOut dibangun dengan menumpuk blok Mamba di atas satu sama lain sambil menghapus model ruang keadaan, token mixernya yang inti. Hasil eksperimental mendukung hipotesis yang diajukan oleh kerangka MambaOut karena mampu mengungguli semua model visi Mamba pada kerangka klasifikasi gambar ImageNet, menunjukkan bahwa Mamba tidak perlu untuk tugas visi. Di sisi lain untuk tugas deteksi dan segmentasi, kerangka MambaOut tidak dapat mereplikasi kinerja yang ditawarkan oleh model Mamba canggih, menunjukkan potensi keluarga model Mamba untuk tugas visi urutan panjang.




