Kecerdasan buatan
MambaOut: Apakah Mamba Benar-Benar Dibutuhkan untuk Visi?
Dalam kerangka pembelajaran mesin dan kecerdasan buatan modern, transformer adalah salah satu komponen yang paling banyak digunakan di berbagai domain, termasuk seri GPT, BERT dalam Pemrosesan Bahasa Alami, dan Vision Transformer dalam tugas visi komputer. Meskipun memasukkan transformer ke dalam arsitektur model memberikan dorongan signifikan pada kinerja model, modul perhatian dalam Transformer berskala dengan panjang urutan kuadrat, menyebabkan tantangan komputasi yang tinggi. Selama beberapa tahun, berbagai model telah menjelajahi strategi yang berbeda untuk mengatasi tantangan komputasi, termasuk metode seperti kernelisasi, kompresi memori sejarah, pembatasan jangkauan pencampuran token, dan pendekatan peringkat rendah. Baru-baru ini, Jaringan Saraf Rekuren seperti metode termasuk Mamba dan RWKV telah mengumpulkan perhatian signifikan karena hasilnya yang menjanjikan dalam model bahasa besar.
Mamba, sebuah keluarga model memiliki arsitektur dengan pencampuran token Jaringan Saraf Rekuren seperti model ruang keadaan yang baru-baru ini diperkenalkan untuk menangani kompleksitas kuadrat dari mekanisme perhatian dan diterapkan pada tugas visi selanjutnya. Peneliti telah menjelajahi cara untuk memasukkan Mamba dan SSM atau Model Ruang Keadaan ke dalam tugas pengenalan visual, dan Vision Mamba yang memasukkan Mamba untuk mengembangkan model visi isotropik serupa dengan Vision Transformer adalah contoh yang baik dari hal ini. Di sisi lain, LocalMamba memasukkan bias induktif lokal untuk meningkatkan model visi Mamba, dan kerangka VMamba menggunakan model Mamba dasar untuk membangun model hierarkis serupa dengan ResNet dan AlexNet. Namun, apakah kerangka Mamba benar-benar penting untuk tugas konteks pengenalan visual? Pertanyaan ini muncul karena kinerja keluarga model Mamba untuk tugas visi telah mengecewakan sampai sekarang dibandingkan dengan model perhatian dan konvolusi tradisional.
MambaOut mencoba menjawab apakah Mamba ideal untuk tugas dengan karakteristik autoregresif dan urutan panjang. Kerangka MambaOut menghipotesiskan bahwa Mamba tidak perlu untuk tugas visi karena klasifikasi gambar tidak sesuai dengan karakteristik autoregresif atau urutan panjang. Meskipun tugas segmentasi dan deteksi juga tidak autoregresif, mereka menampilkan karakteristik urutan panjang, menyebabkan kerangka MambaOut menghipotesiskan potensi Mamba untuk tugas-tugas tersebut. Kerangka MambaOut dibangun dengan menumpuk blok Mamba satu sama lain sambil menghapus model ruang keadaan, pencampur token intinya. Hasil eksperimental mendukung hipotesis yang diajukan oleh kerangka MambaOut karena mampu mengungguli semua model visi Mamba pada kerangka klasifikasi gambar ImageNet, menunjukkan bahwa Mamba tidak perlu untuk tugas visi. Di sisi lain, untuk tugas deteksi dan segmentasi, kerangka MambaOut tidak mampu mengulangi kinerja yang ditawarkan oleh model Mamba state-of-the-art, menunjukkan potensi keluarga model Mamba untuk tugas visi urutan panjang.
Artikel ini bertujuan untuk membahas kerangka MambaOut secara mendalam, dan kita menjelajahi mekanisme, metodologi, arsitektur kerangka bersama dengan perbandingannya dengan kerangka state-of-the-art. Jadi, mari kita mulai.
MambaOut: Apakah Mamba Benar-Benar Dibutuhkan untuk Visi?
Dengan kemajuan aplikasi dan kemampuan pembelajaran mesin, Transformer telah muncul sebagai backbone utama untuk berbagai tugas, memungkinkan model-model terkemuka seperti Vision Transformer, seri model GPT, BERT, dan beberapa lainnya. Namun, pencampur token transformer mengalami kompleksitas kuadrat terhadap panjang urutan, dan menimbulkan tantangan komputasi yang signifikan. Untuk mengatasi masalah ini, berbagai pencampur token dengan kompleksitas linear terhadap panjang token seperti Linformer, Longformer, Performer, Konvolusi Dinamis, dan Big Bird telah diperkenalkan. Namun, baru-baru ini, model seperti Jaringan Saraf Rekuren telah mendapatkan perhatian karena kemampuan pelatihan paralel dan kinerja efisien pada urutan panjang. Dipandu oleh kinerja luar biasa yang ditawarkan oleh model seperti RNN, peneliti mencoba memperkenalkan dan menggunakan keluarga model Mamba ke dalam tugas pengenalan visual karena pencampur token model Mamba adalah model ruang keadaan terstruktur di bawah semangat Jaringan Saraf Rekuren. Namun, hasil eksperimental menunjukkan bahwa kerangka berbasis model ruang keadaan untuk visi performa underwhelming pada tugas visi nyata dibandingkan dengan model perhatian dan konvolusi state-of-the-art.
MambaOut adalah upaya untuk menyelidiki sifat keluarga model Mamba, dan menyimpulkan bahwa Mamba cocok untuk tugas yang autoregresif atau memiliki urutan panjang karena model ruang keadaan memiliki mekanisme Jaringan Saraf Rekuren bawaan. Namun, sebagian besar tugas visi tidak menampilkan kedua karakteristik ini, dan berdasarkan beberapa eksperimen, MambaOut mengusulkan dua hipotesis. Pertama, model ruang keadaan tidak perlu untuk klasifikasi gambar karena tugas klasifikasi gambar tidak sesuai dengan karakteristik autoregresif atau urutan panjang. Kedua, model ruang keadaan mungkin bermanfaat untuk segmentasi instance dan segmentasi semantik serta deteksi objek, karena mereka menampilkan karakteristik urutan panjang meskipun tidak autoregresif. Hasil eksperimental yang dilakukan untuk menganalisis mekanisme seperti Jaringan Saraf Rekuren dari model ruang keadaan menyimpulkan bahwa kerangka Mamba cocok untuk tugas dengan karakteristik autoregresif atau urutan panjang, dan tidak perlu untuk tugas klasifikasi gambar. Mengenai kerangka MambaOut itu sendiri, ini adalah serangkaian model Mamba berdasarkan blok Jaringan Saraf Konvolusi Bertembok tanpa model ruang keadaan, dan hasil eksperimental menunjukkan bahwa kerangka MambaOut mampu mengungguli model Mamba visual pada tugas klasifikasi gambar, tetapi gagal mengulangi kinerja pada tugas deteksi dan segmentasi gambar.
Apa Tugas yang Cocok untuk Mamba?
Pencampur token kerangka Mamba adalah model ruang keadaan selektif yang mendefinisikan empat parameter input-tergantung. Sifat rekuren kerangka ini membedakan model ruang keadaan seperti RNN dari perhatian kausal. Keadaan tersembunyi dapat dilihat sebagai memori ukuran tetap yang menyimpan informasi historis. Ukuran tetap berarti bahwa memori ini hilang, tetapi juga memastikan bahwa kompleksitas komputasi memori dengan input saat ini tetap konstan. Sebaliknya, lapisan perhatian kausal menyimpan semua kunci dan nilai dari token sebelumnya, dan berkembang dengan menambahkan kunci dan nilai token saat ini dengan setiap input baru, dan memori ini tidak hilang, secara teoretis. Namun, ukuran memori tumbuh seiring dengan lebih banyak token dimasukkan, meningkatkan kompleksitas integrasi memori dengan input saat ini. Perbedaan antara mekanisme memori antara perhatian kausal dan model seperti RNN diilustrasikan pada gambar berikut.

Karena memori model ruang keadaan secara inheren hilang, maka memori ini tidak sebanding dengan memori tidak hilang dari perhatian kausal, dan sebagai hasilnya, model Mamba tidak dapat menunjukkan kekuatannya dalam menangani urutan pendek, area di mana mekanisme perhatian kausal berperforma dengan mudah. Namun, dalam skenario yang melibatkan urutan panjang, pendekatan perhatian kausal gagal karena kompleksitas kuadrat. Dalam skenario ini, kerangka Mamba menunjukkan efisiensinya dalam menggabungkan memori dengan input saat ini, dan mampu menangani urutan panjang dengan mulus, menunjukkan bahwa keluarga model Mamba sangat cocok untuk memproses urutan panjang.
Juga perlu diperhatikan bahwa di satu sisi, sifat rekuren model ruang keadaan memungkinkan model Mamba untuk menangani urutan panjang dengan efisien, tetapi juga memperkenalkan batasan tertentu karena hanya dapat mengakses informasi dari waktu sebelumnya dan saat ini, dan jenis pencampuran token ini disebut mode kausal, dan diilustrasikan pada gambar berikut. Karena sifat kausalitya, metode ini cocok untuk tugas generasi autoregresif.

Mode fully-visible cocok untuk tugas pemahaman di mana model dapat mengakses semua input sekaligus. Selain itu, perhatian berada dalam mode fully-visible secara default, dan dapat diubah menjadi mode kausal dengan mudah dengan menerapkan masker kausal pada peta perhatian, dan model seperti RNN beroperasi secara inheren dalam mode kausal karena sifat rekurensinya. Untuk merangkum, kerangka Mamba cocok untuk tugas yang melibatkan pemrosesan urutan panjang, atau tugas yang memerlukan mode pencampuran token kausal.
Tugas Pengenalan Visual, Kode Pencampuran Token Kausal, dan Urutan Sangat Panjang
Seperti yang dibahas sebelumnya, mode pencampuran token fully-visible memungkinkan jangkauan pencampuran yang tidak terbatas, sedangkan mode kausal membatasi token saat ini untuk hanya mengakses informasi dari token sebelumnya. Selain itu, pengenalan visual dikategorikan sebagai tugas pemahaman di mana model dapat melihat gambar secara keseluruhan, dan ini menghilangkan kebutuhan untuk pembatasan pada pencampuran token, dan menerapkan konstrain tambahan pada pencampuran token dapat merusak kinerja model secara potensial. Umumnya, mode fully-visible cocok untuk tugas pemahaman, sedangkan mode kausal lebih cocok untuk tugas autoregresif. Selain itu, klaim ini didukung oleh fakta bahwa model BeRT dan ViT lebih banyak digunakan untuk tugas pemahaman daripada model GPT.
Verifikasi Eksperimental dan Hasil
Langkah berikutnya adalah untuk memverifikasi hipotesis yang diajukan oleh kerangka MambaOut secara eksperimental. Seperti yang ditunjukkan pada gambar berikut, blok Mamba didasarkan pada blok Jaringan Saraf Konvolusi Bertembok, dan meta-arsitektur blok Mamba dan Gated CNN dapat dianggap sebagai integrasi sederhana dari pencampur token kerangka MetaFormer, dan sebuah MLP.

Blok Mamba memperluas Jaringan Saraf Konvolusi Bertembok dengan model ruang keadaan tambahan, dan kehadiran SSm adalah yang membedakan blok Gated CNN dan blok Mamba. Selain itu, untuk meningkatkan kecepatan praktis, kerangka MambaOut hanya melakukan konvolusi depthwise pada saluran sebagian, dan seperti yang ditunjukkan pada algoritma berikut, implementasi blok Gated CNN sederhana, tetapi efektif dan elegan.

Tugas Klasifikasi Gambar
ImageNet berfungsi sebagai benchmark untuk tugas klasifikasi gambar karena terdiri dari lebih dari seribu kelas umum, lebih dari 1,3 juta gambar pelatihan, dan lebih dari 50.000 gambar validasi. Augmentasi data yang digunakan untuk eksperimen ini terdiri dari crop acak, Mixup, jitter warna, Penghapusan Acak, CutMix, dan Rand Augment. Tabel berikut merangkum kinerja keluarga model Mamba, model MambaOut, dan model perhatian serta konvolusi lainnya pada dataset ImageNet. Seperti yang dapat dilihat, kerangka MambaOut tanpa model ruang keadaan konsisten mengungguli model Mamba visual dengan SSM di semua ukuran model.

Misalnya, model MambaOut-Small mengembalikan skor akurasi top-1 lebih dari 84%, 0,4% lebih tinggi dari pesaing Mamba terdekat. Hasil ini sangat mendukung hipotesis pertama yang menyatakan bahwa memperkenalkan model ruang keadaan untuk tugas klasifikasi gambar tidak diperlukan.
Tugas Deteksi Objek dan Segmentasi Instance
COCO berfungsi sebagai benchmark untuk tugas deteksi objek dan segmentasi instance. Meskipun kerangka MambaOut dapat mengungguli kinerja beberapa model Mamba visual, masih belum dapat mengungguli model Mamba visual state-of-the-art, termasuk LocalVMamba dan VMamba. Perbedaan kinerja antara MambaOut dan model visual state-of-the-art menekankan pada manfaat dari integrasi keluarga model Mamba dalam tugas visi urutan panjang. Namun, perlu diperhatikan bahwa masih ada celah kinerja yang signifikan antara model hibrida konvolusi-perhatian state-of-the-art dan model Mamba visual.

Pemikiran Akhir
Keluarga model Mamba tampaknya cocok untuk tugas yang melibatkan karakteristik autoregresif dan urutan panjang. Kerangka MambaOut menghipotesiskan bahwa Mamba tidak perlu untuk tugas visi karena klasifikasi gambar tidak sesuai dengan karakteristik autoregresif atau urutan panjang. Meskipun tugas segmentasi dan deteksi juga tidak autoregresif, mereka menampilkan karakteristik urutan panjang, menyebabkan kerangka MambaOut menghipotesiskan potensi Mamba untuk tugas-tugas tersebut. Kerangka MambaOut dibangun dengan menumpuk blok Mamba satu sama lain sambil menghapus model ruang keadaan, pencampur token intinya. Hasil eksperimental mendukung hipotesis yang diajukan oleh kerangka MambaOut karena mampu mengungguli semua model visi Mamba pada kerangka klasifikasi gambar ImageNet, menunjukkan bahwa Mamba tidak perlu untuk tugas visi. Di sisi lain, untuk tugas deteksi dan segmentasi, kerangka MambaOut tidak mampu mengulangi kinerja yang ditawarkan oleh model Mamba state-of-the-art, menunjukkan potensi keluarga model Mamba untuk tugas visi urutan panjang.












