Connect with kami

Kacerdasan buatan

MambaOut: Naha Urang Ngabutuhkeun Mamba pikeun Visi?

mm

dimuat

 on

Dina pembelajaran mesin modern sareng kerangka kecerdasan jieunan, trafo mangrupikeun salah sahiji komponén anu paling seueur dianggo dina sagala rupa domain kalebet séri GPT, sareng BERT dina Pangolahan Basa Alam, sareng Transformers Visi dina tugas visi komputer. Sanajan kaasup trafo dina arsitéktur modél méré dorongan signifikan dina kinerja model, modul perhatian dina Transformers skala kalawan panjang runtuyan quadratically, ngarah kana tantangan komputasi tinggi. Salila mangtaun-taun, modél anu béda-béda parantos ngajalajah strategi anu béda pikeun ngatasi tantangan komputasi kalebet metode sapertos kernelization, komprési mémori sajarah, watesan jangkauan pencampuran token, sareng pendekatan réngking rendah. Anyar-anyar ieu, Recurrent Neural Networks sapertos metode kalebet Mamba sareng RWKV parantos nampi perhatian anu penting kusabab hasil anu ngajangjikeun dina modél basa ageung. 

Mamba, kulawarga model boga arsitéktur ku Recurrent Neural Network kawas token mixer model spasi kaayaan nembé diwanohkeun ka alamat pajeulitna kuadrat mékanisme perhatian sarta dilarapkeun ka tugas visi salajengna. Panaliti parantos ngajalajah cara pikeun ngalebetkeun Mamba sareng SSM atanapi State Space Model kana tugas pangenalan visual, sareng Vision Mamba anu ngalebetkeun Mamba pikeun ngembangkeun modél visi isotropik anu sami sareng Vision Transformer mangrupikeun conto anu sami. Di sisi anu sanés, LocalMamba ngalebetkeun bias induktif lokal pikeun ningkatkeun modél Mamba visual, sareng kerangka VMamba ngagunakeun modél dasar Mamba pikeun ngawangun modél hirarki anu sami sareng ResNet sareng AlexNet. Nanging, naha kerangka Mamba leres-leres penting pikeun tugas kontéks pangakuan visual? Patarosan timbul sabab kinerja model kulawarga Mamba pikeun tugas visi geus underwhelming jadi jauh lamun dibandingkeun ngalawan model dumasar perhatian-na convolutional tradisional. 

MambaOut mangrupakeun karya anu nyoba delve kana hakekat kerangka Mamba, sarta ngajawab naha Mamba ieu idéal cocog pikeun tugas kalawan ciri autoregressive tur panjang-urutan. Kerangka MambaOut hipotésis yén Mamba henteu dipikabutuh pikeun tugas visi sabab klasifikasi gambar henteu saluyu sareng ciri runtuyan panjang atanapi autoregressive. Sanajan tugas segmentation jeung deteksi oge teu autoregressive, aranjeunna nembongkeun ciri lila-urutan, ngarah kerangka MambaOut mun hypothesize poténsi Mamba pikeun tugas ieu. Kerangka MambaOut diwangun ku tumpukan blok Mamba dina luhureun hiji sejen bari nyoplokkeun model spasi kaayaan, mixer token inti na. Hasil ékspérimén ngadukung hipotésis anu diajukeun ku kerangka MambaOut sabab tiasa ngaleuwihan sadaya modél visual Mamba dina kerangka klasifikasi gambar ImageNet, nunjukkeun yén Mamba henteu dipikabutuh pikeun tugas visi. Di sisi séjén pikeun tugas deteksi na segmentation, kerangka MambaOut teu bisa ngayakeun réplikasi kinerja ditawarkeun ku kaayaan tina model Mamba seni, demonstrating poténsi kulawarga Mamba model pikeun tugas visual runtuyan panjang. 

Tulisan ieu tujuanana pikeun nutupan kerangka MambaOut sacara jero, sareng urang ngajalajah mékanisme, metodologi, arsitektur kerangka sareng ngabandingkeunana sareng kaayaan kerangka seni. Ku kituna hayu urang ngamimitian. 

MambaOut: Naha Mamba Dipikabutuh pikeun Visi?

Kalayan kamajuan aplikasi sareng kamampuan mesin diajar, Transformers parantos muncul salaku tulang tonggong mainstream pikeun sajumlah tugas, ngawasa modél anu kasohor kalebet Transformers Visi, GPT runtuyan model, BERT, jeung sababaraha deui. Sanajan kitu, mixer token tina trafo incurs a pajeulitna kuadrat nu patali jeung panjang runtuyan, sarta penah tantangan signifikan pikeun runtuyan panjang. Pikeun ngatasi masalah ieu, seueur panyampur token kalayan pajeulitna linier pikeun panjang token sapertos Linformer, Longformer, Performer, Dynamic Convolution, sareng Big Bird parantos diwanohkeun. Sanajan kitu, dina jaman ayeuna, Recurrent Neural Network kawas model anu gaining prominence alatan kamampuhan maranéhanana latihan parallelizable, sarta delivering kinerja efisien dina urutan panjang. Dipandu ku pagelaran anu luar biasa anu ditawarkeun ku modél sapertos RNN, panalungtik nyobian ngenalkeun sareng ngagunakeun modél kulawarga Mamba kana tugas pangakuan visual sabab mixer token tina modél Mamba nyaéta modél ruang kaayaan terstruktur dina sumanget Jaringan Neural Recurrent. . Tapi, hasil ékspérimén nunjukkeun yén kerangka dumasar modél spasi kaayaan pikeun visi ngalaksanakeun underwhelmingly sakuliah tugas visi dunya nyata lamun dibandingkeun jeung dumasar-perhatian, jeung kaayaan model convolutional seni. 

MambaOut mangrupa usaha pikeun nalungtik alam mamba kulawarga model, sarta summarizes yén Mamba cocog pikeun tugas anu boh autoregressive atanapi lila-urutan saprak modél spasi kaayaan boga mékanisme RNN alamiah. Sanajan kitu, mayoritas tugas visi teu nampilkeun duanana ciri ieu, sarta dina dasar sababaraha percobaan, MambaOut proposes dua hipotesis handap. Kahiji, model spasi kaayaan teu diperlukeun pikeun klasifikasi gambar saprak tugas klasifikasi gambar conforms teu ka autoregressive atawa ciri long-urutan. Kadua, model spasi kaayaan bisa jadi hypothetically mangpaatna misalna segmentation jeung segmentation semantik sapanjang kalawan deteksi objék, sabab maranéhna nuturkeun ciri-urutan panjang sanajan aranjeunna henteu autoregressive. Hasil ékspérimén anu dilakukeun pikeun nganalisis Jaringan Neural Recurrent sapertos mékanisme modél rohangan kaayaan nyimpulkeun yén kerangka Mamba cocog pikeun tugas-tugas anu gaduh ciri autoregressive atanapi sekuen panjang, sareng henteu diperyogikeun pikeun tugas klasifikasi gambar. Datang ka kerangka MambaOut sorangan, éta runtuyan model Mamba dumasar kana blok Gated Convolutional Neural Network tanpa model spasi kaayaan, sarta hasil eksperimen nunjukkeun yén kerangka MambaOut sanggup outperforming model Mamba dina tugas klasifikasi gambar, tapi gagal pikeun ngayakeun réplikasi. kinerja dina deteksi gambar jeung tugas segmentation. 

Tugas naon Mamba cocog?

The mixer token tina kerangka Mamba mangrupakeun modél spasi kaayaan selektif nu ngahartikeun opat parameter input-gumantung. Harta kumbuh tina kerangka ngabedakeun model spasi kaayaan RNN-kawas tina perhatian kausal. Kaayaan disumputkeun bisa ditempo salaku mémori tetep-ukuran nu nyimpen informasi sajarah. Ukuran tetep ngandung harti yén mémori téh lossy, tapi ogé ensures pajeulitna komputasi memori integrasi jeung input ayeuna tetep konstan. Sabalikna, lapisan perhatian kausal nyimpen sakabeh konci na nilai tina tokens saméméhna, sarta expands ku nambahkeun konci na nilai token ayeuna kalawan unggal input anyar, jeung memori ieu lossless, téoritis. Sanajan kitu, ukuran mémori tumuwuh sakumaha tokens leuwih inputted, ngaronjatkeun pajeulitna integrasi mémori jeung input ayeuna. Beda antara mékanisme memori antara perhatian kausal jeung model RNN-kawas digambarkeun dina gambar di handap ieu. 

Kusabab mémori modél rohangan kaayaan sacara alami leungit, éta kakurangan tina mémori anu teu leungit tina perhatian kausal, sareng akibatna, Modél Mamba teu bisa demonstrate kakuatan na dina nanganan sekuen pondok, wewengkon mana mékanisme perhatian kausal ngalaksanakeun ogé kalawan betah. Sanajan kitu, dina skenario nu ngalibetkeun runtuyan panjang, pendekatan perhatian kausal falters alatan pajeulitna kuadrat. Dina skenario ieu, kerangka Mamba nampilkeun efisiensina dina ngahijikeun mémori sareng input ayeuna, sareng tiasa ngadamel sekuen anu panjang kalayan lancar, nunjukkeun yén modél kulawarga Mamba cocog pikeun ngolah sekuen anu panjang. 

Ogé sia ​​noting yén dina hiji sisi dimana alam ngulang model spasi kaayaan ngamungkinkeun model Mamba pikeun éfisién nanganan runtuyan panjang, éta ngawanohkeun watesan tangtu sabab bisa ngakses informasi ngan ti timesteps ayeuna jeung saméméhna, sarta jenis ieu token campur kode disebut mode kausal, sarta digambarkeun dina gambar di handap ieu. Kusabab sifat kausalna, metode ieu cocog pikeun tugas generasi autoregressive

Modeu anu katingali lengkep cocog pikeun ngartos tugas dimana modél tiasa ngaksés sadaya input sakaligus. Saterusna, perhatian aya dina modeu pinuh-ditingali sacara standar, sarta eta bisa robah jadi mode kausal gampang ku nerapkeun masker kausal kana peta perhatian, sarta model RNN-kawas beroperasi inherently dina mode kausal alatan sipat ulang maranéhanana. Pikeun nyimpulkeun hal, kerangka Mamba cocog pikeun tugas-tugas anu ngalibatkeun ngolah sekuen anu panjang, atanapi tugas anu meryogikeun modeu campur kode sabab.

Tugas Pangenal Visual, Kodeu Campuran Token Kausal, sareng Sekuen anu ageung pisan

Sakumaha anu dibahas sateuacana, modeu pencampuran token anu katingali pinuh ngamungkinkeun rentang campuran anu teu terbatas sedengkeun mode kausal ngabatesan token anu ayeuna ngan ukur ngaksés inpormasi tina token sateuacana. Saterusna, pangakuan visual ieu categorized salaku tugas pamahaman mana model bisa ningali sakabéh gambar sakaligus, sarta ieu eliminates butuh larangan dina token campur kode, sarta maksakeun konstrain tambahan dina token campur kode bisa nguraikeun kinerja model berpotensi. Sacara umum, modeu anu katingali pinuh cocog pikeun ngartos tugas sedengkeun mode kasual langkung cocog pikeun tugas autoregressive. Saterusna, klaim ieu dirojong salajengna ku kanyataan yén modél BeRT na ViT dipaké pikeun pamahaman tugas leuwih ti model GPT.

Verifikasi ékspérimén jeung Hasil

Lengkah saterusna nyaéta pikeun pariksa hipotesis anu diajukeun ku kerangka MambaOut sacara ékspériméntal. Salaku nunjukkeun dina gambar di handap ieu, blok Mamba dumasar kana blok Gated Convolutional Neural Network, sarta meta-arsitektur blok Mamba jeung Gated CNN bisa diolah salaku integrasi saderhana tina mixer token kerangka MetaFormer, sarta MLP. . 

Blok Mamba ngalegaan Gated Convolutional Neural Network sareng Modél Spasi Propinsi tambahan, sareng ayana SSm mangrupikeun anu ngabédakeun CNN Gated sareng blok Mamba. Saterusna, pikeun ngaronjatkeun kagancangan praktis, kerangka MambaOut ngan ngalaksanakeun convolution depthwise on saluran parsial, sarta sakumaha ditémbongkeun dina algoritma handap, palaksanaan blok CNN Gated basajan, tapi éféktif jeung elegan. 

Tugas Klasifikasi Gambar

ImageNet janten patokan pikeun tugas klasifikasi gambar sabab diwangun ku langkung ti sarébu kelas umum, langkung ti 1.3 juta gambar latihan, sareng langkung ti 50,000 gambar validasi. Augmentation data dipaké pikeun percobaan diwangun ku pamotongan ukuranana acak, Mixup, jitter warna, Random Erasing, CutMix, sarta Rand Augment. Tabél di handap nyimpulkeun kinerja modél kulawarga Mamba, modél MambaOut, sareng modél dumasar-perhatian & konvolusi dina dataset ImageNet. Salaku bisa ditempo, kerangka MambaOut tanpa model spasi kaayaan outperforms model visual Mamba kalawan SSM konsistén peuntas sagala ukuran model. 

Salaku conto, modél MambaOut-Small mulihkeun skor akurasi top-1 langkung ti 84%, 0.4% langkung luhur tibatan pesaing Mamba anu pangcaketna. Hasil ieu ngadukung pisan kana hipotesa munggaran anu nyatakeun yén ngenalkeun modél rohangan kaayaan pikeun tugas klasifikasi gambar henteu diperyogikeun. 

Deteksi Obyék sareng Tugas Segméntasi Instance

COCO janten patokan pikeun deteksi obyék sareng tugas segmentasi instan. Sanajan kerangka MambaOut téh bisa ngaleuwihan kinerja sababaraha model visual Mamba, eta masih ragrag pondok tina kaayaan tina model seni visual Mamba kaasup LocalVMamba na VMamba. The disparity dina kinerja MambaOut ngalawan kaayaan tina model visual seni nekenkeun kana mangpaat integral tina model kulawarga Mamba dina tugas visual runtuyan panjang. Sanajan kitu, eta sia noting yén gap kinerja signifikan masih aya antara kaayaan model konvolusi-perhatian-hibrid jeung model visual Mamba. 

Pikiran final

Dina artikel ieu kami geus dibahas konsep model kulawarga Mamba, sarta menyimpulkan yén éta cocog pikeun tugas ngalibetkeun autoregressive sarta ciri runtuyan panjang. MambaOut mangrupakeun karya anu nyoba delve kana hakekat kerangka Mamba, sarta ngajawab naha Mamba ieu idéal cocog pikeun tugas kalawan ciri autoregressive tur panjang-urutan. Kerangka MambaOut hipotésis yén Mamba henteu dipikabutuh pikeun tugas visi sabab klasifikasi gambar henteu saluyu sareng ciri runtuyan panjang atanapi autoregressive. Sanajan tugas segmentation jeung deteksi oge teu autoregressive, aranjeunna nembongkeun ciri lila-urutan, ngarah kerangka MambaOut mun hypothesize poténsi Mamba pikeun tugas ieu. Kerangka MambaOut diwangun ku tumpukan blok Mamba dina luhureun hiji sejen bari nyoplokkeun model spasi kaayaan, mixer token inti na. Hasil ékspérimén ngadukung hipotésis anu diajukeun ku kerangka MambaOut sabab tiasa ngaleuwihan sadaya modél visual Mamba dina kerangka klasifikasi gambar ImageNet, nunjukkeun yén Mamba henteu dipikabutuh pikeun tugas visi. Di sisi séjén pikeun tugas deteksi na segmentation, kerangka MambaOut teu bisa ngayakeun réplikasi kinerja ditawarkeun ku kaayaan tina model Mamba seni, demonstrating poténsi kulawarga Mamba model pikeun tugas visual runtuyan panjang. 

 

"Insinyur ku profési, panulis ku haté". Kunal mangrupikeun panulis téknis anu mikanyaah sareng pamahaman anu jero ngeunaan AI sareng ML, didédikasikeun pikeun nyederhanakeun konsép anu kompleks dina widang ieu ngaliwatan dokuméntasi anu pikaresepeun sareng informatif.