Savienoties ar mums

Mākslīgais intelekts

MambaOut: vai mums tiešām ir vajadzīga Mamba for Vision?

mm

Izdots

 on

Mūsdienu mašīnmācības un mākslīgā intelekta ietvaros transformatori ir viens no visplašāk izmantotajiem komponentiem dažādās jomās, tostarp GPT sērijā un BERT dabiskās valodas apstrādē un redzes transformatoros datora redzes uzdevumos. Lai gan transformatoru iekļaušana modeļa arhitektūrā ievērojami uzlabo modeļa veiktspēju, Transformatoru uzmanības modulis secības garumu mērogojas kvadrātiski, radot lielas skaitļošanas problēmas. Gadu gaitā dažādi modeļi ir izpētījuši dažādas stratēģijas, lai risinātu skaitļošanas problēmas, tostarp tādas metodes kā kodola izveide, vēstures atmiņas saspiešana, marķieru sajaukšanas diapazona ierobežošana un zema līmeņa pieejas. Nesen atkārtoti neironu tīkli, piemēram, metodes, tostarp Mamba un RWKV, ir ieguvušas ievērojamu uzmanību, pateicoties to daudzsološajiem rezultātiem lielos valodu modeļos. 

Mamba, modeļu saimei, ir arhitektūra ar atkārtotu neironu tīklu, piemēram, stāvokļa telpas modeļa marķieru mikseri, kas nesen tika ieviesta, lai risinātu uzmanības mehānismu kvadrātisko sarežģītību, un vēlāk tika izmantota redzes uzdevumiem. Pētnieki jau ir izpētījuši veidus, kā iekļaut Mamba un SSM vai valsts telpas modeli vizuālās atpazīšanas uzdevumos, un Vision Mamba, kas ietver Mamba, lai izstrādātu izotropiskus redzes modeļus, kas ir līdzīgi Vision Transformer, ir lielisks piemērs tam. No otras puses, LocalMamba ietver lokālus induktīvās novirzes, lai uzlabotu vizuālos Mamba modeļus, un VMamba ietvars izmanto Mamba bāzes modeli, lai izveidotu hierarhiskus modeļus, kas līdzīgi ResNet un AlexNet. Tomēr vai Mamba sistēma patiešām ir būtiska vizuālās atpazīšanas konteksta uzdevumiem? Rodas jautājums, jo Mamba modeļu saimes veiktspēja redzes uzdevumiem līdz šim ir bijusi nepārspējama, salīdzinot ar tradicionālajiem uz uzmanību balstītiem un konvolucionāliem modeļiem. 

MambaOut ir darbs, kas mēģina iedziļināties Mamba ietvara būtībā un atbildēt, vai Mamba ir ideāli piemērota uzdevumiem ar autoregresīvām un garas secības īpašībām. MambaOut sistēma izvirza hipotēzi, ka Mamba nav nepieciešama redzes uzdevumiem, jo ​​attēlu klasifikācija neatbilst ne garas secības, ne autoregresīvām īpašībām. Lai gan segmentācijas un noteikšanas uzdevumi arī nav autoregresīvi, tiem ir garas secības raksturlielumi, kas liek MambaOut sistēmai izvirzīt hipotēzi par Mamba potenciālu šiem uzdevumiem. MambaOut ietvars ir izveidots, saliekot Mamba blokus vienu virs otra, vienlaikus noņemot stāvokļa telpas modeli, tā galveno marķieru mikseri. Eksperimentālie rezultāti apstiprina MambaOut sistēmas izvirzīto hipotēzi, jo tā spēj pārspēt visus vizuālos Mamba modeļus ImageNet attēlu klasifikācijas sistēmā, norādot, ka Mamba nav nepieciešama redzes uzdevumiem. No otras puses, noteikšanas un segmentācijas uzdevumiem MambaOut ietvars nespēj atkārtot modernā Mamba modeļa piedāvāto veiktspēju, demonstrējot Mamba modeļu saimes potenciālu garu secību vizuāliem uzdevumiem. 

Šī raksta mērķis ir padziļināti aptvert MambaOut ietvaru, un mēs izpētām mehānismu, metodoloģiju, ietvara arhitektūru, kā arī tās salīdzinājumu ar jaunākajiem ietvariem. Tātad sāksim. 

MambaOut: vai Mamba tiešām ir nepieciešama redzei?

Attīstoties mašīnmācīšanās lietojumprogrammām un iespējām, transformatori ir kļuvuši par galveno mugurkaulu dažādu uzdevumu veikšanai, nodrošinot ievērojamus modeļus, tostarp Redzes transformatori, GPT modeļu sērija, BERT un vēl daži. Tomēr transformatora marķiera maisītājs rada kvadrātisku sarežģītību attiecībā uz secības garumu un rada ievērojamas problēmas garākām sekvencēm. Lai risinātu šo problēmu, ir ieviesti daudzi marķieru mikseri ar lineāru sarežģītību līdz marķiera garumam, piemēram, Linformer, Longformer, Performer, Dynamic Convolution un Big Bird. Tomēr pēdējā laikā atkārtotiem neironu tīkliem līdzīgie modeļi kļūst arvien populārāki, jo tie spēj paralēli apmācīt un nodrošina efektīvu veiktspēju ilgākās secībās. Vadoties pēc izcilās veiktspējas, ko piedāvā RNN līdzīgi modeļi, pētnieki mēģina ieviest un izmantot Mamba modeļu saimi vizuālās atpazīšanas uzdevumos, jo Mamba modeļu marķieru mikseris ir strukturēts stāvokļa telpas modelis saskaņā ar atkārtoto neironu tīklu garu. . Tomēr eksperimentālie rezultāti liecina, ka uz stāvokļa telpas modeļiem balstīti redzes ietvari pārsvarā veic reālās pasaules redzes uzdevumus, salīdzinot ar uz uzmanību balstītiem un jaunākajiem konvolucionālajiem modeļiem. 

MambaOut ir mēģinājums izpētīt būtību Mamba modeļu saime, un apkopots, ka Mamba ir piemērota uzdevumiem, kas ir vai nu autoregresīvi, vai ar garu secību, jo stāvokļa telpas modelim ir raksturīgs RNN mehānisms. Tomēr lielākajai daļai redzes uzdevumu nav abas šīs īpašības, un, pamatojoties uz dažiem eksperimentiem, MambaOut piedāvā šādas divas hipotēzes. Pirmkārt, stāvokļa telpas modelis attēlu klasifikācijai nav nepieciešams, jo attēlu klasifikācijas uzdevums neatbilst ne autoregresīvajiem, ne garās secības raksturlielumiem. Otrkārt, stāvokļa telpas modeļi var būt hipotētiski izdevīgi, piemēram, segmentācijai un semantiskajai segmentācijai kopā ar objektu noteikšanu, jo tie ievēro garās secības raksturlielumus, lai gan tie nav autoregresīvi. Eksperimentālie rezultāti, kas veikti, lai analizētu atkārtotu neironu tīklu līdzīgu stāvokļa telpas modeļa mehānismu, secina, ka Mamba ietvars ir piemērots uzdevumiem ar autoregresīviem vai garas secības raksturlielumiem un nav nepieciešams attēlu klasifikācijas uzdevumiem. Runājot par pašu MambaOut ietvaru, tā ir Mamba modeļu sērija, kas balstīta uz konvolūcijas neironu tīkla blokiem bez stāvokļa telpas modeļa, un eksperimentālie rezultāti liecina, ka MambaOut ietvars spēj pārspēt Mamba modeļus attēlu klasifikācijas uzdevumos, bet nespēj to atkārtot. attēlu noteikšanas un segmentācijas uzdevumu veiktspēja. 

Kādiem uzdevumiem Mamba ir piemērota?

Mamba sistēmas marķieru mikseris ir selektīvs stāvokļa telpas modelis, kas definē četrus no ievades atkarīgus parametrus. Sistēmas atkārtotā īpašība atšķir RNN līdzīgus stāvokļa telpas modeļus no cēloņsakarības. Slēpto stāvokli var uzskatīt par fiksēta izmēra atmiņu, kas glabā vēsturisko informāciju. Fiksētais lielums nozīmē, ka atmiņai ir zudumi, taču tas arī nodrošina, ka skaitļošanas sarežģītība, integrējot atmiņu ar pašreizējo ievadi, paliek nemainīga. Un otrādi, cēloņsakarības slāņi saglabā visas atslēgas un vērtības no iepriekšējiem marķieriem un tiek paplašinātas, pievienojot pašreizējā marķiera atslēgu un vērtību ar katru jaunu ievadi, un šī atmiņa teorētiski ir bez zudumiem. Tomēr atmiņas apjoms pieaug, jo tiek ievadīts vairāk marķieru, palielinot atmiņas integrēšanas ar pašreizējo ievadi sarežģītību. Atšķirība starp atmiņas mehānismiem starp cēloņsakarību un RNN līdzīgiem modeļiem ir parādīta nākamajā attēlā. 

Tā kā stāvokļa telpas modeļa atmiņa pēc savas būtības ir ar zaudējumiem, tā neatbilst cēloņsakarības uzmanības bezzudumu atmiņai, un rezultātā Mamba modeļi nevar demonstrēt savu spēku īsu secību apstrādē, jomā, kurā cēloņsakarības mehānisms darbojas labi un viegli. Tomēr scenārijos, kas ietver garas secības, cēloņsakarības pieeja klibo kvadrātiskās sarežģītības dēļ. Šajā scenārijā Mamba sistēma demonstrē savu efektivitāti, apvienojot atmiņu ar pašreizējo ievadi, un spēj vienmērīgi apstrādāt garas secības, norādot, ka Mamba modeļu saime ir labi piemērota garu secību apstrādei. 

Ir arī vērts atzīmēt, ka, no vienas puses, ja stāvokļa telpas modeļa atkārtotais raksturs ļauj Mamba modeļiem efektīvi apstrādāt garas sekvences, tas ievieš noteiktu ierobežojumu, jo tas var piekļūt informācijai tikai no pašreizējā un iepriekšējā laika posma, un šāda veida marķieru sajaukšanu sauc par cēloņsakarību, un tas ir parādīts nākamajā attēlā. Tā cēloņsakarības dēļ šī metode ir piemērota autoregresīvās paaudzes uzdevumi

Pilnībā redzamais režīms ir piemērots, lai izprastu uzdevumus, kuros modelis var piekļūt visiem ievadiem vienlaikus. Turklāt uzmanība pēc noklusējuma ir pilnībā redzamā režīmā, un to var viegli pārvērst cēloņsakarības režīmā, uzmanības kartēm piemērojot cēloņsakarības maskas, un RNN līdzīgie modeļi to periodisko īpašību dēļ darbojas cēloņsakarības režīmā. Rezumējot lietas, Mamba sistēma ir piemērota uzdevumiem, kas ietver vai nu garu secību apstrādi, vai uzdevumiem, kuriem nepieciešams cēloņsakarības marķieru sajaukšanas režīms.

Vizuālās atpazīšanas uzdevumi, cēloņsakarības marķieru sajaukšanas kods un ļoti lielas secības

Kā minēts iepriekš, pilnībā redzamais marķieru sajaukšanas režīms nodrošina neierobežotu sajaukšanas diapazonu, savukārt cēloņsakarības režīms ierobežo pašreizējo marķieri, lai piekļūtu tikai informācijai no iepriekšējiem marķieriem. Turklāt vizuālā atpazīšana tiek klasificēta kā izpratnes uzdevums, kurā modelis var redzēt visu attēlu uzreiz, un tas novērš nepieciešamību pēc marķieru sajaukšanas ierobežojumiem, un papildu ierobežojumu noteikšana marķieru sajaukšanai var potenciāli pasliktināt modeļa veiktspēju. Parasti pilnībā redzamais režīms ir piemērots, lai izprastu uzdevumus, savukārt gadījuma režīms ir labāk piemērots autoregresīviem uzdevumiem. Turklāt šo apgalvojumu apstiprina arī fakts, ka BeRT un ViT modeļi tiek izmantoti, lai izprastu uzdevumus vairāk nekā GPT modeļi.

Eksperimentālā pārbaude un rezultāti

Nākamais solis ir eksperimentāli pārbaudīt MambaOut sistēmas izvirzītās hipotēzes. Kā parādīts nākamajā attēlā, Mamba bloks ir balstīts uz konvolūcijas neironu tīkla bloku, un Mamba un Gated CNN bloku meta-arhitektūru var uzskatīt par vienkāršotu MetaFormer sistēmas marķieru miksera un MLP integrāciju. . 

Mamba bloks paplašina ierobežoto konvolucionālo neironu tīklu ar papildu stāvokļa telpas modeli, un SSm klātbūtne ir tas, kas atšķir ierobežoto CNN un Mamba bloku. Turklāt, lai uzlabotu praktisko ātrumu, MambaOut ietvars veic tikai dziļu konvolūciju daļējiem kanāliem, un, kā parādīts nākamajā algoritmā, Gated CNN bloka ieviešana ir vienkārša, tomēr efektīva un eleganta. 

Attēlu klasifikācijas uzdevums

ImageNet kalpo kā etalons attēlu klasifikācijas uzdevumiem, jo ​​tas sastāv no vairāk nekā tūkstoš parastajām klasēm, vairāk nekā 1.3 miljoniem apmācības attēlu un vairāk nekā 50,000 XNUMX validācijas attēlu. Eksperimentā izmantotā datu palielināšana sastāv no nejauši mainīta izmēra apgriešanas, sajaukšanas, krāsu satricinājuma, nejaušas dzēšanas, CutMix un Rand Augment. Šajā tabulā ir apkopota Mamba modeļu saimes, MambaOut modeļa un citu uz uzmanību balstītu un konvolūcijas modeļu veiktspēja ImageNet datu kopā. Kā redzams, MambaOut sistēma bez stāvokļa telpas modeļa pārspēj vizuālos Mamba modeļus ar SSM konsekventi visos modeļu izmēros. 

Piemēram, MambaOut-Small modeļa precizitātes rādītājs ir augstākais 1 — vairāk nekā 84 %, kas ir par 0.4 % augstāks nekā tā tuvākais Mamba konkurents. Šis rezultāts stingri atbalsta pirmo hipotēzi, kas apgalvo, ka nav nepieciešams ieviest stāvokļa telpas modeli attēlu klasifikācijas uzdevumiem. 

Objektu noteikšanas un instanču segmentācijas uzdevumi

COCO kalpo kā etalons objektu noteikšanas un gadījumu segmentācijas uzdevumiem. Lai gan MambaOut sistēma spēj pārspēt dažu vizuālo Mamba modeļu veiktspēju, tā joprojām atpaliek no jaunākajiem vizuālajiem Mamba modeļiem, tostarp LocalVMamba un VMamba. MambaOut veiktspējas atšķirības pret jaunākajiem vizuālajiem modeļiem uzsver priekšrocības, ko sniedz Mamba modeļu saimes integrēšana garas secības vizuālos uzdevumos. Tomēr ir vērts atzīmēt, ka joprojām pastāv ievērojama veiktspējas atšķirība starp jaunākajiem konvolūcijas-uzmanības-hibrīda modeļiem un vizuālajiem Mamba modeļiem. 

Final Domas

Šajā rakstā mēs esam apsprieduši Mamba modeļu saimes jēdzienus un secinājām, ka tas ir piemērots uzdevumiem, kas saistīti ar autoregresīviem un garas secības raksturlielumiem. MambaOut ir darbs, kas mēģina iedziļināties Mamba ietvara būtībā un atbildēt, vai Mamba ir ideāli piemērota uzdevumiem ar autoregresīvām un garas secības īpašībām. MambaOut sistēma izvirza hipotēzi, ka Mamba nav nepieciešama redzes uzdevumiem, jo ​​attēlu klasifikācija neatbilst ne garas secības, ne autoregresīvām īpašībām. Lai gan segmentācijas un noteikšanas uzdevumi arī nav autoregresīvi, tiem ir garas secības raksturlielumi, kas liek MambaOut sistēmai izvirzīt hipotēzi par Mamba potenciālu šiem uzdevumiem. MambaOut ietvars ir izveidots, saliekot Mamba blokus vienu virs otra, vienlaikus noņemot stāvokļa telpas modeli, tā galveno marķieru mikseri. Eksperimentālie rezultāti apstiprina MambaOut sistēmas izvirzīto hipotēzi, jo tā spēj pārspēt visus vizuālos Mamba modeļus ImageNet attēlu klasifikācijas sistēmā, norādot, ka Mamba nav nepieciešama redzes uzdevumiem. No otras puses, noteikšanas un segmentācijas uzdevumiem MambaOut ietvars nespēj atkārtot modernā Mamba modeļa piedāvāto veiktspēju, demonstrējot Mamba modeļu saimes potenciālu garu secību vizuāliem uzdevumiem. 

 

"Pēc profesijas inženieris, pēc sirds rakstnieks". Kunals ir tehnisks rakstnieks ar dziļu mīlestību un izpratni par mākslīgo intelektu un mākslīgo intelektu, kura mērķis ir vienkāršot sarežģītas koncepcijas šajās jomās, izmantojot savu saistošo un informatīvo dokumentāciju.