škrbina MambaOut: Ali res potrebujemo mambo za vid? - Združi se.AI
Povežite se z nami

Umetna inteligenca

MambaOut: Ali res potrebujemo mambo za vid?

mm

objavljeno

 on

V sodobnih okvirih strojnega učenja in umetne inteligence so transformatorji ena najpogosteje uporabljenih komponent na različnih področjih, vključno s serijami GPT in BERT pri obdelavi naravnega jezika ter transformatorji vida pri nalogah računalniškega vida. Čeprav vključitev transformatorjev v arhitekturo modela znatno poveča zmogljivost modela, se modul pozornosti v transformatorjih kvadratno meri z dolžino zaporedja, kar povzroča velike računske izzive. V preteklih letih so različni modeli raziskovali različne strategije za reševanje računalniških izzivov, vključno z metodami, kot so kernelizacija, stiskanje pomnilnika zgodovine, omejitev obsega mešanja žetonov in pristopi nizkega ranga. V zadnjem času so metode, podobne ponavljajočim se nevronskim mrežam, vključno z Mambo in RWKV, pritegnile veliko pozornosti zaradi svojih obetavnih rezultatov v velikih jezikovnih modelih. 

Mamba, družina modelov, ima arhitekturo s ponavljajočo se nevronsko mrežo, kot je mešalnik žetonov modela prostora stanja, ki je bil nedavno uveden za obravnavo kvadratne kompleksnosti mehanizmov pozornosti in je bil pozneje uporabljen za naloge vida. Raziskovalci so že raziskali načine za vključitev Mambe in SSM ali State Space Model v naloge vizualnega prepoznavanja in Vision Mamba, ki vključuje Mambo za razvoj izotropnih modelov vida, podobnih Vision Transformerju, je odličen primer istega. Po drugi strani LocalMamba vključuje lokalne induktivne pristranskosti za izboljšanje vizualnih modelov Mamba, okvir VMamba pa uporablja osnovni model Mamba za izdelavo hierarhičnih modelov, podobnih ResNet in AlexNet. Vendar, ali je okvir Mamba res bistvenega pomena za kontekstne naloge vizualnega prepoznavanja? Vprašanje se pojavi, ker je bila uspešnost družine modelov Mamba za naloge vida doslej slaba v primerjavi s tradicionalnimi modeli, ki temeljijo na pozornosti, in konvolucijskimi modeli. 

MambaOut je delo, ki se poskuša poglobiti v bistvo ogrodja Mamba in odgovoriti, ali je Mamba idealna za naloge z avtoregresivno in dolgozaporedno značilnostjo. Ogrodje MambaOut domneva, da Mamba ni potrebna za naloge vida, ker se klasifikacija slike ne ujema z značilnostmi dolgega zaporedja ali avtoregresije. Čeprav naloge segmentacije in odkrivanja prav tako niso avtoregresivne, prikazujejo značilnosti dolgega zaporedja, zaradi česar je ogrodje MambaOut postavilo hipotezo o potencialu Mambe za te naloge. Ogrodje MambaOut je sestavljeno z zlaganjem blokov Mamba enega na drugega, medtem ko je odstranjen model prostora stanja, njegov osrednji mešalnik žetonov. Eksperimentalni rezultati podpirajo hipotezo, ki jo je postavil okvir MambaOut, saj lahko preseže vse vizualne modele Mamba v ogrodju za klasifikacijo slik ImageNet, kar kaže, da Mamba ni potrebna za naloge vida. Po drugi strani za naloge odkrivanja in segmentacije ogrodje MambaOut ne more posnemati zmogljivosti, ki jo ponuja najsodobnejši model Mamba, kar dokazuje potencial družine modelov Mamba za vizualne naloge z dolgim ​​zaporedjem. 

Namen tega članka je poglobljeno obravnavati okvir MambaOut in raziskati mehanizem, metodologijo, arhitekturo okvira skupaj z njegovo primerjavo z najsodobnejšimi okviri. Pa začnimo. 

MambaOut: Ali je Mamba res potrebna za vid?

Z napredkom aplikacij in zmožnosti strojnega učenja so se Transformerji pojavili kot glavna hrbtenica za vrsto nalog, ki poganjajo ugledne modele, vključno z Vision Transformers, serija modelov GPT, BERT in še nekaj drugih. Vendar pa ima mešalnik žetonov transformatorja kvadratno zapletenost glede na dolžino zaporedja in predstavlja velike izzive za daljša zaporedja. Za rešitev te težave so bili uvedeni številni mešalniki žetonov z linearno kompleksnostjo glede na dolžino žetona, kot so Linformer, Longformer, Performer, Dynamic Convolution in Big Bird. Vendar pa v zadnjem času postajajo modeli, podobni ponavljajočim se nevronskim mrežam, vse pomembnejši zaradi svoje zmožnosti vzporednega usposabljanja in zagotavljanja učinkovitega delovanja na daljših zaporedjih. Vodeni z izjemno zmogljivostjo, ki jo ponujajo modeli, podobni RNN, raziskovalci poskušajo uvesti in uporabiti družino modelov Mamba v nalogah vizualnega prepoznavanja, saj je mešalnik žetonov modelov Mamba strukturiran model prostora stanja v duhu ponavljajočih se nevronskih mrež . Vendar eksperimentalni rezultati kažejo, da okviri za vizijo, ki temeljijo na modelu prostora stanja, slabo delujejo pri nalogah vizije v resničnem svetu v primerjavi z modeli, ki temeljijo na pozornosti, in najsodobnejšimi konvolucijskimi modeli. 

MambaOut je poskus raziskovanja narave Mamba družino modelov in povzema, da je Mamba primerna za naloge, ki so bodisi avtoregresivne bodisi dolgozaporedne, saj ima model prostora stanj inherenten mehanizem RNN. Vendar pa večina vizualnih nalog nima obeh značilnosti in MambaOut na podlagi nekaterih poskusov predlaga naslednji dve hipotezi. Prvič, model prostora stanj ni potreben za klasifikacijo slik, saj naloga klasifikacije slik ni v skladu niti z avtoregresivnimi značilnostmi niti z značilnostmi dolgega zaporedja. Drugič, modeli prostora stanj so lahko hipotetično koristni, na primer segmentacija in semantična segmentacija skupaj z zaznavanjem objektov, saj sledijo značilnostim dolgega zaporedja, čeprav niso avtoregresivni. Eksperimentalni rezultati, izvedeni za analizo ponavljajoče se nevronske mreže podobnega mehanizma modela prostora stanj, kažejo, da je ogrodje Mamba primerno za naloge z avtoregresivnimi ali dolgozaporednimi značilnostmi in je nepotrebno za naloge klasifikacije slik. Če pridemo do samega ogrodja MambaOut, gre za vrsto modelov Mamba, ki temeljijo na blokih Gated Convolutional Neural Network brez modela prostora stanj, in eksperimentalni rezultati kažejo, da je ogrodje MambaOut sposobno prekašati modele Mamba pri nalogah klasifikacije slik, vendar ne uspe ponoviti uspešnost nalog zaznavanja in segmentacije slik. 

Za kakšna opravila je Mamba primerna?

Mešalnik žetonov ogrodja Mamba je selektivni model prostora stanj, ki definira štiri parametre, odvisne od vnosa. Ponavljajoča se lastnost ogrodja razlikuje modele prostora stanj, podobne RNN, od vzročne pozornosti. Skrito stanje je mogoče videti kot pomnilnik fiksne velikosti, ki shranjuje zgodovinske informacije. Fiksna velikost pomeni, da je pomnilnik izgubljen, vendar tudi zagotavlja, da računska kompleksnost integracije pomnilnika s trenutnim vhodom ostane nespremenjena. Nasprotno pa plasti vzročne pozornosti shranijo vse ključe in vrednosti iz prejšnjih žetonov in se razširijo z dodajanjem ključa in vrednosti trenutnega žetona z vsakim novim vnosom, ta pomnilnik pa je teoretično brez izgube. Vendar pa velikost pomnilnika raste, ko je vnesenih več žetonov, kar povečuje kompleksnost integracije pomnilnika s trenutnim vnosom. Razlika med spominskimi mehanizmi med vzročno pozornostjo in RNN podobnimi modeli je prikazana na naslednji sliki. 

Ker je spomin modela prostora stanja sam po sebi izgubljen, ne dosega brezizgubnega spomina vzročne pozornosti in posledično Mamba modeli ne more dokazati svoje moči pri obvladovanju kratkih sekvenc, področja, kjer mehanizem vzročne pozornosti dobro deluje z lahkoto. Vendar pa v scenarijih, ki vključujejo dolga zaporedja, pristop vzročne pozornosti omaja zaradi kvadratne kompleksnosti. V tem scenariju ogrodje Mamba prikazuje svojo učinkovitost pri združevanju pomnilnika s trenutnim vnosom in lahko gladko obravnava dolga zaporedja, kar kaže, da je družina modelov Mamba zelo primerna za obdelavo dolgih zaporedij. 

Prav tako je treba omeniti, da na eni strani, kjer ponavljajoča se narava modela prostora stanja omogoča modelom Mamba, da učinkovito obravnavajo dolga zaporedja, uvaja določeno omejitev, saj lahko dostopa do informacij samo iz trenutnih in prejšnjih časovnih korakov, in ta vrsta mešanje žetonov se imenuje vzročni način in je prikazano na naslednji sliki. Zaradi svoje vzročne narave je ta metoda primerna za naloge avtoregresivne generacije

Popolnoma viden način je primeren za razumevanje nalog, kjer lahko model dostopa do vseh vnosov hkrati. Poleg tega je pozornost privzeto v popolnoma vidnem načinu in jo je mogoče preprosto spremeniti v vzročni način z uporabo vzročnih mask na zemljevidih ​​pozornosti, RNN podobni modeli pa zaradi svojih ponavljajočih se lastnosti inherentno delujejo v vzročnem načinu. Če povzamemo stvari, je ogrodje Mamba primerno za naloge, ki vključujejo obdelavo dolgih zaporedij ali naloge, ki zahtevajo vzročni način mešanja žetonov.

Naloge vizualnega prepoznavanja, koda mešanja vzročnih žetonov in zelo velika zaporedja

Kot smo že omenili, popolnoma viden način mešanja žetonov omogoča neomejen obseg mešanja, medtem ko vzročni način omejuje trenutni žeton na dostop samo do informacij iz predhodnih žetonov. Poleg tega je vizualno prepoznavanje kategorizirano kot naloga razumevanja, pri kateri lahko model vidi celotno sliko hkrati, kar odpravlja potrebo po omejitvah mešanja žetonov, uvedba dodatnih omejitev mešanja žetonov pa lahko potencialno poslabša zmogljivost modela. Na splošno je popolnoma viden način primeren za razumevanje nalog, medtem ko priložnostni način bolje ustreza avtoregresivnim nalogam. Poleg tega to trditev dodatno podpira dejstvo, da se modela BeRT in ViT uporabljata za razumevanje nalog bolj kot modeli GPT.

Eksperimentalno preverjanje in rezultati

Naslednji korak je eksperimentalno preverjanje hipotez, ki jih predlaga okvir MambaOut. Kot je prikazano na naslednji sliki, blok Mamba temelji na bloku Gated Convolutional Neural Network, metaarhitekturo blokov Mamba in Gated CNN pa je mogoče obravnavati kot poenostavljeno integracijo mešalnika žetonov ogrodja MetaFormer in MLP. . 

Blok Mamba razširja Gated Convolutional Neural Network z dodatnim modelom prostora stanja in prisotnost SSm je tisto, kar razlikuje Gated CNN in blok Mamba. Poleg tega za izboljšanje praktične hitrosti ogrodje MambaOut izvaja samo globinsko konvolucijo na delnih kanalih in kot je prikazano v naslednjem algoritmu, je izvedba bloka Gated CNN preprosta, a učinkovita in elegantna. 

Naloga za razvrščanje slik

ImageNet služi kot merilo za naloge klasifikacije slik, saj je sestavljen iz več kot tisoč skupnih razredov, več kot 1.3 milijona učnih slik in več kot 50,000 validacijskih slik. Povečanje podatkov, uporabljeno za poskus, je sestavljeno iz obrezovanja z naključno spremenjeno velikostjo, mešanja, trepetanja barv, naključnega brisanja, CutMixa in Rand Augmenta. Naslednja tabela povzema delovanje družine modelov Mamba, modela MambaOut in drugih modelov, ki temeljijo na pozornosti in konvoluciji, v naboru podatkov ImageNet. Kot je razvidno, ogrodje MambaOut brez modela prostora stanja prekaša vizualne modele Mamba s SSM dosledno v vseh velikostih modelov. 

Na primer, model MambaOut-Small vrne top-1 oceno natančnosti nad 84 %, kar je 0.4 % več kot njegov najbližji konkurent Mamba. Ta rezultat močno podpira prvo hipotezo, ki trdi, da uvedba modela prostora stanja za naloge klasifikacije slik ni potrebna. 

Naloge za odkrivanje objektov in segmentacijo primerkov

COCO služi kot merilo uspešnosti za naloge odkrivanja objektov in segmentacije primerkov. Čeprav je ogrodje MambaOut sposobno preseči zmogljivost nekaterih vizualnih modelov Mamba, še vedno zaostaja za najsodobnejšimi vizualnimi modeli Mamba, vključno z LocalVMamba in VMamba. Razlika v zmogljivosti MambaOut glede na najsodobnejše vizualne modele poudarja prednosti integracije družine modelov Mamba v vizualne naloge z dolgim ​​zaporedjem. Vendar je treba omeniti, da med najsodobnejšimi hibridnimi modeli konvolucija-pozornost in vizualnimi modeli Mamba še vedno obstaja velika vrzel v zmogljivosti. 

Končna thoughts

V tem članku smo razpravljali o konceptih družine modelov Mamba in ugotovili, da je primeren za naloge, ki vključujejo avtoregresivne in dolgozaporedne značilnosti. MambaOut je delo, ki se poskuša poglobiti v bistvo ogrodja Mamba in odgovoriti, ali je Mamba idealna za naloge z avtoregresivno in dolgozaporedno značilnostjo. Ogrodje MambaOut domneva, da Mamba ni potrebna za naloge vida, ker se klasifikacija slike ne ujema z značilnostmi dolgega zaporedja ali avtoregresije. Čeprav naloge segmentacije in odkrivanja prav tako niso avtoregresivne, prikazujejo značilnosti dolgega zaporedja, zaradi česar je ogrodje MambaOut postavilo hipotezo o potencialu Mambe za te naloge. Ogrodje MambaOut je sestavljeno z zlaganjem blokov Mamba enega na drugega, medtem ko je odstranjen model prostora stanja, njegov osrednji mešalnik žetonov. Eksperimentalni rezultati podpirajo hipotezo, ki jo je postavil okvir MambaOut, saj lahko preseže vse vizualne modele Mamba v ogrodju za klasifikacijo slik ImageNet, kar kaže, da Mamba ni potrebna za naloge vida. Po drugi strani za naloge odkrivanja in segmentacije ogrodje MambaOut ne more posnemati zmogljivosti, ki jo ponuja najsodobnejši model Mamba, kar dokazuje potencial družine modelov Mamba za vizualne naloge z dolgim ​​zaporedjem. 

 

"Po poklicu inženir, po srcu pisatelj". Kunal je tehnični pisec z globoko ljubeznijo in razumevanjem umetne inteligence in strojnega upravljanja, ki je predan poenostavljanju zapletenih konceptov na teh področjih s svojo privlačno in informativno dokumentacijo.