stub MambaOut: Trenger vi virkelig Mamba for Vision? - Unite.AI
Kontakt med oss

Kunstig intelligens

MambaOut: Trenger vi virkelig Mamba for Vision?

mm

Publisert

 on

I moderne maskinlærings- og kunstig intelligens-rammeverk er transformatorer en av de mest brukte komponentene på tvers av forskjellige domener, inkludert GPT-serien, og BERT i Natural Language Processing, og Vision Transformers i datasynsoppgaver. Selv om det å inkludere transformatorer i modellarkitekturen gir et betydelig løft i modellytelsen, skalerer oppmerksomhetsmodulen i Transformers med sekvenslengden kvadratisk, noe som fører til store beregningsmessige utfordringer. I løpet av årene har forskjellige modeller utforsket forskjellige strategier for å takle beregningsutfordringene, inkludert metoder som kjerneisering, historieminnekomprimering, begrensning av tokenblandingsrekkevidde og tilnærminger med lav rangering. Nylig har tilbakevendende nevrale nettverk som metoder inkludert Mamba og RWKV fått betydelig oppmerksomhet på grunn av deres lovende resultater i store språkmodeller. 

Mamba, en familie av modeller har en arkitektur med en tilbakevendende nevrale nettverkslignende token-mikser av en tilstandsrommodell som nylig ble introdusert for å adressere den kvadratiske kompleksiteten til oppmerksomhetsmekanismene og ble senere brukt på synsoppgaver. Forskere har allerede utforsket måter å inkorporere Mamba og SSM eller State Space Model i visuelle gjenkjenningsoppgaver, og Vision Mamba som inkorporerer Mamba for å utvikle isotropiske synsmodeller i likhet med Vision Transformer er et godt eksempel på det samme. På den annen side inkorporerer LocalMamba lokale induktive skjevheter for å forbedre visuelle Mamba-modeller, og VMamba-rammeverket bruker den grunnleggende Mamba-modellen for å konstruere hierarkiske modeller som ligner på ResNet og AlexNet. Men er Mamba-rammeverket virkelig avgjørende for kontekstoppgaver med visuell gjenkjenning? Spørsmålet oppstår fordi ytelsen til Mamba-familien av modeller for synsoppgaver har vært underveldende så langt sammenlignet med tradisjonelle oppmerksomhetsbaserte og konvolusjonelle modeller. 

MambaOut er et verk som forsøker å fordype seg i essensen av Mamba-rammeverket, og svare på om Mamba er ideelt egnet for oppgaver med autoregressive og lang-sekvens-karakteristikker. MambaOut-rammeverket antar at Mamba ikke er nødvendig for synsoppgaver siden bildeklassifisering verken stemmer overens med langsekvens eller autoregressive egenskaper. Selv om segmenterings- og deteksjonsoppgaver heller ikke er autoregressive, viser de langsekvenskarakteristikker, noe som fører til at MambaOut-rammeverket antar potensialet til Mamba for disse oppgavene. MambaOut-rammeverket er konstruert ved å stable Mamba-blokker oppå hverandre mens du fjerner tilstandsrommodellen, dens kjernetoken-mikser. De eksperimentelle resultatene støtter hypotesen fremsatt av MambaOut-rammeverket siden det er i stand til å overgå alle de visuelle Mamba-modellene på ImageNet-bildeklassifiseringsrammeverket, noe som indikerer at Mamba ikke er nødvendig for synsoppgaver. På den annen side for deteksjons- og segmenteringsoppgaver, er ikke MambaOut-rammeverket i stand til å gjenskape ytelsen som tilbys av den moderne Mamba-modellen, noe som demonstrerer potensialet til Mamba-familien av modeller for visuelle oppgaver med lang sekvens. 

Denne artikkelen tar sikte på å dekke MambaOut-rammeverket i dybden, og vi utforsker mekanismen, metodikken, arkitekturen til rammeverket sammen med dets sammenligning med toppmoderne rammeverk. Så la oss komme i gang. 

MambaOut: Er Mamba virkelig nødvendig for visjon?

Med fremgangen innen maskinlæringsapplikasjoner og -funksjoner, har Transformers dukket opp som den vanlige ryggraden for en rekke oppgaver, og driver fremtredende modeller, inkludert Visjon Transformers, GPT-serien med modeller, BERT og noen flere. Imidlertid pådrar token-mikseren til transformatoren en kvadratisk kompleksitet med hensyn til sekvenslengden, og utgjør betydelige utfordringer for lengre sekvenser. For å løse dette problemet har mange token-miksere med lineær kompleksitet til tokenlengde som Linformer, Longformer, Performer, Dynamic Convolution og Big Bird blitt introdusert. Men i nyere tid har tilbakevendende nevrale nettverk-lignende modeller fått fremtredende plass på grunn av deres evne til parallelliserbar trening, og levere effektiv ytelse på lengre sekvenser. Veiledet av den bemerkelsesverdige ytelsen som tilbys av RNN-lignende modeller, prøver forskere å introdusere og bruke Mamba-familien av modeller i visuelle gjenkjenningsoppgaver siden token-mikseren til Mamba-modellene er den strukturerte tilstandsrommodellen under ånden til de gjentatte nevrale nettverkene. . Eksperimentelle resultater indikerer imidlertid at statlige rommodellbaserte rammeverk for syn utfører overveldende på tvers av virkelige visjonsoppgaver sammenlignet med oppmerksomhetsbaserte og toppmoderne konvolusjonelle modeller. 

MambaOut er et forsøk på å undersøke naturen til Mamba familie av modeller, og oppsummerer at Mamba er egnet for oppgaver som enten er autoregressive eller av lang sekvens siden tilstandsrommodellen har en iboende RNN-mekanisme. Imidlertid har et flertall av synsoppgavene ikke begge disse egenskapene, og på grunnlag av noen eksperimenter foreslår MambaOut følgende to hypoteser. For det første er tilstandsrommodellen ikke nødvendig for bildeklassifisering siden bildeklassifiseringsoppgaven verken samsvarer med autoregressive eller langsekvenskarakteristikker. For det andre kan tilstandsrommodeller være hypotetisk fordelaktige, for eksempel segmentering og semantisk segmentering sammen med objektdeteksjon, siden de følger langsekvenskarakteristikkene selv om de ikke er autoregressive. Eksperimentelle resultater utført for å analysere den tilbakevendende nevrale nettverkslignende mekanismen for tilstandsrommodellen konkluderer med at Mamba-rammeverket er egnet for oppgaver med autoregressive eller lang-sekvensegenskaper, og er unødvendig for bildeklassifiseringsoppgaver. Når det gjelder selve MambaOut-rammeverket, er det en serie Mamba-modeller basert på Gated Convolutional Neural Network-blokker uten tilstandsrommodellen, og eksperimentelle resultater indikerer at MambaOut-rammeverket er i stand til å utkonkurrere Mamba-modeller i bildeklassifiseringsoppgaver, men klarer ikke å replikere ytelsen på bildegjenkjenning og segmenteringsoppgaver. 

Hvilke oppgaver passer Mamba til?

Token-mikseren til Mamba-rammeverket er en selektiv tilstandsrommodell som definerer fire inngangsavhengige parametere. Den tilbakevendende egenskapen til rammeverket skiller RNN-lignende tilstandsrommodeller fra kausal oppmerksomhet. Den skjulte tilstanden kan sees på som et minne med fast størrelse som lagrer historisk informasjon. Den faste størrelsen betyr at minnet har tap, men det sikrer også at beregningskompleksiteten ved å integrere minne med gjeldende inngang forblir konstant. Omvendt lagrer kausale oppmerksomhetslag alle nøkler og verdier fra tidligere tokens, og utvides ved å legge til nøkkelen og verdien til gjeldende token med hver ny inngang, og dette minnet er teoretisk sett tapsfritt. Imidlertid vokser minnestørrelsen etter hvert som flere tokens legges inn, noe som øker kompleksiteten ved å integrere minnet med gjeldende inngang. Forskjellen mellom minnemekanismene mellom kausal oppmerksomhet og RNN-lignende modeller er illustrert i følgende figur. 

Siden minnet til tilstandsrommodellen i seg selv er tapsmessig, kommer det til kortere enn det tapsfrie minnet om årsaksoppmerksomhet, og som et resultat, Mamba-modeller kan ikke demonstrere sin styrke i å håndtere korte sekvenser, et område der kausal oppmerksomhetsmekanisme fungerer godt med letthet. Men i scenarier som involverer lange sekvenser, svikter den kausale oppmerksomhetstilnærmingen på grunn av den kvadratiske kompleksiteten. I dette scenariet viser Mamba-rammeverket sin effektivitet når det gjelder å slå sammen minne med gjeldende inngang, og er i stand til å håndtere lange sekvenser jevnt, noe som indikerer at Mamba-familien av modeller er godt egnet for å behandle lange sekvenser. 

Det er også verdt å merke seg at på den ene siden der den tilbakevendende naturen til tilstandsrommodellen gjør at Mamba-modellene effektivt kan håndtere lange sekvenser, introduserer den en viss begrensning ettersom den kun kan få tilgang til informasjon fra gjeldende og tidligere tidstrinn, og denne typen Token-blanding kalles årsaksmodus, og illustrert i følgende figur. På grunn av sin kausale natur er denne metoden egnet for autoregressive generasjonsoppgaver

Den fullt synlige modusen er egnet for å forstå oppgaver der modellen kan få tilgang til alle inngangene samtidig. Videre er oppmerksomhet i fullt synlig modus som standard, og den kan enkelt gjøres om til årsaksmodus ved å bruke årsaksmasker på oppmerksomhetskartene, og RNN-lignende modeller fungerer iboende i årsaksmodus på grunn av deres tilbakevendende egenskaper. For å oppsummere ting, er Mamba-rammeverket egnet for oppgaver som enten involverer prosessering av lange sekvenser, eller oppgaver som krever kausal token-blandingsmodus.

Visuelle gjenkjenningsoppgaver, kausal token-blandingskode og veldig store sekvenser

Som diskutert tidligere, tillater den fullt synlige token-blandingsmodusen ubegrenset rekkevidde av blanding, mens årsaksmodusen begrenser gjeldende token til kun å få tilgang til informasjonen fra de foregående tokens. Videre er visuell gjenkjenning kategorisert som en forståelsesoppgave der modellen kan se hele bildet på en gang, og dette eliminerer behovet for restriksjoner på token-miksing, og å legge ytterligere begrensninger på token-miksing kan potensielt forringe modellens ytelse. Generelt er den fullt synlige modusen egnet for å forstå oppgaver, mens den tilfeldige modusen passer autoregressive oppgaver bedre. Videre støttes denne påstanden ytterligere av det faktum at BeRT- og ViT-modeller brukes til å forstå oppgaver mer enn GPT-modeller.

Eksperimentell verifisering og resultater

Det neste trinnet er å verifisere hypotesene foreslått av MambaOut-rammeverket eksperimentelt. Som vist i bildet nedenfor, er Mamba-blokken basert på Gated Convolutional Neural Network-blokken, og metaarkitekturen til Mamba- og Gated CNN-blokkene kan behandles som en forenklet integrasjon av token-mikseren til MetaFormer-rammeverket, og en MLP . 

Mamba-blokken utvider Gated Convolutional Neural Network med en ekstra State Space Model, og tilstedeværelsen av en SSm er det som skiller Gated CNN og Mamba-blokken. Videre, for å forbedre den praktiske hastigheten, utfører MambaOut-rammeverket kun dybdevis konvolusjon på delvise kanaler, og som demonstrert i følgende algoritme, er implementeringen av Gated CNN-blokken enkel, men effektiv og elegant. 

Bildeklassifiseringsoppgave

ImageNet fungerer som målestokken for bildeklassifiseringsoppgaver siden det består av over tusen vanlige klasser, over 1.3 millioner treningsbilder og over 50,000 XNUMX valideringsbilder. Dataforsterkningen som ble brukt for eksperimentet består av tilfeldig endret størrelse av beskjæring, Mixup, fargejitter, Random Erasing, CutMix og Rand Augment. Følgende tabell oppsummerer ytelsen til Mamba-familien av modeller, MambaOut-modellen og andre oppmerksomhetsbaserte og konvolusjonsmodeller på ImageNet-datasettet. Som det kan sees, overgår MambaOut-rammeverket uten tilstandsrommodellen visuelle Mamba-modeller med SSM konsekvent på tvers av alle modellstørrelser. 

For eksempel gir MambaOut-Small-modellen en topp-1 nøyaktighetsscore på over 84 %, 0.4 % høyere enn den nærmeste Mamba-konkurrenten. Dette resultatet støtter sterkt den første hypotesen som hevder at det ikke er nødvendig å introdusere en tilstandsrommodell for bildeklassifiseringsoppgaver. 

Objektgjenkjenning og instanssegmenteringsoppgaver

COCO fungerer som en målestokk for objektdeteksjon og instanssegmenteringsoppgaver. Selv om MambaOut-rammeverket er i stand til å overgå ytelsen til noen visuelle Mamba-modeller, mangler det fortsatt de nyeste visuelle Mamba-modellene, inkludert LocalVMamba og VMamba. Forskjellene i ytelsen til MambaOut og de nyeste visuelle modellene understreker fordelene ved å integrere Mamba-modellen i langsiktige visuelle oppgaver. Det er imidlertid verdt å merke seg at det fortsatt eksisterer et betydelig ytelsesgap mellom toppmoderne konvolusjon-oppmerksomhet-hybridmodeller og visuelle Mamba-modeller. 

Final Thoughts

I denne artikkelen har vi diskutert konseptene til Mamba-modellen, og konkludert med at den er egnet for oppgaver som involverer autoregressive og langsekvensegenskaper. MambaOut er et verk som forsøker å fordype seg i essensen av Mamba-rammeverket, og svare på om Mamba er ideelt egnet for oppgaver med autoregressive og lang-sekvens-karakteristikker. MambaOut-rammeverket antar at Mamba ikke er nødvendig for synsoppgaver siden bildeklassifisering verken stemmer overens med langsekvens eller autoregressive egenskaper. Selv om segmenterings- og deteksjonsoppgaver heller ikke er autoregressive, viser de langsekvenskarakteristikker, noe som fører til at MambaOut-rammeverket antar potensialet til Mamba for disse oppgavene. MambaOut-rammeverket er konstruert ved å stable Mamba-blokker oppå hverandre mens du fjerner tilstandsrommodellen, dens kjernetoken-mikser. De eksperimentelle resultatene støtter hypotesen fremsatt av MambaOut-rammeverket siden det er i stand til å overgå alle de visuelle Mamba-modellene på ImageNet-bildeklassifiseringsrammeverket, noe som indikerer at Mamba ikke er nødvendig for synsoppgaver. På den annen side for deteksjons- og segmenteringsoppgaver, er ikke MambaOut-rammeverket i stand til å gjenskape ytelsen som tilbys av den moderne Mamba-modellen, noe som demonstrerer potensialet til Mamba-familien av modeller for visuelle oppgaver med lang sekvens. 

 

"En ingeniør av yrke, en forfatter utenat". Kunal er en teknisk forfatter med en dyp kjærlighet og forståelse for AI og ML, dedikert til å forenkle komplekse konsepter på disse feltene gjennom sin engasjerende og informative dokumentasjon.