Kunstig intelligens
MambaOut: Er vi virkelig avhengige av Mamba for visjon?
I moderne maskinlæring og kunstig intelligens-rammeverk er transformatorer en av de mest brukte komponentene på tvers av ulike domener, inkludert GPT-serien og BERT i naturlig språkbehandling, og Vision Transformers i visuelle oppgaver. Selv om inkludering av transformatorer i modellarkitekturen gir en betydelig forbedring av modellens ytelse, skalerer oppmerksomhetsmodulen i Transformatorer kvadratisk med sekvenslengden, noe som fører til høye beregningsutfordringer. Over årene har ulike modeller utforsket ulike strategier for å takle beregningsutfordringene, inkludert metoder som kernelisering, historisk minnehåndtering, token-blandingsområdesbegrensning og lav-rank metoder. Nylig har rekursive neurale nettverk som Mamba og RWKV samlet betydelig oppmerksomhet på grunn av deres løftende resultater i store språkmodeller.
Mamba, en familie av modeller, har en arkitektur med en rekursiv neuralt nettverk-lignende token-blander av en tilstandsrommodell, som nylig ble introdusert for å løse den kvadratiske kompleksiteten til oppmerksomhetsmekanismene og ble deretter brukt til visuelle oppgaver. Forskere har allerede utforsket måter å inkorporere Mamba og SSM eller tilstandsrommodell i visuelle gjenkjenningsoppgaver, og Vision Mamba som inkorporerer Mamba for å utvikle isotrope visjonmodeller lik Vision Transformer, er et godt eksempel på dette. På den andre siden inkorporerer LocalMamba lokale induktive fordommer for å forbedre visuelle Mamba-modeller, og VMamba-rammeverket bruker basis-Mamba-modellen til å konstruere hierarkiske modeller lik ResNet og AlexNet. Men er Mamba-rammeverket virkelig essensielt for visuelle gjenkjenningskontekstoppdrag? Spørsmålet oppstår fordi ytelsen til Mamba-familien av modeller for visuelle oppgaver har vært skuffende så langt når de sammenlignes med tradisjonelle oppmerksomhetsbaserte og konvolusjonsmodeller.
MambaOut forsøker å svare på om Mamba er ideelt egnet for oppgaver med autoregressive og langsekvens-egenskaper. MambaOut-rammeverket antar at Mamba ikke er nødvendig for visuelle oppgaver siden bildeklassifisering ikke stemmer overens med hverken langsekvens- eller autoregressive egenskaper. Selv om segmentering og deteksjonsoppgaver ikke er autoregressive, viser de langsekvens-egenskaper, noe som fører MambaOut-rammeverket til å anta muligheten for Mamba for disse oppgavene. MambaOut-rammeverket konstrueres ved å stable Mamba-blokker på toppen av hverandre mens de fjerner tilstandsrommodellen, dens kjerne token-blander. Ekperimentelle resultater støtter hypotesen fremmet av MambaOut-rammeverket, siden det er i stand til å overgå alle visuelle Mamba-modeller på ImageNet-bildeklassifiseringrammeverket, noe som indikerer at Mamba ikke er nødvendig for visuelle oppgaver. På den andre siden, for deteksjons- og segmenteringsoppgaver, er MambaOut-rammeverket ikke i stand til å gjenskape ytelsen tilbudt av state-of-the-art Mamba-modellen, noe som demonstrerer muligheten for Mamba-familien av modeller for langsekvens-visuelle oppgaver.
Denne artikkelen har som mål å dekke MambaOut-rammeverket i dybden, og vi utforsker mekanismen, metoden, arkitekturen til rammeverket sammen med dens sammenligning med state-of-the-art-rammeverk. Så la oss komme i gang.
MambaOut: Er Mamba virkelig nødvendig for visjon?
Med fremgangen i maskinlæring og kunstig intelligens-applikasjoner, har transformatorer blitt det mest brukte rammeverket for en rekke oppgaver, og driver fremtredende modeller inkludert Vision Transformers, GPT-serien av modeller, BERT, og noen flere. Men token-blanderen i transformatorer medfører en kvadratisk kompleksitet i forhold til sekvenslengden, og stiller betydelige utfordringer for lengre sekvenser. For å løse dette problemet, er det blitt introdusert flere token-blandere med lineær kompleksitet i forhold til token-lengde, som Linformer, Longformer, Performer, Dynamisk konvolusjon og Big Bird. Likevel, i nyere tid, har rekursive neurale nettverk-lignende modeller som Mamba og RWKV samlet betydelig oppmerksomhet på grunn av deres løftende resultater i store språkmodeller. Guidet av de bemerkelsesverdige resultater tilbudt av RNN-lignende modeller, forsøker forskere å introdusere og bruke Mamba-familien av modeller i visuelle gjenkjenningsoppgaver, siden token-blanderen i Mamba-modellene er den strukturerte tilstandsrommodellen under ånden av rekursive neurale nettverk. Men eksperimentelle resultater indikerer at tilstandsrommodell-baserte rammeverk for visjon utfører underwhelmingt over virkelige visuelle oppgaver når de sammenlignes med oppmerksomhetsbaserte og state-of-the-art konvolusjonsmodeller.
MambaOut er et forsøk på å undersøke naturen til Mamba-familien av modeller, og sammenfatter at Mamba er egnet for oppgaver som er enten autoregressive eller langsekvens, siden tilstandsrommodellen har en innebygd RNN-mekanisme. Likevel, de fleste visuelle oppgaver har ikke begge disse egenskapene, og basert på noen eksperimenter, foreslår MambaOut to hypoteser. Først, er tilstandsrommodellen ikke nødvendig for bildeklassifisering, siden bildeklassifisering ikke stemmer overens med hverken autoregressive eller langsekvens-egenskaper. Andre, kan tilstandsrommodeller være hypotetisk nyttige for instanssegmentering og semantisk segmentering, samt objekt-deteksjon, siden de viser langsekvens-egenskaper, selv om de ikke er autoregressive. Eksperimentelle resultater utført for å analysere den rekursive neurale nettverk-lignende mekanismen til tilstandsrommodellen, konkluderer at Mamba-rammeverket er egnet for oppgaver med autoregressive eller langsekvens-egenskaper, og er unødvendig for bildeklassifisering. Når det gjelder MambaOut-rammeverket selv, er det en serie av Mamba-modeller basert på Gated konvolusjonsneurale nettverks-blokker uten tilstandsrommodellen, og eksperimentelle resultater indikerer at MambaOut-rammeverket er i stand til å overgå Mamba-modellene i bildeklassifisering, men mislykkes i å gjenskape ytelsen på bilde-deteksjons- og segmenteringsoppgaver.
Hvilke oppgaver er Mamba egnet for?
Token-blanderen i Mamba-rammeverket er en selektiv tilstandsrommodell som definerer fire inndata-avhengige parametre. Den rekursive egenskapen til rammeverket skiller RNN-lignende tilstandsrommodeller fra kausale oppmerksomhetsmekanismer. Den skjulte tilstanden kan sees som en fast-størrelse minne som lagrer historisk informasjon. Den faste størrelsen betyr at minnet er tapende, men det sikrer også at den beregningsmessige kompleksiteten til å integrere minne med nåværende inndata forblir konstant. Omvendt, lagrer kausale oppmerksomhetslag alle nøkler og verdier fra tidligere token, og utvides ved å legge til nøkkelen og verdien til nåværende token med hver ny inndata, og denne minnet er tapfri, teoretisk sett. Likevel, vokser minnestørrelsen når flere token blir inputtet, og øker kompleksiteten til å integrere minnet med nåværende inndata. Forskjellen mellom minnemekanismene mellom kausale oppmerksomhetsmekanismer og RNN-lignende modeller er illustrert i følgende figur.

Siden minnet til tilstandsrommodellen er innebygd tapende, kommer det til kort i forhold til den tapfrie minnet til kausale oppmerksomhetsmekanismer, og som resultat, kan Mamba-modellene ikke demonstrere sin styrke i å håndtere korte sekvenser, et område hvor kausale oppmerksomhetsmekanismer utfører godt med lettighet. Likevel, i scenarier som involverer lange sekvenser, feiler den kausale oppmerksomhets-tilnærmingen på grunn av den kvadratiske kompleksiteten. I dette scenarioet, viser Mamba-rammeverket sin effisiens i å integrere minne med nåværende inndata, og er i stand til å håndtere lange sekvenser jevnt, noe som indikerer at Mamba-familien av modeller er godt egnet for å prosessere lange sekvenser.
Det er også verdt å merke seg at på den ene siden hvor den rekursive naturen til tilstandsrommodellen tillater Mamba-modellene å effektivt håndtere lange sekvenser, introduserer det en bestemt begrensning, siden det kun kan aksessere informasjon fra nåværende og tidligere tidssteg, og denne typen token-blanding kalles kausale modus, og er illustrert i følgende figur. På grunn av sin kausale natur, er denne metoden egnet for autoregressive genereringoppdrag.

Den fullt-synlige modusen er egnet for oppgaver hvor modellen kan aksessere alle inndata på en gang. Videre, er oppmerksomhet i fullt-synlig modus som standard, og kan enkelt konverteres til kausale modus ved å bruke kausale masker til oppmerksomhetskart, og RNN-lignende modeller opererer innebygd i kausale modus på grunn av deres rekursive egenskaper. For å sammenfatte ting, er Mamba-rammeverket egnet for oppgaver som enten involverer prosessering av lange sekvenser, eller oppgaver som krever kausale token-blandingsmodus.
Visuelle gjenkjenningsoppgaver, kausale token-blandingskode og meget lange sekvenser
Som diskutert tidligere, tillater den fullt-synlige token-blandingsmodus en ubegrenset rekke av blandinger, mens den kausale modus begrenser nåværende token til å kun aksessere informasjon fra tidligere token. Videre, er visuell gjenkjenningsoppgave kategorisert som en forståelsesoppgave hvor modellen kan se hele bildet på en gang, og dette eliminerer behovet for begrensninger på token-blanding, og å påføre ekstra begrensninger på token-blanding kan degradere modellens ytelse potensielt. Generelt, er den fullt-synlige modusen egnet for forståelsesoppgaver, mens den kausale modusen passer bedre for autoregressive oppgaver. Videre, støttes dette kravet ytterligere av faktumet at BeRT og ViT-modeller brukes mer for forståelsesoppgaver enn GPT-modeller.
Eksperimentell verifisering og resultater
Neste steg er å verifisere hypotesene foreslått av MambaOut-rammeverket eksperimentelt. Som demonstrert i følgende bilde, er Mamba-blokken basert på Gated konvolusjonsneuralt nettverks-blokke, og meta-arkitekturen til Mamba- og Gated CNN-blokker kan behandles som en forenklet integrasjon av token-blanderen til MetaFormer-rammeverket og en MLP.

Mamba-blokken utvider Gated konvolusjonsneuralt nettverks-blokke med en ekstra tilstandsrommodell, og tilstedeværelsen av en SSm er det som skiller Gated CNN og Mamba-blokken. Videre, for å forbedre den praktiske hastigheten, gjennomfører MambaOut-rammeverket kun dybdevis konvolusjon på delvis kanaler, og som demonstrert i følgende algoritme, er implementeringen av Gated CNN-blokken enkel, men likevel effektiv og elegant.

Bildeklassifisering
ImageNet tjener som benchmark for bildeklassifisering, og består av over 1000 vanlige klasser, over 1,3 millioner treningsbilder og over 50 000 valideringsbilder. Dataforstørkningen brukt i eksperimentet består av tilfeldig størrelsesendring, Mixup, fargejitter, Tilfeldig sletting, CutMix og Rand Augment. Følgende tabell sammenfatter ytelsen til Mamba-familien av modeller, MambaOut-modellen og andre oppmerksomhetsbaserte og konvolusjonsmodeller på ImageNet-datasettet. Som det kan ses, overgår MambaOut-rammeverket uten tilstandsrommodellen konsekvent alle visuelle Mamba-modeller med SSM over alle modellstørrelser.

For eksempel, returnerer MambaOut-Small-modellen en topp-1 nøyaktighetspoeng på over 84%, 0,4% høyere enn sin nærmeste Mamba-konkurrent. Dette resultatet støtter sterkt den første hypotesen som hevder at å introdusere en tilstandsrommodell for bildeklassifisering er ikke nødvendig.
Objekt-deteksjon og instanssegmentering
COCO tjener som benchmark for objekt-deteksjon og instanssegmentering. Selv om MambaOut-rammeverket er i stand til å overgå ytelsen til noen visuelle Mamba-modeller, kommer det likevel til kort i forhold til state-of-the-art visuelle Mamba-modeller, inkludert LocalVMamba og VMamba. Forskjellen i ytelse mellom MambaOut og state-of-the-art visuelle modeller understreker fordelen ved å integrere Mamba-familien av modeller i langsekvens-visuelle oppgaver. Likevel, er det verdt å merke seg at en betydelig ytelsesforskjell fortsatt eksisterer mellom state-of-the-art konvolusjons-oppmerksomhets-hybridmodeller og visuelle Mamba-modeller.

Slutt tanker
Mamba-familien av modeller synes å være egnet for oppgaver som involverer autoregressive og langsekvens-egenskaper. MambaOut-rammeverket antar at Mamba ikke er nødvendig for visuelle oppgaver, siden bildeklassifisering ikke stemmer overens med hverken langsekvens- eller autoregressive egenskaper. Selv om segmentering og deteksjonsoppgaver ikke er autoregressive, viser de langsekvens-egenskaper, noe som fører MambaOut-rammeverket til å anta muligheten for Mamba for disse oppgavene. MambaOut-rammeverket konstrueres ved å stable Mamba-blokker på toppen av hverandre mens de fjerner tilstandsrommodellen, dens kjerne token-blander. Ekperimentelle resultater støtter hypotesen fremmet av MambaOut-rammeverket, siden det er i stand til å overgå alle visuelle Mamba-modeller på ImageNet-bildeklassifiseringrammeverket, noe som indikerer at Mamba ikke er nødvendig for visuelle oppgaver. På den andre siden, for deteksjons- og segmenteringsoppgaver, er MambaOut-rammeverket ikke i stand til å gjenskape ytelsen tilbudt av state-of-the-art Mamba-modellen, noe som demonstrerer muligheten for Mamba-familien av modeller for langsekvens-visuelle oppgaver.












