Følg os

Kunstig intelligens

MambaOut: Har vi virkelig brug for Mamba for Vision?

mm

Udgivet

 on

I moderne maskinlærings- og kunstig intelligens-rammer er transformatorer en af ​​de mest udbredte komponenter på tværs af forskellige domæner, herunder GPT-serier og BERT i Natural Language Processing og Vision Transformers i computervisionsopgaver. Selvom at inkludere transformere i modelarkitekturen giver et betydeligt løft i modelydelsen, skaleres opmærksomhedsmodulet i Transformers med sekvenslængden kvadratisk, hvilket fører til store beregningsmæssige udfordringer. I årenes løb har forskellige modeller udforsket forskellige strategier til at tackle de beregningsmæssige udfordringer, herunder metoder som kernelisering, historiehukommelseskomprimering, begrænsning af token-blandingsrækkevidde og tilgange med lav rang. For nylig har tilbagevendende neurale netværk som metoder inklusive Mamba og RWKV fået betydelig opmærksomhed på grund af deres lovende resultater i store sprogmodeller. 

Mamba, en familie af modeller har en arkitektur med en tilbagevendende neural netværkslignende token-mixer af en tilstandsrumsmodel, der for nylig blev introduceret for at adressere den kvadratiske kompleksitet af opmærksomhedsmekanismerne og blev efterfølgende anvendt til synsopgaver. Forskere har allerede undersøgt måder at inkorporere Mamba og SSM eller State Space Model i visuelle genkendelsesopgaver, og Vision Mamba, der inkorporerer Mamba til at udvikle isotropiske synsmodeller, der ligner Vision Transformer, er et godt eksempel på det samme. På den anden side inkorporerer LocalMamba lokale induktive skævheder for at forbedre visuelle Mamba-modeller, og VMamba-rammeværket anvender basis-Mamba-modellen til at konstruere hierarkiske modeller svarende til ResNet og AlexNet. Men er Mamba-rammen virkelig afgørende for kontekstopgaver med visuel genkendelse? Spørgsmålet opstår, fordi ydeevnen af ​​Mamba-familien af ​​modeller til synsopgaver har været undervældende indtil videre sammenlignet med traditionelle opmærksomhedsbaserede og foldede modeller. 

MambaOut er et værk, der forsøger at dykke ned i essensen af ​​Mamba-rammeværket og svare på, om Mamba er ideelt egnet til opgaver med autoregressive og lang-sekvens karakteristika. MambaOut-rammen antager, at Mamba ikke er nødvendig for synsopgaver, da billedklassificering ikke stemmer overens med hverken langsekvens eller autoregressive karakteristika. Selvom segmenterings- og detektionsopgaver heller ikke er autoregressive, viser de langsekvenskarakteristika, hvilket fører til, at MambaOut-rammen opstiller en hypotese om Mamba's potentiale til disse opgaver. MambaOut-rammen er konstrueret ved at stable Mamba-blokke oven på hinanden, mens du fjerner tilstandsrumsmodellen, dens kerne-token-mixer. De eksperimentelle resultater understøtter hypotesen fremsat af MambaOut-rammen, da den er i stand til at overgå alle de visuelle Mamba-modeller på ImageNet-billedklassificeringsrammerne, hvilket indikerer, at Mamba ikke er nødvendig for synsopgaver. På den anden side for detektions- og segmenteringsopgaver er MambaOut-rammeværket ikke i stand til at replikere ydeevnen, der tilbydes af den avancerede Mamba-model, hvilket viser potentialet i Mamba-familien af ​​modeller til visuelle opgaver i lang rækkefølge. 

Denne artikel har til formål at dække MambaOut-rammerne i dybden, og vi udforsker mekanismen, metodologien, arkitekturen af ​​rammen sammen med dens sammenligning med de nyeste rammer. Så lad os komme i gang. 

MambaOut: Er Mamba virkelig nødvendig for vision?

Med fremskridtene inden for maskinlæringsapplikationer og -funktioner er Transformers dukket op som den almindelige rygrad for en række opgaver, der driver fremtrædende modeller, bl.a. Vision Transformers, GPT serie af modeller, BERT og et par flere. Transformatorens token-mixer pådrager sig imidlertid en kvadratisk kompleksitet med hensyn til sekvenslængden og udgør betydelige udfordringer for længere sekvenser. For at løse dette problem er der blevet introduceret adskillige token-mixere med lineær kompleksitet til token-længde som Linformer, Longformer, Performer, Dynamic Convolution og Big Bird. Men i nyere tid er modeller, der ligner tilbagevendende neurale netværk, blevet fremtrædende på grund af deres evne til paralleliserbar træning og leverer effektiv ydeevne på længere sekvenser. Vejledt af den bemærkelsesværdige ydeevne, der tilbydes af RNN-lignende modeller, forsøger forskere at introducere og bruge Mamba-familien af ​​modeller i visuelle genkendelsesopgaver, da token-mixeren af ​​Mamba-modellerne er den strukturerede tilstandsmodel under ånden af ​​de tilbagevendende neurale netværk. . Eksperimentelle resultater indikerer imidlertid, at statiske rummodelbaserede rammer for vision udfører overvældende på tværs af visionsopgaver i den virkelige verden sammenlignet med opmærksomhedsbaserede og state of the art konvolutionelle modeller. 

MambaOut er et forsøg på at undersøge arten af Mamba familie af modeller, og opsummerer, at Mamba er velegnet til opgaver, der enten er autoregressive eller af lang rækkefølge, da tilstandsrummodellen har en iboende RNN-mekanisme. Et flertal af synsopgaver har dog ikke begge disse egenskaber, og på baggrund af nogle eksperimenter foreslår MambaOut følgende to hypoteser. For det første er tilstandsrummodellen ikke nødvendig for billedklassificering, eftersom billedklassificeringsopgaven hverken er i overensstemmelse med autoregressive eller lang-sekvens karakteristika. For det andet kan tilstandsrumsmodeller være hypotetisk fordelagtige, for eksempel segmentering og semantisk segmentering sammen med objektdetektering, da de følger langsekvensegenskaberne, selvom de ikke er autoregressive. Eksperimentelle resultater udført for at analysere den tilbagevendende neurale netværkslignende mekanisme for tilstandsrumsmodel konkluderer, at Mamba-rammen er velegnet til opgaver med autoregressive eller lang-sekvenskarakteristika og er unødvendig til billedklassificeringsopgaver. Når det kommer til selve MambaOut-rammen, er det en serie af Mamba-modeller baseret på Gated Convolutional Neural Network-blokke uden tilstandsrum-modellen, og eksperimentelle resultater indikerer, at MambaOut-rammen er i stand til at udkonkurrere Mamba-modeller i billedklassificeringsopgaver, men formår ikke at replikere. ydeevnen på billeddetekterings- og segmenteringsopgaver. 

Hvilke opgaver er Mamba velegnet til?

Token-mixeren i Mamba-rammeværket er en selektiv tilstandsmodel, der definerer fire inputafhængige parametre. Rammens tilbagevendende egenskab adskiller RNN-lignende tilstandsrumsmodeller fra kausal opmærksomhed. Den skjulte tilstand kan ses som en hukommelse med fast størrelse, der gemmer historisk information. Den faste størrelse betyder, at hukommelsen er tabsgivende, men den sikrer også, at den beregningsmæssige kompleksitet ved at integrere hukommelse med det aktuelle input forbliver konstant. Omvendt gemmer kausale opmærksomhedslag alle nøgler og værdier fra tidligere tokens og udvides ved at tilføje nøglen og værdien af ​​det aktuelle token med hvert nyt input, og denne hukommelse er teoretisk set tabsfri. Hukommelsesstørrelsen vokser dog, efterhånden som flere tokens indtastes, hvilket øger kompleksiteten af ​​at integrere hukommelsen med den aktuelle input. Forskellen mellem hukommelsesmekanismerne mellem kausal opmærksomhed og RNN-lignende modeller er illustreret i den følgende figur. 

Da hukommelsen af ​​tilstandsrumsmodellen i sagens natur er tabsgivende, kommer den til kort fra den tabsfrie hukommelse om kausal opmærksomhed, og som et resultat heraf Mamba modeller kan ikke demonstrere sin styrke i at håndtere korte sekvenser, et område hvor kausal opmærksomhedsmekanisme fungerer godt med lethed. Men i scenarier, der involverer lange sekvenser, vakler den kausale opmærksomhedstilgang på grund af den kvadratiske kompleksitet. I dette scenarie viser Mamba-rammeværket sin effektivitet i at flette hukommelse med det aktuelle input og er i stand til at håndtere lange sekvenser jævnt, hvilket indikerer, at Mamba-familien af ​​modeller er velegnet til at behandle lange sekvenser. 

Det er også værd at bemærke, at på den ene side, hvor den tilbagevendende karakter af tilstandsrumsmodellen tillader Mamba-modellerne effektivt at håndtere lange sekvenser, introducerer den en vis begrænsning, da den kun kan få adgang til information fra de nuværende og tidligere tidstrin, og denne type Token-blanding kaldes kausal tilstand og illustreret i den følgende figur. På grund af dens kausale karakter er denne metode velegnet til autoregressive generationsopgaver

Den fuldt synlige tilstand er velegnet til at forstå opgaver, hvor modellen kan få adgang til alle input på én gang. Desuden er opmærksomhed som standard i fuldt synlig tilstand, og den kan nemt omdannes til kausal tilstand ved at anvende kausale masker på opmærksomhedskortene, og RNN-lignende modeller fungerer iboende i kausal tilstand på grund af deres tilbagevendende egenskaber. For at opsummere tingene er Mamba-rammen velegnet til opgaver, der enten involverer behandling af lange sekvenser eller opgaver, der kræver kausal token-blandingstilstand.

Visuelle genkendelsesopgaver, kausal token-blandingskode og meget store sekvenser

Som diskuteret tidligere tillader den fuldt synlige token-blandingstilstand ubegrænset rækkevidde af blanding, mens den kausale tilstand begrænser det aktuelle token til kun at få adgang til informationen fra de foregående tokens. Ydermere er visuel genkendelse kategoriseret som en forståelsesopgave, hvor modellen kan se hele billedet på én gang, og dette eliminerer behovet for restriktioner på token-blanding, og at pålægge yderligere begrænsninger for token-blanding kan forringe modellens ydeevne potentielt. Generelt er den fuldt synlige tilstand passende til at forstå opgaver, mens den afslappede tilstand passer bedre til autoregressive opgaver. Ydermere understøttes denne påstand yderligere af, at BeRT- og ViT-modeller bruges til at forstå opgaver mere end GPT-modeller.

Eksperimentel verifikation og resultater

Det næste trin er at verificere hypoteserne foreslået af MambaOut-rammen eksperimentelt. Som vist i det følgende billede er Mamba-blokken baseret på Gated Convolutional Neural Network-blokken, og meta-arkitekturen af ​​Mamba- og Gated CNN-blokkene kan behandles som en forenklet integration af token-mixeren af ​​MetaFormer-rammeværket og en MLP . 

Mamba-blokken udvider Gated Convolutional Neural Network med en ekstra State Space Model, og tilstedeværelsen af ​​en SSm er det, der adskiller Gated CNN og Mamba-blokken. For at forbedre den praktiske hastighed udfører MambaOut-rammerne kun dybdegående foldninger på delvise kanaler, og som vist i den følgende algoritme er implementeringen af ​​Gated CNN-blokken enkel, men alligevel effektiv og elegant. 

Billedklassificeringsopgave

ImageNet fungerer som benchmark for billedklassificeringsopgaver, da det består af over tusinde almindelige klasser, over 1.3 millioner træningsbilleder og over 50,000 valideringsbilleder. Den dataforøgelse, der blev brugt til eksperimentet, består af tilfældig ændret størrelse af beskæring, Mixup, farvejitter, Random Erasing, CutMix og Rand Augment. Følgende tabel opsummerer ydeevnen af ​​Mamba-familien af ​​modeller, MambaOut-modellen og andre opmærksomhedsbaserede & foldningsmodeller på ImageNet-datasættet. Som det kan ses, udkonkurrerer MambaOut-rammen uden tilstandsrum-modellen visuelle Mamba-modeller med SSM konsekvent på tværs af alle modelstørrelser. 

For eksempel returnerer MambaOut-Small-modellen en top-1 nøjagtighedsscore på over 84 %, 0.4 % højere end dens nærmeste Mamba-konkurrent. Dette resultat understøtter kraftigt den første hypotese, der hævder, at det ikke er nødvendigt at indføre en tilstandsmodel for billedklassificeringsopgaver. 

Objektdetektion og instanssegmenteringsopgaver

COCO fungerer som et benchmark for objektdetektering og instanssegmenteringsopgaver. Selvom MambaOut-rammen er i stand til at overgå ydeevnen af ​​nogle visuelle Mamba-modeller, mangler den stadig de nyeste visuelle Mamba-modeller inklusive LocalVMamba og VMamba. Forskellen i ydeevne af MambaOut i forhold til avancerede visuelle modeller understreger fordelene ved at integrere Mamba-familien af ​​modeller i langsigtede visuelle opgaver. Det er dog værd at bemærke, at der stadig eksisterer et betydeligt ydelsesgab mellem state of the art convolution-attention-hybrid-modeller og visuelle Mamba-modeller. 

Afsluttende tanker

I denne artikel har vi diskuteret koncepterne for Mamba-modellen og konkluderet, at den er velegnet til opgaver, der involverer autoregressive og lang-sekvens karakteristika. MambaOut er et værk, der forsøger at dykke ned i essensen af ​​Mamba-rammeværket og svare på, om Mamba er ideelt egnet til opgaver med autoregressive og lang-sekvens karakteristika. MambaOut-rammen antager, at Mamba ikke er nødvendig for synsopgaver, da billedklassificering ikke stemmer overens med hverken langsekvens eller autoregressive karakteristika. Selvom segmenterings- og detektionsopgaver heller ikke er autoregressive, viser de langsekvenskarakteristika, hvilket fører til, at MambaOut-rammen opstiller en hypotese om Mamba's potentiale til disse opgaver. MambaOut-rammen er konstrueret ved at stable Mamba-blokke oven på hinanden, mens du fjerner tilstandsrumsmodellen, dens kerne-token-mixer. De eksperimentelle resultater understøtter hypotesen fremsat af MambaOut-rammen, da den er i stand til at overgå alle de visuelle Mamba-modeller på ImageNet-billedklassificeringsrammerne, hvilket indikerer, at Mamba ikke er nødvendig for synsopgaver. På den anden side til detektions- og segmenteringsopgaver er MambaOut-rammeværket ikke i stand til at replikere ydeevnen, der tilbydes af den avancerede Mamba-model, hvilket demonstrerer potentialet i Mamba-familien af ​​modeller til visuelle opgaver i lang sekvens. 

 

"En ingeniør af profession, en forfatter udenad". Kunal er en teknisk skribent med en dyb kærlighed og forståelse for AI og ML, dedikeret til at forenkle komplekse begreber på disse områder gennem sin engagerende og informative dokumentation.