Kunstig intelligens
MambaOut: Har vi virkelig brug for Mamba til vision?
I moderne maskinlærings- og kunstig intelligens-rammer er transformatorer en af de mest anvendte komponenter på tværs af forskellige domæner, herunder GPT-serien og BERT i naturlig sprogbehandling samt Vision Transformers i computer vision-opgaver. Selvom inklusion af transformatorer i modelarkitekturen giver en betydelig forbedring af modelpræstationen, skalerer opmærksomhedsmodulen i Transformers kvadratisk med henblik på sekvenslængden, hvilket fører til store beregningsmæssige udfordringer. Gennem årene har forskellige modeller undersøgt forskellige strategier for at tackle de beregningsmæssige udfordringer, herunder metoder som kernelisering, historik hukommelseskomprimering, tokenblandingsområdesbegrænsning og lav-rangmetoder. For nylig har Recurrent Neural Networks som metoder, herunder Mamba og RWKV, samlet betydelig opmærksomhed på grund af deres lovende resultater i store sprogmodeller.
Mamba, en model-familie, har en arkitektur med en Recurrent Neural Network-lignende token-blander af en tilstandsrum-model, der blev introduceret for at tackle den kvadratiske kompleksitet af opmærksomheds-mekanismerne og blev herefter anvendt til vision-opgaver. Forskere har allerede undersøgt måder at inkorporere Mamba og SSM eller State Space Model i visuel genkendelsesopgaver, og Vision Mamba, der inkorporerer Mamba for at udvikle isotrope vision-modeller lignende Vision Transformer, er et godt eksempel herpå. På den anden side inkorporerer LocalMamba lokale induktive fordomme for at forbedre visuelle Mamba-modeller, og VMamba-rammeværket anvender den grundlæggende Mamba-model til at konstruere hierarkiske modeller lignende ResNet og AlexNet. Men er Mamba-rammeværket virkelig essentiel for visuel genkendelseskontekst-opgaver? Spørgsmålet opstår, fordi præstationen af Mamba-familien af modeller for vision-opgaver har været skuffende hidtil i forhold til traditionelle opmærksomheds-baserede og convolutionelle modeller.
MambaOut forsøger at besvare, om Mamba er ideelt egnet til opgaver med autoregressive og lang-sekvens-egenskaber. MambaOut-rammeværket formulerer hypotesen, at Mamba ikke er nødvendig for vision-opgaver, da billedklassificering ikke stemmer overens med hverken lang-sekvens eller autoregressive egenskaber. Selvom segmenterings- og detektionsopgaver ikke er autoregressive, viser de dog lang-sekvens-egenskaber, hvilket fører MambaOut-rammeværket til at formodning om potentialet for Mamba i disse opgaver. MambaOut-rammeværket konstrueres ved at stable Mamba-blokke oven på hinanden, mens den fjerner tilstandsrum-modellen, dens kerne-token-blander. Eksperimentelle resultater støtter hypotesen, der er fremsat af MambaOut-rammeværket, da det er i stand til at overgå alle visuelle Mamba-modeller på ImageNet-billedklassificeringsrammeværket, hvilket indikerer, at Mamba ikke er nødvendig for vision-opgaver. På den anden side er MambaOut-rammeværket ikke i stand til at genskabe præstationen, der tilbydes af state-of-the-art Mamba-modellen, hvilket demonstrerer potentialet for Mamba-familien af modeller for lang-sekvens visuelle opgaver.
Denne artikel har til formål at dække MambaOut-rammeværket i dybden, og vi undersøger mekanismen, metoden, arkitekturen i rammeværket samt sammenligningen med state-of-the-art-rammeværker. Så lad os komme i gang.
MambaOut: Er Mamba virkelig nødvendig for vision?
Med fremgangen i maskinlæringsapplikationer og -kapaciteter er Transformers blevet til den mest anvendte rygrad for en række opgaver, der driver fremtrædende modeller, herunder Vision Transformers, GPT-serien af modeller, BERT og flere. Men token-blanderen i transformatoren medfører en kvadratisk kompleksitet i forhold til sekvenslængden og stiller betydelige udfordringer for længere sekvenser. For at tackle dette problem er forskellige token-blandere med lineær kompleksitet i forhold til token-længden, herunder Linformer, Longformer, Performer, Dynamisk convolution og Big Bird, blevet introduceret. Men i de seneste tider er Recurrent Neural Network-lignende modeller blevet mere fremtrædende på grund af deres evne til paralleliserbar træning og levering af effektiv præstation på længere sekvenser. Guidet af den bemærkelsesværdige præstation, der tilbydes af RNN-lignende modeller, forsøger forskere at introducere og anvende Mamba-familien af modeller i visuel genkendelsesopgaver, da token-blanderen i Mamba-modellerne er den strukturerede tilstandsrum-model under ånden af Recurrent Neural Networks. Men eksperimentelle resultater indikerer, at tilstandsrum-model-baserede rammeværker for vision præsterer underwhelmingt på tværs af virkelige vision-opgaver i forhold til opmærksomheds-baserede og state-of-the-art convolutionelle modeller.
MambaOut er et forsøg på at undersøge naturen af Mamba-familien af modeller og sammenfatter, at Mamba er egnet til opgaver, der enten er autoregressive eller af lang-sekvens, da tilstandsrum-modellen har en indbygget RNN-mekanisme. Men de fleste vision-opgaver har ikke begge disse egenskaber, og på baggrund af nogle eksperimenter formulerer MambaOut følgende to hypoteser. Først er tilstandsrum-modellen ikke nødvendig for billedklassificering, da billedklassificeringsopgaven ikke stemmer overens med hverken autoregressive eller lang-sekvens-egenskaber. Anden, tilstandsrum-modeller kan hypotetisk være nyttige for instans-segmentering og semantisk segmentering samt objekt-detektion, da de følger lang-sekvens-egenskaber, selvom de ikke er autoregressive. Eksperimentelle resultater, der er udført for at analysere den Recurrent Neural Network-lignende mekanisme af tilstandsrum-modellen, konkluderer, at Mamba-rammeværket er egnet til opgaver med autoregressive eller lang-sekvens-egenskaber og er unødvendig for billedklassificeringsopgaver. Når det kommer til MambaOut-rammeværket selv, er det en række Mamba-modeller baseret på Gated Convolutional Neural Network-blokke uden tilstandsrum-modellen, og eksperimentelle resultater indikerer, at MambaOut-rammeværket er i stand til at overgå Mamba-modeller i billedklassificeringsopgaver, men ikke er i stand til at genskabe præstationen på billed-detektions- og segmenteringsopgaver.
Hvilke opgaver er Mamba egnet til?
Token-blanderen i Mamba-rammeværket er en selektiv tilstandsrum-model, der definerer fire input-afhængige parametre. Den rekurrente egenskab af rammeværket adskiller RNN-lignende tilstandsrum-modeller fra causal opmærksomhed. Den skjulte tilstand kan ses som en fast-størrelses hukommelse, der gemmer historisk information. Den faste størrelse betyder, at hukommelsen er tabende, men det sikrer også, at den beregningsmæssige kompleksitet af at integrere hukommelsen med den aktuelle input forbliver konstant. Omvendt gemmer causal opmærksomheds-lag alle nøgler og værdier fra tidligere tokens og udvides ved at tilføje nøglen og værdien af den aktuelle token med hver ny input, og denne hukommelse er tabningsfri, teoretisk. Men hukommelsesstørrelsen vokser, efterhånden som der indsættes flere tokens, og kompleksiteten af at integrere hukommelsen med den aktuelle input øges. Forskellen mellem hukommelses-mekanismerne mellem causal opmærksomhed og RNN-lignende modeller er illustreret i følgende figur.

Da hukommelsen af tilstandsrum-modellen er inherent tabende, kommer den til kort i forhold til den tabningsfrie hukommelse af causal opmærksomhed, og som resultat kan Mamba-modellerne ikke demonstrere deres styrke i håndtering af korte sekvenser, et område, hvor causal opmærksomheds-mekanismen fungerer godt med lethed. Men i scenarier, der involverer lange sekvenser, fejler den causale opmærksomheds-tilgang på grund af den kvadratiske kompleksitet. I dette scenarie viser Mamba-rammeværket sin effektivitet i at fusionere hukommelse med den aktuelle input og er i stand til at håndtere lange sekvenser jævnt, hvilket indikerer, at Mamba-familien af modeller er velegnet til at håndtere lange sekvenser.
Det er også værd at bemærke, at på den ene side, hvor den rekurrente natur af tilstandsrum-modellen tillader Mamba-modellerne at håndtere lange sekvenser effektivt, introducerer det en vis begrænsning, da den kun kan få adgang til information fra den aktuelle og tidligere tidssteg, og denne type token-blanding kaldes causal-modus og er illustreret i følgende figur. På grund af dens causale natur er denne metode egnet til autoregressive genereringsopgaver.

Den fuldt-synlige modus er egnet til forståelsesopgaver, hvor modellen kan få adgang til alle input på én gang. Desuden er opmærksomhed i fuldt-synlig modus som standard, og den kan omdannes til causal-modus let ved at anvende causale masker til opmærksomheds-kortene, og RNN-lignende modeller opererer inherent i causal-modus på grund af deres rekurrente egenskaber. For at sammenfatte tingene er Mamba-rammeværket egnet til opgaver, der enten involverer håndtering af lange sekvenser eller opgaver, der kræver causal token-blandings-modus.
Visuel genkendelse, causal token-blandings-kode og meget lange sekvenser
Som diskuteret tidligere tillader den fuldt-synlige token-blandings-modus en ubegrænset række af blandinger, mens den causale modus begrænser den aktuelle token til at få adgang til kun information fra de foregående tokens. Desuden er visuel genkendelse kategoriseret som en forståelsesopgave, hvor modellen kan se hele billedet på én gang, og dette eliminerer behovet for begrænsninger på token-blanding, og påføring af yderligere begrænsninger på token-blanding kan potentielt degradere model-præstationen. Generelt er den fuldt-synlige modus egnet til forståelsesopgaver, mens den causale modus passer bedre til autoregressive opgaver. Desuden understøttes dette krav yderligere af faktum, at BeRT og ViT-modeller anvendes mere til forståelsesopgaver end GPT-modeller.
Eksperimentel verificering og resultater
Det næste trin er at verificere hypoteserne, der er fremsat af MambaOut-rammeværket, eksperimentelt. Som demonstreret i følgende billede er Mamba-blokken baseret på Gated Convolutional Neural Network-blokken, og meta-arkitekturen af Mamba- og Gated CNN-blokke kan behandles som en forenklet integration af token-blanderen i MetaFormer-rammeværket og en MLP.

Mamba-blokken udvider Gated Convolutional Neural Network med en ekstra tilstandsrum-model, og tilstedeværelsen af en SSM er, hvad der adskiller Gated CNN og Mamba-blokken. Desuden for at forbedre den praktiske hastighed udfører MambaOut-rammeværket kun dybdevis convolution på delvis kanaler, og som demonstreret i følgende algoritme er implementeringen af Gated CNN-blokken enkel, men effektiv og elegant.

Billedklassificeringsopgave
ImageNet fungerer som benchmark for billedklassificeringsopgaver, da det består af over 1000 almindelige klasser, over 1,3 millioner træningsbilleder og over 50.000 valideringsbilleder. Data-forstærkningen, der anvendes til eksperimentet, består af tilfældigt resized crop, Mixup, farve-jitter, Random Erasing, CutMix og Rand Augment. Følgende tabel sammenfatter præstationen af Mamba-familien af modeller, MambaOut-modellen og andre opmærksomheds-baserede og convolutionelle modeller på ImageNet-datasættet. Som det kan ses, overgår MambaOut-rammeværket uden tilstandsrum-modellen konsekvent visuelle Mamba-modeller med SSM på tværs af alle model-størrelser.

For eksempel returnerer MambaOut-Small-modellen en top-1 nøjagtighedsscore på over 84%, 0,4% højere end dens nærmeste Mamba-konkurrent. Dette resultat støtter stærkt den første hypotese, der hævder, at introduktion af en tilstandsrum-model til billedklassificeringsopgaver ikke er nødvendig.
Objekt-detektion og instans-segmentering
COCO fungerer som benchmark for objekt-detektions- og instans-segmenteringsopgaver. Selvom MambaOut-rammeværket er i stand til at overgå præstationen af visse visuelle Mamba-modeller, kommer det stadig til kort i forhold til state-of-the-art visuelle Mamba-modeller, herunder LocalVMamba og VMamba. Forskellen i præstation mellem MambaOut og state-of-the-art visuelle modeller understreger fordelene ved at integrere Mamba-familien af modeller i lang-sekvens visuelle opgaver. Men det er værd at bemærke, at der stadig eksisterer en betydelig præstationsforskel mellem state-of-the-art convolution-attention-hybrid-modeller og visuelle Mamba-modeller.

Endelige tanker
Mamba-familien af modeller synes at være egnet til opgaver, der involverer autoregressive og lang-sekvens-egenskaber. MambaOut-rammeværket formulerer hypotesen, at Mamba ikke er nødvendig for vision-opgaver, da billedklassificering ikke stemmer overens med hverken lang-sekvens eller autoregressive egenskaber. Selvom segmenterings- og detektionsopgaver ikke er autoregressive, viser de dog lang-sekvens-egenskaber, hvilket fører MambaOut-rammeværket til at formodning om potentialet for Mamba i disse opgaver. MambaOut-rammeværket konstrueres ved at stable Mamba-blokke oven på hinanden, mens den fjerner tilstandsrum-modellen, dens kerne-token-blander. Eksperimentelle resultater støtter hypotesen, der er fremsat af MambaOut-rammeværket, da det er i stand til at overgå alle visuelle Mamba-modeller på ImageNet-billedklassificeringsrammeværket, hvilket indikerer, at Mamba ikke er nødvendig for vision-opgaver. På den anden side er MambaOut-rammeværket ikke i stand til at genskabe præstationen, der tilbydes af state-of-the-art Mamba-modellen, hvilket demonstrerer potentialet for Mamba-familien af modeller for lang-sekvens visuelle opgaver.




