stub MambaOut: Behöver vi verkligen Mamba för Vision? - Unite.AI
Anslut dig till vårt nätverk!

Artificiell intelligens

MambaOut: Behöver vi verkligen Mamba för Vision?

mm

publicerade

 on

I moderna ramverk för maskininlärning och artificiell intelligens är transformatorer en av de mest använda komponenterna inom olika domäner inklusive GPT-serier och BERT i Natural Language Processing och Vision Transformers i datorseendeuppgifter. Även om inkludering av transformatorer i modellarkitekturen ger en betydande ökning av modellens prestanda, skalar uppmärksamhetsmodulen i Transformers med sekvenslängden kvadratiskt, vilket leder till höga beräkningsutmaningar. Under årens lopp har olika modeller utforskat olika strategier för att ta itu med beräkningsutmaningarna inklusive metoder som kärnbildning, historikminneskomprimering, begränsning av tokenblandningsintervall och lågrankade metoder. Nyligen har återkommande neurala nätverk som metoder inklusive Mamba och RWKV fått stor uppmärksamhet på grund av deras lovande resultat i stora språkmodeller. 

Mamba, en familj av modeller har en arkitektur med en återkommande neural nätverksliknande tokenmixer av en tillståndsrymdmodell som nyligen introducerades för att ta itu med den kvadratiska komplexiteten hos uppmärksamhetsmekanismerna och applicerades på synuppgifter senare. Forskare har redan utforskat sätt att införliva Mamba och SSM eller State Space Model i visuella igenkänningsuppgifter, och Vision Mamba som integrerar Mamba för att utveckla isotropa synmodeller som liknar Vision Transformer är ett bra exempel på detsamma. Å andra sidan innehåller LocalMamba lokala induktiva fördomar för att förbättra visuella Mamba-modeller, och VMamba-ramverket använder basmodellen Mamba för att konstruera hierarkiska modeller som liknar ResNet och AlexNet. Men är Mamba-ramverket verkligen avgörande för sammanhangsuppgifter med visuell igenkänning? Frågan uppstår eftersom prestandan hos Mamba-familjen av modeller för synuppgifter har varit underväldigande än så länge jämfört med traditionella uppmärksamhetsbaserade och konvolutionerande modeller. 

MambaOut är ett verk som försöker fördjupa sig i essensen av Mamba-ramverket och svara på om Mamba är idealiskt lämpad för uppgifter med autoregressiva och långa sekvensegenskaper. MambaOut-ramverket antar att Mamba inte är nödvändigt för synuppgifter eftersom bildklassificering inte överensstämmer med vare sig långsekvens eller autoregressiva egenskaper. Även om segmenterings- och detektionsuppgifter inte heller är autoregressiva, visar de långa sekvensegenskaper, vilket leder till att MambaOut-ramverket antar potentialen hos Mamba för dessa uppgifter. MambaOut-ramverket är konstruerat genom att stapla Mamba-block ovanpå varandra samtidigt som man tar bort tillståndsrymdmodellen, dess kärntokenmixer. De experimentella resultaten stöder hypotesen som lagts fram av MambaOut-ramverket eftersom det kan överträffa alla visuella Mamba-modeller på ImageNet-bildklassificeringsramverket, vilket indikerar att Mamba inte är nödvändig för synuppgifter. Å andra sidan för detekterings- och segmenteringsuppgifter, kan MambaOut-ramverket inte replikera prestanda som erbjuds av den senaste Mamba-modellen, vilket visar potentialen hos Mamba-modellfamiljen för visuella uppgifter i långa sekvenser. 

Den här artikeln syftar till att täcka MambaOut-ramverket på djupet, och vi utforskar mekanismen, metodiken, arkitekturen för ramverket tillsammans med dess jämförelse med toppmoderna ramverk. Så låt oss börja. 

MambaOut: Behövs Mamba verkligen för vision?

Med framstegen för maskininlärningstillämpningar och kapaciteter har Transformers framstått som den vanliga ryggraden för en rad uppgifter, som driver framstående modeller, inklusive Vision Transformers, GPT-serien av modeller, BERT och några till. Emellertid ådrar sig transformatorns tokenblandare en kvadratisk komplexitet med avseende på sekvenslängden och utgör betydande utmaningar för längre sekvenser. För att lösa detta problem har många token-mixers med linjär komplexitet till tokenlängd som Linformer, Longformer, Performer, Dynamic Convolution och Big Bird introducerats. Men på senare tid har återkommande neurala nätverksliknande modeller blivit framträdande på grund av deras förmåga till parallelliserbar träning och leverera effektiv prestanda i längre sekvenser. Guidad av den anmärkningsvärda prestanda som erbjuds av RNN-liknande modeller, försöker forskare introducera och använda Mamba-familjen av modeller i visuella igenkänningsuppgifter eftersom tokenmixern för Mamba-modellerna är den strukturerade tillståndsmodellen under andan av Recurrent Neural Networks . Experimentella resultat indikerar dock att statistiska rymdmodellbaserade ramverk för vision fungerar överväldigande över verkliga visionuppgifter jämfört med uppmärksamhetsbaserade och toppmoderna konvolutionella modeller. 

MambaOut är ett försök att undersöka arten av Mamba familj av modeller, och sammanfattar att Mamba lämpar sig för uppgifter som antingen är autoregressiva eller av lång sekvens eftersom tillståndsrymdmodellen har en inneboende RNN-mekanism. En majoritet av synuppgifter har dock inte båda dessa egenskaper, och på basis av några experiment föreslår MambaOut följande två hypoteser. För det första är tillståndsrymdmodellen inte nödvändig för bildklassificering eftersom bildklassificeringsuppgiften varken överensstämmer med autoregressiva eller långa sekvensegenskaper. För det andra kan tillståndsrumsmodeller vara hypotetiskt fördelaktiga, till exempel segmentering och semantisk segmentering tillsammans med objektdetektering, eftersom de följer långsekvensegenskaperna även om de inte är autoregressiva. Experimentella resultat som utförts för att analysera den återkommande neurala nätverksliknande mekanismen för tillståndsrymdmodellen drar slutsatsen att Mamba-ramverket är lämpligt för uppgifter med autoregressiva eller långa sekvensegenskaper och är onödigt för bildklassificeringsuppgifter. När det gäller själva MambaOut-ramverket är det en serie Mamba-modeller baserade på Gated Convolutional Neural Network-block utan tillståndsrymdmodellen, och experimentella resultat indikerar att MambaOut-ramverket kan överträffa Mamba-modeller i bildklassificeringsuppgifter, men misslyckas med att replikera prestanda för bilddetektering och segmenteringsuppgifter. 

Vilka uppgifter passar Mamba för?

Tokenmixern i Mamba-ramverket är en selektiv tillståndsmodell som definierar fyra ingångsberoende parametrar. Ramverkets återkommande egenskap skiljer RNN-liknande tillståndsmodeller från kausal uppmärksamhet. Det dolda tillståndet kan ses som ett minne med fast storlek som lagrar historisk information. Den fasta storleken innebär att minnet går förlorat, men det säkerställer också att beräkningskomplexiteten för att integrera minne med den aktuella ingången förblir konstant. Omvänt lagrar kausala uppmärksamhetslager alla nycklar och värden från tidigare tokens och expanderar genom att lägga till nyckeln och värdet för den aktuella token med varje ny ingång, och detta minne är teoretiskt sett förlustfritt. Minnesstorleken växer dock när fler tokens matas in, vilket ökar komplexiteten i att integrera minnet med den aktuella ingången. Skillnaden mellan minnesmekanismerna mellan kausal uppmärksamhet och RNN-liknande modeller illustreras i följande figur. 

Eftersom minnet av tillståndsrymdmodellen till sin natur är förlustbringande, faller det kort från det förlustfria minnet av kausal uppmärksamhet, och som ett resultat, Mamba modeller kan inte visa sin styrka i att hantera korta sekvenser, ett område där kausal uppmärksamhetsmekanism fungerar bra med lätthet. Men i scenarier som involverar långa sekvenser, vacklar den kausala uppmärksamhetsstrategin på grund av den kvadratiska komplexiteten. I det här scenariot visar Mamba-ramverket sin effektivitet när det gäller att sammanfoga minne med den aktuella ingången och kan hantera långa sekvenser smidigt, vilket indikerar att Mamba-familjen av modeller är väl lämpad för bearbetning av långa sekvenser. 

Det är också värt att notera att å ena sidan där den återkommande karaktären hos tillståndsrymdmodellen tillåter Mamba-modellerna att effektivt hantera långa sekvenser, introducerar den en viss begränsning eftersom den endast kan komma åt information från nuvarande och tidigare tidssteg, och denna typ av Tokenblandning kallas kausalt läge och illustreras i följande figur. På grund av dess kausala karaktär är denna metod lämpad för autoregressiva genereringsuppgifter

Det fullt synliga läget är lämpligt för att förstå uppgifter där modellen kan komma åt alla ingångar på en gång. Dessutom är uppmärksamheten i fullt synligt läge som standard, och det kan enkelt förvandlas till kausalt läge genom att applicera kausala masker på uppmärksamhetskartorna, och RNN-liknande modeller fungerar i sig i kausalt läge på grund av deras återkommande egenskaper. För att sammanfatta saker och ting är Mamba-ramverket lämpat för uppgifter som antingen involverar bearbetning av långa sekvenser eller uppgifter som kräver kausalt token-blandningsläge.

Visuell igenkänningsuppgifter, Causal Token Mixing Code och mycket stora sekvenser

Såsom diskuterats tidigare tillåter det fullt synliga token-blandningsläget obegränsat blandningsintervall medan orsaksläget begränsar det aktuella tokenet till att endast komma åt informationen från de föregående tokens. Vidare kategoriseras visuell igenkänning som en förståelseuppgift där modellen kan se hela bilden på en gång, och detta eliminerar behovet av restriktioner för tokenblandning, och att lägga ytterligare begränsningar på tokenblandning kan försämra modellens prestanda potentiellt. I allmänhet är det fullt synliga läget lämpligt för att förstå uppgifter medan det tillfälliga läget passar autoregressiva uppgifter bättre. Dessutom stöds detta påstående ytterligare av det faktum att BeRT- och ViT-modeller används för att förstå uppgifter mer än GPT-modeller.

Experimentell verifiering och resultat

Nästa steg är att experimentellt verifiera hypoteserna som föreslås av MambaOut-ramverket. Som visas i följande bild är Mamba-blocket baserat på blocket Gated Convolutional Neural Network, och metaarkitekturen för Mamba- och Gated CNN-blocken kan behandlas som en förenklad integration av tokenmixern i MetaFormer-ramverket och en MLP . 

Mamba-blocket utökar Gated Convolutional Neural Network med ytterligare en State Space Model, och närvaron av en SSm är det som skiljer Gated CNN och Mamba-blocket. Dessutom, för att förbättra den praktiska hastigheten, utför MambaOut-ramverket endast djupgående faltning på partiella kanaler, och som visas i följande algoritm är implementeringen av Gated CNN-blocket enkel, men ändå effektiv och elegant. 

Bildklassificeringsuppgift

ImageNet fungerar som riktmärket för bildklassificeringsuppgifter eftersom det består av över tusen vanliga klasser, över 1.3 miljoner träningsbilder och över 50,000 XNUMX valideringsbilder. Dataförstärkningen som användes för experimentet består av slumpmässig beskärning, Mixup, färgjitter, Random Erasing, CutMix och Rand Augment. Följande tabell sammanfattar prestandan för Mamba-familjen av modeller, MambaOut-modellen och andra uppmärksamhetsbaserade & faltningsmodeller på ImageNet-datauppsättningen. Som det kan ses överträffar MambaOut-ramverket utan state space-modellen visuella Mamba-modeller med SSM konsekvent över alla modellstorlekar. 

Till exempel ger MambaOut-Small-modellen ett topp-1-noggrannhetspoäng på över 84 %, 0.4 % högre än sin närmaste Mamba-konkurrent. Detta resultat stöder starkt den första hypotesen som hävdar att det inte behövs en tillståndsmodell för bildklassificeringsuppgifter. 

Objektidentifiering och instanssegmenteringsuppgifter

COCO fungerar som ett riktmärke för objektdetektering och instanssegmenteringsuppgifter. Även om MambaOut-ramverket kan överträffa prestandan för vissa visuella Mamba-modeller, är det fortfarande brist på toppmoderna visuella Mamba-modeller inklusive LocalVMamba och VMamba. Skillnaden mellan MambaOuts prestanda och de senaste visuella modellerna betonar fördelarna med att integrera Mamba-modellerna i långa visuella uppgifter. Det är dock värt att notera att det fortfarande finns ett betydande prestandagap mellan toppmoderna konvolution-uppmärksamhet-hybridmodeller och visuella Mamba-modeller. 

Avslutande tankar

I den här artikeln har vi diskuterat koncepten för Mamba-modellerna och kommit fram till att den är lämpad för uppgifter som involverar autoregressiva och långsekvensegenskaper. MambaOut är ett verk som försöker fördjupa sig i essensen av Mamba-ramverket och svara på om Mamba är idealiskt lämpad för uppgifter med autoregressiva och långa sekvensegenskaper. MambaOut-ramverket antar att Mamba inte är nödvändigt för synuppgifter eftersom bildklassificering inte överensstämmer med vare sig långsekvens eller autoregressiva egenskaper. Även om segmenterings- och detektionsuppgifter inte heller är autoregressiva, visar de långa sekvensegenskaper, vilket leder till att MambaOut-ramverket antar potentialen hos Mamba för dessa uppgifter. MambaOut-ramverket är konstruerat genom att stapla Mamba-block ovanpå varandra samtidigt som man tar bort tillståndsutrymmesmodellen, dess kärn-tokenmixer. De experimentella resultaten stöder hypotesen som lagts fram av MambaOut-ramverket eftersom det kan överträffa alla visuella Mamba-modeller på ImageNet-bildklassificeringsramverket, vilket indikerar att Mamba inte är nödvändig för synuppgifter. Å andra sidan för detekterings- och segmenteringsuppgifter, kan MambaOut-ramverket inte replikera prestanda som erbjuds av den senaste Mamba-modellen, vilket visar potentialen hos Mamba-modellfamiljen för visuella uppgifter i långa sekvenser. 

 

"En ingenjör till yrket, en författare utantill". Kunal är en teknisk skribent med en djup kärlek och förståelse för AI och ML, dedikerad till att förenkla komplexa koncept inom dessa områden genom sin engagerande och informativa dokumentation.