Artificiell intelligens
MambaOut: Behöver vi verkligen Mamba för syn?
I moderna maskinlärings- och artificiell intelligens-ramverk är transformer en av de mest använda komponenterna i olika domäner, inklusive GPT-serien och BERT i naturlig språkbehandling, samt Vision Transformer i datorseendeuppgifter. Även om inkorporering av transformer i modellarkitekturen ger en betydande förbättring av modellens prestanda, skalar uppmärksamhetsmodulen i transformer kvadratiskt med sekvenslängden, vilket leder till stora beräkningsutmaningar. Under åren har olika modeller utforskat olika strategier för att hantera de beräkningsmässiga utmaningarna, inklusive metoder som kernelisering, historikminneskomprimering, tokenblandningsområdesbegränsning och låg-rankmetoder. Nyligen har rekurrenta neurala nätverk som Mamba och RWKV fått stor uppmärksamhet på grund av deras lovande resultat i stora språkmodeller.
Mamba, en modellfamilj, har en arkitektur med en rekurrent neuralnätverksliknande tokenblandare av en tillståndsrummodell som nyligen introducerades för att hantera den kvadratiska komplexiteten hos uppmärksamhetsmekanismerna och tillämpades sedan på synuppgifter. Forskare har redan utforskat sätt att inkorporera Mamba och SSM eller tillståndsrummodell i visuell erkänningsuppgifter, och Vision Mamba som inkorporerar Mamba för att utveckla isotropa synmodeller liknande Vision Transformer är ett bra exempel på detta. Å andra sidan inkorporerar LocalMamba lokala induktiva fördomar för att förbättra visuella Mamba-modeller, och VMamba-ramverket använder den grundläggande Mamba-modellen för att konstruera hierarkiska modeller liknande ResNet och AlexNet. Men är Mamba-ramverket verkligen nödvändigt för visuell erkänningskontextuppgifter? Frågan uppstår eftersom prestandan för Mamba-modellfamiljen för synuppgifter har varit underwhelming hittills när den jämförs med traditionella uppmärksamhetsbaserade och konvolutionsbaserade modeller.
MambaOut försöker besvara om Mamba är idealiskt lämpat för uppgifter med autoregressiva och långa sekvenskaraktärer. MambaOut-ramverket antar att Mamba inte är nödvändigt för synuppgifter eftersom bildklassificering inte överensstämmer med antingen långa sekvenser eller autoregressiva karaktärer. Även om segmenterings- och detektionsuppgifter inte heller är autoregressiva, visar de långa sekvenskaraktärer, vilket leder MambaOut-ramverket att anta potentialen för Mamba för dessa uppgifter. MambaOut-ramverket konstrueras genom att stapla Mamba-block ovanpå varandra medan tillståndsrummodellen, dess kärntokenblandare, tas bort. Experimentella resultat stöder hypotesen som presenteras av MambaOut-ramverket, eftersom det kan överträffa alla visuella Mamba-modeller på ImageNet-bildklassificeringsramverket, vilket indikerar att Mamba inte är nödvändigt för synuppgifter. Å andra sidan kan MambaOut-ramverket inte replikera prestandan som erbjuds av den senaste Mamba-modellen för detektions- och segmenteringsuppgifter, vilket visar potentialen för Mamba-modellfamiljen för långa sekvensvisuella uppgifter.
… (rest of the translation remains the same, following the exact same structure and formatting as the original)




