Intelligenza artificiale

MambaOut: È Davvero Necessario Mamba per la Visione?

Pubblicato il 24 maggio 2024

Aggiornato il 21 maggio 2026

Kunal Kejriwal

Nelle moderne strutture di apprendimento automatico e intelligenza artificiale, i transformer sono uno dei componenti più utilizzati in vari domini, tra cui la serie GPT e BERT nel trattamento del linguaggio naturale, e i Transformer della visione nei compiti di visione computerizzata. Sebbene l’inclusione dei transformer nell’architettura del modello dia un notevole impulso alle prestazioni del modello, il modulo di attenzione nei Transformer scala con la lunghezza della sequenza in modo quadratico, portando a sfide computazionali significative. Nel corso degli anni, diversi modelli hanno esplorato diverse strategie per affrontare le sfide computazionali, tra cui metodi come la kernelizzazione, la compressione della memoria storica, la limitazione della portata di mixing dei token e gli approcci a basso rango. Recentemente, le Reti Neurali Ricorrenti come i metodi che includono Mamba e RWKV hanno raccolto una notevole attenzione grazie ai loro risultati promettenti nei grandi modelli linguistici.

Mamba, una famiglia di modelli, ha un’architettura con un mixer di token simile a una rete neurale ricorrente di un modello di spazio di stato, recentemente introdotta per affrontare la complessità quadratica dei meccanismi di attenzione e successivamente applicata ai compiti di visione. I ricercatori hanno già esplorato modi per incorporare Mamba e SSM o Modello di Spazio di Stato in compiti di riconoscimento visivo, e Vision Mamba, che incorpora Mamba per sviluppare modelli di visione isotropi simili al Transformer della visione, è un ottimo esempio di ciò. D’altra parte, LocalMamba incorpora pregiudizi induttivi locali per migliorare i modelli visivi di Mamba, e il framework VMamba utilizza il modello di base Mamba per costruire modelli gerarchici simili a ResNet e AlexNet. Tuttavia, è davvero essenziale il framework Mamba per i compiti di riconoscimento visivo? La domanda sorge perché le prestazioni della famiglia di modelli Mamba per i compiti di visione sono state deludenti finora, se paragonate ai modelli tradizionali basati sull’attenzione e sui modelli convoluzionali.

MambaOut tenta di rispondere se Mamba sia ideale per compiti con caratteristiche autoregressive e a lunga sequenza. Il framework MambaOut ipotizza che Mamba non sia necessario per i compiti di visione, poiché la classificazione delle immagini non si allinea né alle caratteristiche a lunga sequenza né a quelle autoregressive. Sebbene i compiti di segmentazione e rilevamento non siano autoregressivi, mostrano caratteristiche a lunga sequenza, portando il framework MambaOut a ipotizzare il potenziale di Mamba per questi compiti. Il framework MambaOut è costruito impilando blocchi Mamba uno sull’altro, rimuovendo il modello di spazio di stato, il suo mixer di token principale. I risultati sperimentali supportano l’ipotesi avanzata dal framework MambaOut, poiché è in grado di superare tutti i modelli visivi di Mamba sul framework di classificazione delle immagini ImageNet, indicando che Mamba non è necessario per i compiti di visione. D’altra parte, per i compiti di rilevamento e segmentazione, il framework MambaOut non è in grado di replicare le prestazioni offerte dal modello Mamba all’avanguardia, dimostrando il potenziale della famiglia di modelli Mamba per i compiti visivi a lunga sequenza.

Questo articolo si propone di coprire in profondità il framework MambaOut e di esplorare il meccanismo, la metodologia, l’architettura del framework insieme al suo confronto con framework all’avanguardia. Quindi, iniziamo.

MambaOut: È Davvero Necessario Mamba per la Visione?

Con il progresso delle applicazioni e delle capacità di apprendimento automatico, i Transformer sono emersi come la struttura principale per una gamma di compiti, alimentando modelli prominenti come i Transformer della visione, la serie di modelli GPT, BERT e alcuni altri. Tuttavia, il mixer di token del transformer comporta una complessità quadratica rispetto alla lunghezza della sequenza e pone sfide computazionali significative per sequenze più lunghe. Per affrontare questo problema, sono stati introdotti numerosi mixer di token con complessità lineare rispetto alla lunghezza del token, come Linformer, Longformer, Performer, Dynamic Convolution e Big Bird. Tuttavia, recentemente, modelli simili a Reti Neurali Ricorrenti stanno guadagnando importanza grazie alla loro capacità di addestramento parallelo e alle loro prestazioni efficienti su sequenze più lunghe. Guidati dalle prestazioni notevoli offerte dai modelli simili a RNN, i ricercatori stanno cercando di introdurre e utilizzare la famiglia di modelli Mamba nei compiti di riconoscimento visivo, poiché il mixer di token dei modelli Mamba è il modello di spazio di stato strutturato sotto lo spirito delle Reti Neurali Ricorrenti. Tuttavia, i risultati sperimentali indicano che i framework basati sul modello di spazio di stato per la visione si comportano in modo deludente nei compiti di visione reali quando paragonati ai modelli basati sull’attenzione e ai modelli convoluzionali all’avanguardia.

MambaOut è un tentativo di indagare la natura della famiglia di modelli Mamba e riassume che Mamba è adatto per compiti che sono o autoregressivi o a lunga sequenza, poiché il modello di spazio di stato ha un meccanismo RNN intrinseco. Tuttavia, la maggior parte dei compiti di visione non presenta entrambe queste caratteristiche e, sulla base di alcuni esperimenti, MambaOut propone due ipotesi. In primo luogo, il modello di spazio di stato non è necessario per la classificazione delle immagini, poiché il compito di classificazione delle immagini non si allinea né alle caratteristiche autoregressive né a quelle a lunga sequenza. In secondo luogo, i modelli di spazio di stato possono essere ipoteticamente benefici per la segmentazione delle istanze e la segmentazione semantica, nonché per il rilevamento degli oggetti, poiché seguono le caratteristiche a lunga sequenza, anche se non sono autoregressivi. I risultati sperimentali condotti per analizzare il meccanismo simile a RNN del modello di spazio di stato concludono che il framework Mamba è adatto per compiti con caratteristiche autoregressive o a lunga sequenza e non è necessario per i compiti di classificazione delle immagini. Per quanto riguarda il framework MambaOut stesso, si tratta di una serie di modelli Mamba basati su blocchi di reti neurali convoluzionali con porte senza il modello di spazio di stato, e i risultati sperimentali indicano che il framework MambaOut è in grado di superare i modelli Mamba nella classificazione delle immagini, ma non riesce a replicare le prestazioni nei compiti di rilevamento e segmentazione delle immagini.

Per quali compiti è adatto Mamba?

Il mixer di token del framework Mamba è un modello di spazio di stato selettivo che definisce quattro parametri dipendenti dall’input. La proprietà ricorrente del framework distingue i modelli di spazio di stato simili a RNN dall’attenzione causale. Lo stato nascosto può essere visto come una memoria di dimensioni fisse che memorizza informazioni storiche. La dimensione fissa significa che la memoria è lossy, ma assicura anche che la complessità computazionale dell’integrazione della memoria con l’input corrente rimanga costante. Al contrario, gli strati di attenzione causale memorizzano tutte le chiavi e i valori dei token precedenti e si espandono aggiungendo la chiave e il valore del token corrente con ogni nuovo input, e questa memoria è lossless, teoricamente. Tuttavia, la dimensione della memoria cresce man mano che vengono immessi più token, aumentando la complessità dell’integrazione della memoria con l’input corrente. La differenza tra i meccanismi di memoria tra l’attenzione causale e i modelli simili a RNN è illustrata nella figura seguente.

Poiché la memoria del modello di spazio di stato è intrinsecamente lossy, non raggiunge la memoria lossless dell’attenzione causale, e di conseguenza, i modelli Mamba non possono dimostrare la loro forza nel gestire sequenze brevi, un’area in cui il meccanismo di attenzione causale si esegue con facilità. Tuttavia, in scenari che coinvolgono sequenze lunghe, l’approccio di attenzione causale vacilla a causa della complessità quadratica. In questo scenario, il framework Mamba dimostra la sua efficienza nel mescolare la memoria con l’input corrente e può gestire sequenze lunghe in modo fluido, indicando che la famiglia di modelli Mamba è ben adatta per l’elaborazione di sequenze lunghe.

È anche degno di nota che, da un lato, la natura ricorrente del modello di spazio di stato consente ai modelli Mamba di gestire sequenze lunghe in modo efficiente, ma introduce una certa limitazione, poiché può accedere solo alle informazioni dall’input corrente e dai tempi precedenti, e questo tipo di mixing dei token è denominato modalità causale, come illustrato nella figura seguente. A causa della sua natura causale, questo metodo è adatto per compiti di generazione autoregressiva.

La modalità fully-visible è adatta per compiti di comprensione in cui il modello può accedere a tutti gli input contemporaneamente. Inoltre, l’attenzione è in modalità fully-visible per impostazione predefinita e può essere facilmente convertita in modalità causale applicando maschere causali alle mappe di attenzione, e i modelli simili a RNN operano intrinsecamente in modalità causale a causa delle loro proprietà ricorrenti. Per riassumere, il framework Mamba è adatto per compiti che coinvolgono sequenze lunghe o richiedono la modalità di mixing dei token causale.

Compiti di Riconoscimento Visivo, Codice di Mixing dei Token Causale e Sequenze Molto Lunghe

Come discusso in precedenza, la modalità di mixing dei token fully-visible consente un range di mixing non limitato, mentre la modalità causale limita il token corrente ad accedere solo alle informazioni dai token precedenti. Inoltre, il riconoscimento visivo è categorizzato come un compito di comprensione in cui il modello può vedere l’intera immagine contemporaneamente, e ciò elimina la necessità di restrizioni sul mixing dei token, e l’imposizione di ulteriori vincoli sul mixing dei token può degradare le prestazioni del modello potenzialmente. In generale, la modalità fully-visible è adatta per compiti di comprensione, mentre la modalità causale si adatta meglio ai compiti autoregressivi. Inoltre, questa affermazione è supportata ulteriormente dal fatto che i modelli BeRT e ViT sono utilizzati più frequentemente per compiti di comprensione rispetto ai modelli GPT.

Verifica Sperimentale e Risultati

Il passo successivo è verificare sperimentalmente le ipotesi proposte dal framework MambaOut. Come dimostrato nell’immagine seguente, il blocco Mamba si basa sul blocco di rete neurale convoluzionale con porte, e la meta-architettura dei blocchi Mamba e Gated CNN può essere trattata come un’integrazione semplificata del mixer di token del framework MetaFormer e di un MLP.

Il blocco Mamba estende il blocco di rete neurale convoluzionale con porte con un modello di spazio di stato aggiuntivo, e la presenza di un SSm è ciò che distingue il blocco Gated CNN e il blocco Mamba. Inoltre, per migliorare la velocità pratica, il framework MambaOut esegue solo la convoluzione depthwise su canali parziali, e come dimostrato nell’algoritmo seguente, l’implementazione del blocco Gated CNN è semplice, ma efficace ed elegante.

Compito di Classificazione delle Immagini

ImageNet serve come benchmark per i compiti di classificazione delle immagini, poiché consiste di oltre mille classi comuni, oltre 1,3 milioni di immagini di addestramento e oltre 50.000 immagini di convalida. L’aumento dei dati utilizzato per l’esperimento consiste di ritaglio casuale ridimensionato, Mixup, jitter dei colori, cancellazione casuale, CutMix e Rand Augment. La tabella seguente riassume le prestazioni della famiglia di modelli Mamba, del modello MambaOut e di altri modelli basati sull’attenzione e sui modelli convoluzionali sul set di dati ImageNet. Come si può vedere, il framework MambaOut senza il modello di spazio di stato supera costantemente i modelli visivi di Mamba con SSm in tutte le dimensioni del modello.

Ad esempio, il modello MambaOut-Small restituisce un punteggio di accuratezza top-1 di oltre l’84%, 0,4% superiore al suo concorrente Mamba più vicino. Questo risultato supporta fortemente la prima ipotesi che afferma che l’introduzione di un modello di spazio di stato per i compiti di classificazione delle immagini non è necessaria.

Compiti di Rilevamento e Segmentazione degli Oggetti

COCO serve come benchmark per i compiti di rilevamento e segmentazione degli oggetti. Sebbene il framework MambaOut sia in grado di superare le prestazioni di alcuni modelli visivi di Mamba, non riesce ancora a replicare le prestazioni dei modelli visivi di Mamba all’avanguardia, tra cui LocalVMamba e VMamba. La disparità nelle prestazioni di MambaOut rispetto ai modelli visivi di Mamba all’avanguardia enfatizza i benefici dell’integrazione della famiglia di modelli Mamba nei compiti visivi a lunga sequenza. Tuttavia, è degno di nota che un significativo divario di prestazioni esiste ancora tra i modelli ibridi di attenzione-convoluzione all’avanguardia e i modelli visivi di Mamba.

Pensieri Finali

La famiglia di modelli Mamba sembra essere adatta per compiti che coinvolgono caratteristiche autoregressive e a lunga sequenza. Il framework MambaOut ipotizza che Mamba non sia necessario per i compiti di visione, poiché la classificazione delle immagini non si allinea né alle caratteristiche a lunga sequenza né a quelle autoregressive. Sebbene i compiti di segmentazione e rilevamento non siano autoregressivi, mostrano caratteristiche a lunga sequenza, portando il framework MambaOut a ipotizzare il potenziale di Mamba per questi compiti. Il framework MambaOut è costruito impilando blocchi Mamba uno sull’altro, rimuovendo il modello di spazio di stato, il suo mixer di token principale. I risultati sperimentali supportano l’ipotesi avanzata dal framework MambaOut, poiché è in grado di superare tutti i modelli visivi di Mamba sul framework di classificazione delle immagini ImageNet, indicando che Mamba non è necessario per i compiti di visione. D’altra parte, per i compiti di rilevamento e segmentazione, il framework MambaOut non è in grado di replicare le prestazioni offerte dal modello Mamba all’avanguardia, dimostrando il potenziale della famiglia di modelli Mamba per i compiti visivi a lunga sequenza.

Kunal Kejriwal

Un ingegnere per professione, uno scrittore per passione. Kunal è uno scrittore tecnico con un profondo amore e comprensione di AI e ML, dedicato a semplificare concetti complessi in questi campi attraverso la sua documentazione coinvolgente e informativa.