mozzicone MambaOut: abbiamo davvero bisogno di Mamba per la vista? - Unite.AI
Seguici sui social

Intelligenza Artificiale

MambaOut: abbiamo davvero bisogno di Mamba per la vista?

mm

Pubblicato il

 on

Nei moderni framework di machine learning e intelligenza artificiale, i trasformatori sono uno dei componenti più utilizzati in vari settori, tra cui le serie GPT e BERT nell'elaborazione del linguaggio naturale e i trasformatori di visione nelle attività di visione artificiale. Sebbene l'inclusione dei trasformatori nell'architettura del modello dia un aumento significativo delle prestazioni del modello, il modulo di attenzione in Transformers si adatta quadraticamente alla lunghezza della sequenza, portando a elevate sfide computazionali. Nel corso degli anni, diversi modelli hanno esplorato diverse strategie per affrontare le sfide computazionali, inclusi metodi come la kernelizzazione, la compressione della memoria storica, la limitazione dell'intervallo di mixaggio dei token e approcci di basso rango. Recentemente, metodi come le reti neurali ricorrenti, tra cui Mamba e RWKV, hanno attirato un'attenzione significativa grazie ai loro risultati promettenti in modelli linguistici di grandi dimensioni. 

Mamba, una famiglia di modelli che ha un'architettura con una rete neurale ricorrente simile a un token mixer di un modello di spazio degli stati è stata recentemente introdotta per affrontare la complessità quadratica dei meccanismi di attenzione e successivamente è stata applicata ai compiti di visione. I ricercatori hanno già esplorato modi per incorporare Mamba e SSM o State Space Model in compiti di riconoscimento visivo, e Vision Mamba che incorpora Mamba per sviluppare modelli di visione isotropica simili a Vision Transformer ne è un ottimo esempio. D'altra parte, LocalMamba incorpora pregiudizi induttivi locali per migliorare i modelli visivi Mamba, e il framework VMamba utilizza il modello Mamba base per costruire modelli gerarchici simili a ResNet e AlexNet. Tuttavia, il framework Mamba è davvero essenziale per le attività contestuali di riconoscimento visivo? La domanda sorge perché le prestazioni della famiglia di modelli Mamba per i compiti di visione sono state finora deludenti se confrontate con i tradizionali modelli basati sull’attenzione e convoluzionali. 

MambaOut è un lavoro che tenta di approfondire l'essenza del framework Mamba e di rispondere se Mamba sia ideale per attività con caratteristiche autoregressive e a lunga sequenza. Il framework MambaOut ipotizza che Mamba non sia necessario per le attività visive poiché la classificazione delle immagini non si allinea né con le caratteristiche a sequenza lunga né con quelle autoregressive. Sebbene anche i compiti di segmentazione e rilevamento non siano autoregressivi, mostrano caratteristiche di sequenza lunga, portando il framework MambaOut a ipotizzare il potenziale di Mamba per questi compiti. Il framework MambaOut è costruito impilando i blocchi Mamba uno sopra l'altro rimuovendo il modello dello spazio degli stati, il suo mixer di token principale. I risultati sperimentali supportano l'ipotesi avanzata dal framework MambaOut poiché è in grado di superare tutti i modelli visivi Mamba sul framework di classificazione delle immagini ImageNet, indicando che Mamba non è necessario per compiti di visione. D'altra parte per le attività di rilevamento e segmentazione, il framework MambaOut non è in grado di replicare le prestazioni offerte dal modello Mamba all'avanguardia, dimostrando il potenziale della famiglia di modelli Mamba per attività visive a lunga sequenza. 

Questo articolo mira a coprire in modo approfondito il framework MambaOut ed esploriamo il meccanismo, la metodologia, l'architettura del framework insieme al suo confronto con i framework all'avanguardia. Quindi iniziamo. 

MambaOut: Mamba è davvero necessario per la vista?

Con il progresso delle applicazioni e delle funzionalità di machine learning, i Transformer sono emersi come la spina dorsale principale per una serie di attività, alimentando modelli importanti tra cui Trasformatori di visione, serie di modelli GPT, BERT e alcuni altri. Tuttavia, il mixer dei token del trasformatore presenta una complessità quadratica rispetto alla lunghezza della sequenza e pone sfide significative per sequenze più lunghe. Per risolvere questo problema, sono stati introdotti numerosi mixer di token con complessità lineare rispetto alla lunghezza del token come Linformer, Longformer, Performer, Dynamic Convolution e Big Bird. Tuttavia, negli ultimi tempi, i modelli simili alle reti neurali ricorrenti stanno guadagnando importanza grazie alla loro capacità di addestramento parallelizzabile e fornendo prestazioni efficienti su sequenze più lunghe. Guidati dalle notevoli prestazioni offerte dai modelli simili a RNN, i ricercatori stanno tentando di introdurre e utilizzare la famiglia di modelli Mamba in compiti di riconoscimento visivo poiché il token mixer dei modelli Mamba è il modello di spazio degli stati strutturato secondo lo spirito delle reti neurali ricorrenti . Tuttavia, i risultati sperimentali indicano che le strutture basate sul modello dello spazio degli stati per la visione funzionano in modo deludente nei compiti di visione del mondo reale se confrontati con i modelli convoluzionali basati sull’attenzione e all’avanguardia. 

MambaOut è un tentativo di indagare la natura del Mamba famiglia di modelli e riassume che Mamba è adatto per compiti autoregressivi o di lunga sequenza poiché il modello dello spazio degli stati ha un meccanismo RNN intrinseco. Tuttavia, la maggior parte dei compiti visivi non presenta entrambe queste caratteristiche e, sulla base di alcuni esperimenti, MambaOut propone le seguenti due ipotesi. Innanzitutto, il modello dello spazio degli stati non è necessario per la classificazione delle immagini poiché il compito di classificazione delle immagini non si conforma né alle caratteristiche autoregressive né a quelle di lunga sequenza. In secondo luogo, i modelli dello spazio degli stati possono essere ipoteticamente utili, ad esempio la segmentazione e la segmentazione semantica insieme al rilevamento degli oggetti, poiché seguono le caratteristiche della sequenza lunga sebbene non siano autoregressivi. I risultati sperimentali condotti per analizzare il meccanismo simile alla rete neurale ricorrente del modello dello spazio degli stati concludono che il framework Mamba è adatto per compiti con caratteristiche autoregressive o a sequenza lunga e non è necessario per compiti di classificazione delle immagini. Venendo al framework MambaOut stesso, si tratta di una serie di modelli Mamba basati su blocchi di rete neurale convoluzionale recintata senza il modello dello spazio degli stati, e i risultati sperimentali indicano che il framework MambaOut è in grado di sovraperformare i modelli Mamba nelle attività di classificazione delle immagini, ma non riesce a replicarsi. le prestazioni nelle attività di rilevamento e segmentazione delle immagini. 

Per quali compiti è adatto Mamba?

Il token mixer del framework Mamba è un modello di spazio degli stati selettivo che definisce quattro parametri dipendenti dall'input. La proprietà ricorrente del framework distingue i modelli di spazio degli stati simili a RNN dall'attenzione causale. Lo stato nascosto può essere visto come una memoria di dimensione fissa che memorizza informazioni storiche. La dimensione fissa significa che la memoria è in perdita, ma garantisce anche che la complessità computazionale dell'integrazione della memoria con l'input corrente rimanga costante. Al contrario, i livelli di attenzione causale memorizzano tutte le chiavi e i valori dei token precedenti e si espandono aggiungendo la chiave e il valore del token corrente con ogni nuovo input e, in teoria, questa memoria è senza perdite. Tuttavia, la dimensione della memoria aumenta man mano che vengono immessi più token, aumentando la complessità dell'integrazione della memoria con l'input corrente. La differenza tra i meccanismi di memoria tra l'attenzione causale e i modelli simili a RNN è illustrata nella figura seguente. 

Poiché la memoria del modello dello spazio degli stati è intrinsecamente con perdite, non è all’altezza della memoria senza perdite dell’attenzione causale e, di conseguenza, la memoria del modello dello spazio degli stati è intrinsecamente con perdite. Modelli Mamba non può dimostrare la sua forza nel gestire brevi sequenze, un'area in cui il meccanismo dell'attenzione causale funziona bene con facilità. Tuttavia, negli scenari che coinvolgono lunghe sequenze, l’approccio dell’attenzione causale vacilla a causa della complessità quadratica. In questo scenario, il framework Mamba mostra la sua efficienza nel fondere la memoria con l'input corrente ed è in grado di gestire lunghe sequenze senza problemi, indicando che la famiglia di modelli Mamba è particolarmente adatta per l'elaborazione di lunghe sequenze. 

Vale anche la pena notare che, da un lato, laddove la natura ricorrente del modello dello spazio degli stati consente ai modelli Mamba di gestire in modo efficiente lunghe sequenze, introduce una certa limitazione in quanto può accedere alle informazioni solo dai passaggi temporali attuali e precedenti, e questo tipo di il mixaggio dei token è denominato modalità causale ed è illustrato nella figura seguente. A causa della sua natura causale, questo metodo è adatto per compiti di generazione autoregressiva

La modalità completamente visibile è adatta per comprendere attività in cui il modello può accedere a tutti gli input contemporaneamente. Inoltre, l’attenzione è in modalità completamente visibile per impostazione predefinita e può essere facilmente trasformata in modalità causale applicando maschere causali alle mappe di attenzione, e i modelli simili a RNN operano intrinsecamente in modalità causale a causa delle loro proprietà ricorrenti. Per riassumere, il framework Mamba è adatto per attività che implicano l'elaborazione di lunghe sequenze o attività che richiedono la modalità di miscelazione causale dei token.

Attività di riconoscimento visivo, codice di combinazione di token causali e sequenze molto grandi

Come discusso in precedenza, la modalità di miscelazione dei token completamente visibili consente un intervallo di miscelazione illimitato mentre la modalità causale limita il token corrente ad accedere solo alle informazioni dei token precedenti. Inoltre, il riconoscimento visivo è classificato come un'attività di comprensione in cui il modello può vedere l'intera immagine in una sola volta, e questo elimina la necessità di restrizioni sul mixaggio dei token e l'imposizione di ulteriori vincoli sul mixaggio dei token può potenzialmente degradare le prestazioni del modello. In generale, la modalità completamente visibile è adatta per comprendere le attività, mentre la modalità casuale si adatta meglio alle attività autoregressive. Inoltre, questa affermazione è ulteriormente supportata dal fatto che i modelli BeRT e ViT vengono utilizzati per comprendere le attività più dei modelli GPT.

Verifica sperimentale e risultati

Il prossimo passo è verificare sperimentalmente le ipotesi proposte dal framework MambaOut. Come dimostrato nell'immagine seguente, il blocco Mamba è basato sul blocco Gated Convolutional Neural Network e la meta-architettura dei blocchi Mamba e Gated CNN può essere trattata come un'integrazione semplificata del token mixer del framework MetaFormer e di un MLP . 

Il blocco Mamba estende la Gated Convolutional Neural Network con un modello spaziale statale aggiuntivo, e la presenza di un SSm è ciò che distingue la Gated CNN e il blocco Mamba. Inoltre, per migliorare la velocità pratica, il framework MambaOut esegue solo convoluzioni in profondità su canali parziali e, come dimostrato nel seguente algoritmo, l'implementazione del blocco Gated CNN è semplice, ma efficace ed elegante. 

Compito di classificazione delle immagini

ImageNet funge da punto di riferimento per le attività di classificazione delle immagini poiché è costituito da oltre un migliaio di classi comuni, oltre 1.3 milioni di immagini di addestramento e oltre 50,000 immagini di convalida. L'aumento dei dati utilizzato per l'esperimento consiste in ritaglio ridimensionato casuale, Mixup, jitter colore, cancellazione casuale, CutMix e Rand Augment. La tabella seguente riassume le prestazioni della famiglia di modelli Mamba, del modello MambaOut e di altri modelli basati sull'attenzione e sulla convoluzione sul set di dati ImageNet. Come si può vedere, il framework MambaOut senza il modello dello spazio degli stati surclassa i modelli visivi Mamba con SSM in modo coerente su tutte le dimensioni del modello. 

Ad esempio, il modello MambaOut-Small restituisce un punteggio di precisione top-1 di oltre l'84%, superiore dello 0.4% rispetto al suo concorrente Mamba più vicino. Questo risultato supporta fortemente la prima ipotesi secondo cui non è necessaria l'introduzione di un modello di spazio degli stati per i compiti di classificazione delle immagini. 

Attività di rilevamento degli oggetti e segmentazione delle istanze

COCO funge da punto di riferimento per le attività di rilevamento degli oggetti e di segmentazione delle istanze. Sebbene il framework MambaOut sia in grado di superare le prestazioni di alcuni modelli visivi di Mamba, non è ancora all'altezza dei modelli visivi di Mamba all'avanguardia, inclusi LocalVMamba e VMamba. La disparità nelle prestazioni di MambaOut rispetto ai modelli visivi all'avanguardia sottolinea i vantaggi dell'integrazione della famiglia di modelli Mamba in compiti visivi a lunga sequenza. Tuttavia, vale la pena notare che esiste ancora un significativo divario prestazionale tra i modelli ibridi convoluzione-attenzione-allo stato dell’arte e i modelli visivi Mamba. 

Considerazioni finali

In questo articolo, abbiamo discusso i concetti della famiglia di modelli Mamba e abbiamo concluso che è adatta per compiti che coinvolgono caratteristiche autoregressive e a lunga sequenza. MambaOut è un lavoro che tenta di approfondire l'essenza del framework Mamba e di rispondere se Mamba sia ideale per attività con caratteristiche autoregressive e a lunga sequenza. Il framework MambaOut ipotizza che Mamba non sia necessario per le attività visive poiché la classificazione delle immagini non si allinea né con le caratteristiche a sequenza lunga né con quelle autoregressive. Sebbene anche i compiti di segmentazione e rilevamento non siano autoregressivi, mostrano caratteristiche di sequenza lunga, portando il framework MambaOut a ipotizzare il potenziale di Mamba per questi compiti. Il framework MambaOut è costruito impilando i blocchi Mamba uno sopra l'altro rimuovendo il modello dello spazio degli stati, il suo mixer di token principale. I risultati sperimentali supportano l'ipotesi avanzata dal framework MambaOut poiché è in grado di superare tutti i modelli visivi Mamba sul framework di classificazione delle immagini ImageNet, indicando che Mamba non è necessario per compiti di visione. D'altra parte per le attività di rilevamento e segmentazione, il framework MambaOut non è in grado di replicare le prestazioni offerte dal modello Mamba all'avanguardia, dimostrando il potenziale della famiglia di modelli Mamba per attività visive a lunga sequenza. 

 

"Un ingegnere di professione, uno scrittore a memoria". Kunal è uno scrittore tecnico con un profondo amore e comprensione di AI e ML, dedito a semplificare concetti complessi in questi campi attraverso la sua documentazione coinvolgente e informativa.