Connecteu-vos amb nosaltres

Intel·ligència Artificial

MambaOut: realment necessitem Mamba per a la visió?

mm

publicat

 on

En els marcs moderns d'aprenentatge automàtic i d'intel·ligència artificial, els transformadors són un dels components més utilitzats en diversos dominis, com ara les sèries GPT, i BERT en el processament del llenguatge natural i els transformadors de visió en tasques de visió per ordinador. Tot i que incloure transformadors a l'arquitectura del model dóna un impuls significatiu en el rendiment del model, el mòdul d'atenció de Transformers escala amb la longitud de la seqüència quadràticament, donant lloc a grans reptes computacionals. Al llarg dels anys, diferents models han explorat diferents estratègies per fer front als reptes computacionals, inclosos mètodes com la kernelització, la compressió de la memòria històrica, la limitació del rang de barreja de fitxes i els enfocaments de baix rang. Recentment, les xarxes neuronals recurrents com els mètodes com Mamba i RWKV han cridat una atenció significativa a causa dels seus resultats prometedors en grans models de llenguatge. 

Mamba, una família de models té una arquitectura amb una xarxa neuronal recurrent com un mesclador de fitxes d'un model d'espai d'estats que es va introduir recentment per abordar la complexitat quadràtica dels mecanismes d'atenció i es va aplicar posteriorment a les tasques de visió. Els investigadors ja han explorat maneres d'incorporar Mamba i SSM o State Space Model a les tasques de reconeixement visual, i Vision Mamba que incorpora Mamba per desenvolupar models de visió isotròpica semblants a Vision Transformer és un gran exemple del mateix. D'altra banda, LocalMamba incorpora biaixos inductius locals per millorar els models visuals de Mamba, i el marc de VMamba empra el model Mamba base per construir models jeràrquics similars a ResNet i AlexNet. Tanmateix, és realment essencial el marc de Mamba per a les tasques de context de reconeixement visual? La pregunta sorgeix perquè el rendiment de la família de models Mamba per a tasques de visió ha estat decepcionant fins ara en comparació amb els models tradicionals basats en l'atenció i convolucionals. 

MambaOut és un treball que intenta aprofundir en l'essència del framework Mamba i respondre si Mamba és ideal per a tasques amb característiques autoregressives i de seqüència llarga. El marc de MambaOut planteja la hipòtesi que Mamba no és necessari per a les tasques de visió, ja que la classificació d'imatges no s'alinea amb les característiques de seqüència llarga ni autoregressives. Tot i que les tasques de segmentació i detecció tampoc són autoregressives, mostren característiques de seqüència llarga, el que porta el marc MambaOut a plantejar la hipòtesi del potencial de Mamba per a aquestes tasques. El marc de MambaOut es construeix apilant els blocs de Mamba els uns sobre els altres mentre s'elimina el model d'espai d'estat, el seu mesclador de fitxes bàsics. Els resultats experimentals donen suport a la hipòtesi plantejada pel marc MambaOut, ja que és capaç de superar tots els models visuals de Mamba del marc de classificació d'imatges ImageNet, la qual cosa indica que el Mamba no és necessari per a les tasques de visió. D'altra banda, per a tasques de detecció i segmentació, el marc de MambaOut no és capaç de replicar el rendiment que ofereix el model Mamba d'última generació, demostrant el potencial de la família de models Mamba per a tasques visuals de seqüència llarga. 

Aquest article té com a objectiu cobrir el framework MambaOut en profunditat, i explorem el mecanisme, la metodologia, l'arquitectura del framework juntament amb la seva comparació amb els frameworks d'última generació. Així que comencem. 

MambaOut: realment es necessita Mamba per a la visió?

Amb el progrés de les aplicacions i les capacitats d'aprenentatge automàtic, Transformers s'ha convertit en la columna vertebral principal per a una sèrie de tasques, alimentant models destacats, com ara Transformadors de visió, sèrie de models GPT, BERT i uns quants més. No obstant això, el mesclador de símbols del transformador presenta una complexitat quadràtica pel que fa a la longitud de la seqüència i planteja reptes importants per a seqüències més llargues. Per solucionar aquest problema, s'han introduït nombrosos mescladors de fitxes amb complexitat lineal a la longitud del token com Linformer, Longformer, Performer, Dynamic Convolution i Big Bird. Tanmateix, en els darrers temps, els models de xarxes neuronals recurrents estan guanyant protagonisme a causa de la seva capacitat d'entrenament paral·lelitzable i d'oferir un rendiment eficient en seqüències més llargues. Guiats pel rendiment notable que ofereixen models semblants a RNN, els investigadors intenten introduir i utilitzar la família de models Mamba en tasques de reconeixement visual, ja que el mesclador de testimonis dels models Mamba és el model d'espai d'estat estructurat sota l'esperit de les xarxes neuronals recurrents. . Tanmateix, els resultats experimentals indiquen que els marcs de visió basats en models espacials d'estat funcionen de manera decepcionant a les tasques de visió del món real en comparació amb els models convolucionals basats en l'atenció i d'última generació. 

MambaOut és un intent d'investigar la naturalesa del mamba família de models, i resumeix que Mamba és adequat per a tasques que són autoregressives o de llarga seqüència, ja que el model espacial d'estat té un mecanisme RNN inherent. Tanmateix, la majoria de tasques visuals no presenten aquestes dues característiques i, a partir d'alguns experiments, MambaOut proposa les dues hipòtesis següents. En primer lloc, el model espacial d'estats no és necessari per a la classificació d'imatges, ja que la tasca de classificació d'imatges no s'ajusta ni a característiques autoregressives ni de seqüència llarga. En segon lloc, els models d'espai d'estat poden ser hipotèticament beneficiosos, per exemple, la segmentació i la segmentació semàntica juntament amb la detecció d'objectes, ja que segueixen les característiques de la seqüència llarga encara que no són autoregressius. Els resultats experimentals realitzats per analitzar la xarxa neuronal recurrent com a mecanisme del model d'espai d'estats conclouen que el marc Mamba és adequat per a tasques amb característiques autoregressives o de seqüència llarga i no és necessari per a les tasques de classificació d'imatges. Arribats al propi marc MambaOut, es tracta d'una sèrie de models Mamba basats en blocs de xarxa neuronal convolucional Gated sense el model d'espai d'estats, i els resultats experimentals indiquen que el marc MambaOut és capaç de superar els models Mamba en tasques de classificació d'imatges, però no es pot replicar. el rendiment en tasques de detecció i segmentació d'imatges. 

Per a quines tasques és adequat Mamba?

El mesclador de testimonis del marc Mamba és un model d'espai d'estats selectiu que defineix quatre paràmetres que depenen de l'entrada. La propietat recurrent del marc distingeix els models d'espai d'estats semblants a RNN de l'atenció causal. L'estat ocult es pot veure com una memòria de mida fixa que emmagatzema informació històrica. La mida fixa significa que la memòria té pèrdua, però també assegura que la complexitat computacional d'integrar la memòria amb l'entrada actual es mantingui constant. Per contra, les capes d'atenció causal emmagatzemen totes les claus i valors dels testimonis anteriors i s'expandeixen afegint la clau i el valor del testimoni actual amb cada entrada nova, i aquesta memòria no té pèrdua, teòricament. Tanmateix, la mida de la memòria creix a mesura que s'introdueixen més fitxes, augmentant la complexitat d'integrar la memòria amb l'entrada actual. La diferència entre els mecanismes de memòria entre l'atenció causal i els models semblants a RNN s'il·lustra a la figura següent. 

Atès que la memòria del model espacial d'estats és inherentment amb pèrdua, no arriba a la memòria sense pèrdues de l'atenció causal i, com a resultat, el Models de mamba no pot demostrar la seva força en el maneig de seqüències curtes, una àrea on el mecanisme d'atenció causal funciona bé amb facilitat. Tanmateix, en escenaris que impliquen seqüències llargues, l'enfocament de l'atenció causal falla a causa de la complexitat quadràtica. En aquest escenari, el marc de Mamba mostra la seva eficiència en la fusió de la memòria amb l'entrada actual i és capaç de gestionar seqüències llargues sense problemes, cosa que indica que la família de models Mamba és adequada per processar seqüències llargues. 

També val la pena assenyalar que, d'una banda, on la naturalesa recurrent del model d'espai d'estats permet als models Mamba manejar de manera eficient seqüències llargues, introdueix una certa limitació ja que només pot accedir a la informació dels passos temporals actuals i anteriors, i aquest tipus de La barreja de fitxes s'anomena mode causal i s'il·lustra a la figura següent. A causa de la seva naturalesa causal, aquest mètode és adequat tasques de generació autoregressiva

El mode totalment visible és adequat per entendre tasques on el model pot accedir a totes les entrades alhora. A més, l'atenció es troba en mode totalment visible per defecte, i es pot convertir fàcilment en mode causal aplicant màscares causals als mapes d'atenció, i els models semblants a RNN funcionen de manera inherent en mode causal a causa de les seves propietats recurrents. Per resumir les coses, el marc de Mamba és adequat per a tasques que impliquen processar seqüències llargues o tasques que requereixen un mode de barreja de testimonis causals.

Tasques de reconeixement visual, codi de mescla de fitxes causals i seqüències molt grans

Com s'ha comentat anteriorment, el mode de barreja de testimonis totalment visible permet un rang de barreja sense restriccions, mentre que el mode causal limita el testimoni actual per accedir només a la informació dels testimonis anteriors. A més, el reconeixement visual es classifica com una tasca de comprensió on el model pot veure tota la imatge alhora, i això elimina la necessitat de restriccions a la barreja de testimonis i imposar restriccions addicionals a la barreja de testimonis pot degradar potencialment el rendiment del model. En general, el mode totalment visible és adequat per entendre les tasques, mentre que el mode casual s'adapta millor a les tasques autoregressives. A més, aquesta afirmació es recolza encara més pel fet que els models BeRT i ViT s'utilitzen per entendre les tasques més que els models GPT.

Verificació experimental i resultats

El següent pas és verificar experimentalment les hipòtesis proposades pel framework MambaOut. Com es demostra a la imatge següent, el bloc Mamba es basa en el bloc de xarxa neuronal convolucional Gated, i la metaarquitectura dels blocs Mamba i Gated CNN es pot tractar com una integració simplificada del mesclador de testimonis del marc MetaFormer i un MLP. . 

El bloc Mamba amplia la Xarxa Neural Convolucional Gated amb un model espacial estatal addicional, i la presència d'un SSm és el que distingeix la CNN Gated i el bloc Mamba. A més, per millorar la velocitat pràctica, el marc MambaOut només realitza una convolució en profunditat en canals parcials i, tal com es demostra en l'algoritme següent, la implementació del bloc Gated CNN és ​​senzilla, però efectiva i elegant. 

Tasca de classificació d'imatges

ImageNet serveix com a referència per a les tasques de classificació d'imatges, ja que consta de més de mil classes comunes, més d'1.3 milions d'imatges d'entrenament i més de 50,000 imatges de validació. L'augment de dades que s'utilitza per a l'experiment consisteix en retalls de mida aleatòria, Mixup, fluctuació de color, esborrat aleatori, CutMix i Rand Augment. La taula següent resumeix el rendiment de la família de models Mamba, el model MambaOut i altres models basats en l'atenció i convolució al conjunt de dades ImageNet. Com es pot veure, el marc MambaOut sense el model d'espai d'estat supera els models visuals de Mamba amb SSM de manera coherent en totes les mides del model. 

Per exemple, el model MambaOut-Small retorna una puntuació de precisió superior al 1%, un 84% superior a la del seu competidor de Mamba més proper. Aquest resultat recolza fermament la primera hipòtesi que afirma que no cal introduir un model d'espai d'estats per a tasques de classificació d'imatges. 

Tasques de detecció d'objectes i segmentació d'instàncies

COCO serveix com a referència per a tasques de detecció d'objectes i segmentació d'instàncies. Tot i que el marc MambaOut és capaç de superar el rendiment d'alguns models visuals de Mamba, encara no arriba als models de Mamba visual d'última generació, com ara LocalVMamba i VMamba. La disparitat en el rendiment de MambaOut amb els models visuals d'última generació emfatitza els avantatges d'integrar la família de models Mamba en tasques visuals de llarga seqüència. No obstant això, val la pena assenyalar que encara existeix una bretxa de rendiment important entre els models híbrids de convolució-atenció-atenció i els models visuals de Mamba. 

Consideracions finals

En aquest article, hem discutit els conceptes de la família de models Mamba i hem conclòs que és adequat per a tasques que impliquen característiques autoregressives i de seqüència llarga. MambaOut és un treball que intenta aprofundir en l'essència del framework Mamba i respondre si Mamba és ideal per a tasques amb característiques autoregressives i de seqüència llarga. El marc de MambaOut planteja la hipòtesi que Mamba no és necessari per a les tasques de visió, ja que la classificació d'imatges no s'alinea amb les característiques de seqüència llarga ni autoregressives. Tot i que les tasques de segmentació i detecció tampoc són autoregressives, mostren característiques de seqüència llarga, el que porta el marc MambaOut a plantejar la hipòtesi del potencial de Mamba per a aquestes tasques. El marc de MambaOut es construeix apilant els blocs de Mamba els uns sobre els altres mentre s'elimina el model d'espai d'estat, el seu mesclador de fitxes bàsics. Els resultats experimentals donen suport a la hipòtesi plantejada pel marc MambaOut, ja que és capaç de superar tots els models visuals de Mamba del marc de classificació d'imatges ImageNet, la qual cosa indica que el Mamba no és necessari per a les tasques de visió. D'altra banda, per a les tasques de detecció i segmentació, el marc MambaOut no és capaç de replicar el rendiment que ofereix el model Mamba d'última generació, demostrant el potencial de la família de models Mamba per a tasques visuals de llarga seqüència. 

 

"Enginyer de professió, escriptor de memòria". Kunal és un escriptor tècnic amb un profund amor i comprensió de la IA i el ML, dedicat a simplificar conceptes complexos en aquests camps mitjançant la seva documentació atractiva i informativa.