Contáctanos

Inteligencia artificial

MambaOut: ¿Realmente necesitamos a Mamba para la visión?

mm

Publicado

 on

En los marcos modernos de aprendizaje automático e inteligencia artificial, los transformadores son uno de los componentes más utilizados en varios dominios, incluida la serie GPT, BERT en procesamiento del lenguaje natural y Vision Transformers en tareas de visión por computadora. Aunque incluir transformadores en la arquitectura del modelo proporciona un aumento significativo en el rendimiento del modelo, el módulo de atención en Transformers escala con la longitud de la secuencia cuadráticamente, lo que genera altos desafíos computacionales. A lo largo de los años, diferentes modelos han explorado diferentes estrategias para abordar los desafíos computacionales, incluidos métodos como la kernelización, la compresión de la memoria histórica, la limitación del rango de mezcla de tokens y los enfoques de bajo rango. Recientemente, métodos como las redes neuronales recurrentes, incluidos Mamba y RWKV, han atraído una atención significativa debido a sus resultados prometedores en modelos de lenguaje grandes. 

Mamba, una familia de modelos que tiene una arquitectura con una red neuronal recurrente como un mezclador de tokens de un modelo de espacio de estados, se introdujo recientemente para abordar la complejidad cuadrática de los mecanismos de atención y se aplicó posteriormente a las tareas de visión. Los investigadores ya han explorado formas de incorporar Mamba y SSM o State Space Model en tareas de reconocimiento visual, y Vision Mamba, que incorpora Mamba para desarrollar modelos de visión isotrópica similares a Vision Transformer, es un gran ejemplo de lo mismo. Por otro lado, LocalMamba incorpora sesgos inductivos locales para mejorar los modelos visuales de Mamba, y el marco VMamba emplea el modelo base de Mamba para construir modelos jerárquicos similares a ResNet y AlexNet. Sin embargo, ¿es el marco Mamba realmente esencial para las tareas de contexto de reconocimiento visual? La pregunta surge porque el rendimiento de la familia de modelos Mamba para tareas de visión ha sido decepcionante hasta ahora en comparación con los modelos tradicionales basados ​​en la atención y convolucionales. 

MambaOut es un trabajo que intenta profundizar en la esencia del marco Mamba y responder si Mamba es ideal para tareas con características autorregresivas y de secuencia larga. El marco MambaOut plantea la hipótesis de que Mamba no es necesario para las tareas de visión ya que la clasificación de imágenes no se alinea ni con características de secuencia larga ni autorregresivas. Aunque las tareas de segmentación y detección tampoco son autorregresivas, muestran características de secuencia larga, lo que lleva al marco MambaOut a plantear la hipótesis del potencial de Mamba para estas tareas. El marco MambaOut se construye apilando bloques Mamba uno encima del otro mientras se elimina el modelo de espacio de estado, su mezclador de tokens central. Los resultados experimentales respaldan la hipótesis planteada por el marco MambaOut, ya que es capaz de superar todos los modelos visuales de Mamba en el marco de clasificación de imágenes ImageNet, lo que indica que Mamba no es necesario para las tareas de visión. Por otro lado, para las tareas de detección y segmentación, el marco MambaOut no puede replicar el rendimiento ofrecido por el modelo Mamba de última generación, lo que demuestra el potencial de la familia de modelos Mamba para tareas visuales de secuencia larga. 

Este artículo tiene como objetivo cubrir el marco MambaOut en profundidad y exploramos el mecanismo, la metodología, la arquitectura del marco junto con su comparación con los marcos más avanzados. Entonces empecemos. 

MambaOut: ¿Es realmente necesaria Mamba para la visión?

Con el progreso de las aplicaciones y capacidades de aprendizaje automático, los Transformers se han convertido en la columna vertebral principal para una variedad de tareas, impulsando modelos destacados que incluyen Transformadores de visión, Serie de modelos GPT, BERT y algunos más. Sin embargo, el mezclador de tokens del transformador presenta una complejidad cuadrática con respecto a la longitud de la secuencia y plantea desafíos importantes para secuencias más largas. Para abordar este problema, se han introducido numerosos mezcladores de tokens con complejidad lineal según la longitud del token, como Linformer, Longformer, Performer, Dynamic Convolution y Big Bird. Sin embargo, en los últimos tiempos, los modelos similares a redes neuronales recurrentes están ganando prominencia debido a su capacidad de entrenamiento paralelizable y a su rendimiento eficiente en secuencias más largas. Guiados por el notable rendimiento que ofrecen los modelos tipo RNN, los investigadores están intentando introducir y utilizar la familia de modelos Mamba en tareas de reconocimiento visual, ya que el mezclador de tokens de los modelos Mamba es el modelo de espacio de estados estructurado bajo el espíritu de las redes neuronales recurrentes. . Sin embargo, los resultados experimentales indican que los marcos de visión basados ​​en modelos de espacio de estados funcionan de manera decepcionante en tareas de visión del mundo real en comparación con modelos convolucionales de última generación y basados ​​en la atención. 

MambaOut es un intento de investigar la naturaleza de la Mamba familia de modelos, y resume que Mamba es adecuado para tareas que son autorregresivas o de secuencia larga, ya que el modelo de espacio de estados tiene un mecanismo RNN inherente. Sin embargo, la mayoría de las tareas visuales no presentan ambas características y, basándose en algunos experimentos, MambaOut propone las dos hipótesis siguientes. Primero, el modelo de espacio de estados no es necesario para la clasificación de imágenes ya que la tarea de clasificación de imágenes no se ajusta a características autorregresivas ni de secuencia larga. En segundo lugar, los modelos de espacio de estados pueden ser hipotéticamente beneficiosos, por ejemplo, la segmentación y la segmentación semántica junto con la detección de objetos, ya que siguen las características de secuencia larga aunque no son autorregresivos. Los resultados experimentales realizados para analizar el mecanismo de red neuronal recurrente del modelo de espacio de estados concluyen que el marco Mamba es adecuado para tareas con características autorregresivas o de secuencia larga, y es innecesario para tareas de clasificación de imágenes. En cuanto al marco MambaOut en sí, se trata de una serie de modelos Mamba basados ​​en bloques de redes neuronales convolucionales cerradas sin el modelo de espacio de estados, y los resultados experimentales indican que el marco MambaOut es capaz de superar a los modelos Mamba en tareas de clasificación de imágenes, pero no logra replicarse. el rendimiento en tareas de detección y segmentación de imágenes. 

¿Para qué tareas es adecuado Mamba?

El mezclador de tokens del marco Mamba es un modelo de espacio de estados selectivo que define cuatro parámetros dependientes de la entrada. La propiedad recurrente del marco distingue los modelos de espacio de estados tipo RNN de la atención causal. El estado oculto puede verse como una memoria de tamaño fijo que almacena información histórica. El tamaño fijo significa que la memoria tiene pérdidas, pero también garantiza que la complejidad computacional de integrar la memoria con la entrada actual permanezca constante. Por el contrario, las capas de atención causal almacenan todas las claves y valores de tokens anteriores y se expanden agregando la clave y el valor del token actual con cada nueva entrada, y esta memoria, en teoría, no tiene pérdidas. Sin embargo, el tamaño de la memoria crece a medida que se ingresan más tokens, lo que aumenta la complejidad de integrar la memoria con la entrada actual. La diferencia entre los mecanismos de memoria entre la atención causal y los modelos tipo RNN se ilustra en la siguiente figura. 

Dado que la memoria del modelo de espacio de estados es inherentemente con pérdidas, no llega a la memoria sin pérdidas de la atención causal y, como resultado, la memoria del modelo de espacio de estados tiene pérdidas inherentes. Modelos de mamba no puede demostrar su fortaleza en el manejo de secuencias cortas, un área donde el mecanismo de atención causal funciona bien con facilidad. Sin embargo, en escenarios que involucran secuencias largas, el enfoque de atención causal falla debido a la complejidad cuadrática. En este escenario, el marco Mamba muestra su eficiencia al fusionar memoria con la entrada actual y es capaz de manejar secuencias largas sin problemas, lo que indica que la familia de modelos Mamba es adecuada para procesar secuencias largas. 

También vale la pena señalar que, por un lado, mientras que la naturaleza recurrente del modelo de espacio de estados permite que los modelos Mamba manejen eficientemente secuencias largas, introduce una cierta limitación, ya que solo puede acceder a información de los pasos de tiempo actuales y anteriores, y este tipo de La mezcla de tokens se denomina modo causal y se ilustra en la siguiente figura. Debido a su naturaleza causal, este método es adecuado para tareas de generación autorregresivas

El modo totalmente visible es adecuado para comprender tareas en las que el modelo puede acceder a todas las entradas a la vez. Además, la atención está en modo totalmente visible de forma predeterminada y se puede convertir fácilmente en modo causal aplicando máscaras causales a los mapas de atención, y los modelos tipo RNN operan inherentemente en modo causal debido a sus propiedades recurrentes. Para resumir, el marco Mamba es adecuado para tareas que implican el procesamiento de secuencias largas o tareas que requieren un modo de mezcla de tokens causal.

Tareas de reconocimiento visual, código de mezcla de tokens causales y secuencias muy grandes

Como se analizó anteriormente, el modo de mezcla de tokens totalmente visible permite un rango de mezcla sin restricciones, mientras que el modo causal limita el token actual para acceder solo a la información de los tokens anteriores. Además, el reconocimiento visual se clasifica como una tarea de comprensión en la que el modelo puede ver la imagen completa a la vez, lo que elimina la necesidad de restricciones en la mezcla de tokens, y la imposición de restricciones adicionales en la mezcla de tokens puede degradar potencialmente el rendimiento del modelo. Generalmente, el modo totalmente visible es apropiado para comprender tareas, mientras que el modo informal se adapta mejor a las tareas autorregresivas. Además, esta afirmación se ve respaldada por el hecho de que los modelos BeRT y ViT se utilizan para comprender tareas más que los modelos GPT.

Verificación experimental y resultados.

El siguiente paso es verificar experimentalmente las hipótesis propuestas por el marco MambaOut. Como se demuestra en la siguiente imagen, el bloque Mamba se basa en el bloque Gated Convolutional Neural Network, y la metaarquitectura de los bloques Mamba y Gated CNN se puede tratar como una integración simplificada del mezclador de tokens del marco MetaFormer y un MLP. . 

El bloque Mamba extiende la red neuronal convolucional cerrada con un modelo de espacio de estado adicional, y la presencia de un SSm es lo que distingue a la CNN cerrada y el bloque Mamba. Además, para mejorar la velocidad práctica, el marco MambaOut realiza solo convolución profunda en canales parciales y, como se demuestra en el siguiente algoritmo, la implementación del bloque Gated CNN es simple, pero efectiva y elegante. 

Tarea de clasificación de imágenes

ImageNet sirve como punto de referencia para las tareas de clasificación de imágenes, ya que consta de más de mil clases comunes, más de 1.3 millones de imágenes de entrenamiento y más de 50,000 imágenes de validación. El aumento de datos utilizado para el experimento consiste en recorte de tamaño aleatorio, mezcla, fluctuación de color, borrado aleatorio, CutMix y aumento aleatorio. La siguiente tabla resume el rendimiento de la familia de modelos Mamba, el modelo MambaOut y otros modelos de convolución y basados ​​en la atención en el conjunto de datos de ImageNet. Como puede verse, el marco MambaOut sin el modelo de espacio de estados supera a los modelos visuales Mamba con SSM de manera consistente en todos los tamaños de modelo. 

Por ejemplo, el modelo MambaOut-Small arroja una puntuación de precisión superior al 1%, un 84% más que su competidor Mamba más cercano. Este resultado apoya firmemente la primera hipótesis que afirma que no es necesario introducir un modelo de espacio de estados para tareas de clasificación de imágenes. 

Tareas de detección de objetos y segmentación de instancias

COCO sirve como punto de referencia para las tareas de detección de objetos y segmentación de instancias. Aunque el marco MambaOut es capaz de superar el rendimiento de algunos modelos visuales de Mamba, todavía no alcanza los modelos visuales de Mamba de última generación, incluidos LocalVMamba y VMamba. La disparidad en el rendimiento de MambaOut frente a los modelos visuales de última generación enfatiza los beneficios de integrar la familia de modelos Mamba en tareas visuales de secuencia larga. Sin embargo, vale la pena señalar que todavía existe una brecha de rendimiento significativa entre los modelos híbridos de convolución-atención-de última generación y los modelos visuales de Mamba. 

Consideraciones Finales:

En este artículo, analizamos los conceptos de la familia de modelos Mamba y concluimos que es adecuada para tareas que involucran características autorregresivas y de secuencia larga. MambaOut es un trabajo que intenta profundizar en la esencia del marco Mamba y responder si Mamba es ideal para tareas con características autorregresivas y de secuencia larga. El marco MambaOut plantea la hipótesis de que Mamba no es necesario para las tareas de visión ya que la clasificación de imágenes no se alinea ni con características de secuencia larga ni autorregresivas. Aunque las tareas de segmentación y detección tampoco son autorregresivas, muestran características de secuencia larga, lo que lleva al marco MambaOut a plantear la hipótesis del potencial de Mamba para estas tareas. El marco MambaOut se construye apilando bloques Mamba uno encima del otro mientras se elimina el modelo de espacio de estado, su mezclador de tokens central. Los resultados experimentales respaldan la hipótesis planteada por el marco MambaOut, ya que es capaz de superar todos los modelos visuales de Mamba en el marco de clasificación de imágenes ImageNet, lo que indica que Mamba no es necesario para las tareas de visión. Por otro lado, para las tareas de detección y segmentación, el marco MambaOut no puede replicar el rendimiento ofrecido por el modelo Mamba de última generación, lo que demuestra el potencial de la familia de modelos Mamba para tareas visuales de secuencia larga. 

 

"Ingeniero de profesión, escritor de corazón". Kunal es un escritor técnico con un profundo amor y comprensión de AI y ML, dedicado a simplificar conceptos complejos en estos campos a través de su atractiva e informativa documentación.