Les principales fonctionnalités de Mamba incluent :
- MSU sélectifs: Ceux-ci permettent à Mamba de filtrer les informations non pertinentes et de se concentrer sur les données pertinentes, améliorant ainsi sa gestion des séquences. Cette sélectivité est cruciale pour un raisonnement efficace basé sur le contenu.
- Algorithme sensible au matérielMamba utilise un algorithme parallèle optimisé pour le matériel moderne, notamment les GPU. Cette conception permet des calculs plus rapides et réduit les besoins en mémoire par rapport aux modèles traditionnels.
- Architecture simplifiée: En intégrant des SSM sélectifs et en éliminant les blocages d'attention et MLP, Mamba propose une structure plus simple et plus homogène. Cela conduit à une meilleure évolutivité et de meilleures performances.
Mamba a démontré des performances supérieures dans divers domaines, notamment le langage, l'audio et la génomique, excellant à la fois dans les tâches de pré-formation et spécifiques à un domaine. Par exemple, dans la modélisation du langage, Mamba égale ou dépasse les performances des modèles Transformer plus grands.
Le code et les modèles pré-entraînés de Mamba sont ouvertement disponibles pour une utilisation communautaire à l'adresse GitHub.

Les tâches de copie standard sont simples pour les modèles linéaires. Les têtes de copie sélective et d'induction nécessitent une mémoire dynamique et sensible au contenu pour les LLM.
Les modèles d'espace d'état structuré (S4) sont récemment apparus comme une classe prometteuse de modèles de séquence, englobant les caractéristiques des RNN, des CNN et des modèles d'espace d'état classiques. Les modèles S4 s'inspirent des systèmes continus, en particulier d'un type de système qui mappe des fonctions ou des séquences unidimensionnelles via un état latent implicite. Dans le contexte de l’apprentissage profond, ils représentent une innovation significative, fournissant une nouvelle méthodologie pour concevoir des modèles de séquences efficaces et hautement adaptables.
La dynamique des modèles S4
SSM (S4) Il s’agit du modèle d’espace d’état structuré de base. Il faut une séquence x
et produit une sortie y
en utilisant les paramètres appris A
, B
, C
, et un paramètre de retard Δ
La transformation implique la discrétisation des paramètres (transformation des fonctions continues en fonctions discrètes) et l'application de l'opération SSM, qui est invariante dans le temps, ce qui signifie qu'elle ne change pas au fil des différentes étapes de temps.
L'importance de la discrétisation
La discrétisation est un processus clé qui transforme les paramètres continus en paramètres discrets via des formules fixes, permettant aux modèles S4 de maintenir une connexion avec les systèmes à temps continu. Cela confère aux modèles des propriétés supplémentaires, telles que l'invariance de résolution, et garantit une normalisation appropriée, améliorant ainsi la stabilité et les performances du modèle. La discrétisation établit également des parallèles avec les mécanismes de contrôle présents dans les RNN, qui sont essentiels à la gestion du flux d'informations à travers le réseau.
Invariance temporelle linéaire (LTI)
Une caractéristique essentielle des modèles S4 est leur invariance temporelle linéaire. Cette propriété implique que la dynamique du modèle reste cohérente dans le temps, avec les paramètres fixes pour tous les pas de temps. LTI est la pierre angulaire de la récurrence et des convolutions, offrant un cadre simplifié mais puissant pour créer des modèles de séquence.
Surmonter les limites fondamentales
Le cadre S4 a été traditionnellement limité par sa nature LTI, ce qui pose des défis dans la modélisation de données nécessitant une dynamique adaptative. Le récent document de recherche présente une approche qui surmonte ces limitations en introduisant des paramètres variables dans le temps, supprimant ainsi la contrainte du LTI. Cela permet aux modèles S4 de gérer un ensemble plus diversifié de séquences et de tâches, élargissant ainsi considérablement leur applicabilité.
Le terme « modèle d'espace d'état » désigne au sens large tout processus récurrent impliquant un état latent et a été utilisé pour décrire divers concepts dans de nombreuses disciplines. Dans le contexte de l'apprentissage profond, les modèles S4, ou SSM structurés, désignent une classe spécifique de modèles optimisés pour des calculs efficaces tout en conservant la capacité de modéliser des séquences complexes.
Les modèles S4 peuvent être intégrés dans des architectures de réseaux neuronaux de bout en bout, fonctionnant comme des transformations de séquence autonomes. Ils peuvent être considérés comme analogues aux couches de convolution des CNN, fournissant l’épine dorsale de la modélisation de séquences dans diverses architectures de réseaux neuronaux.

SSM vs SSM + Sélection
Motivation pour la sélectivité dans la modélisation de séquences

SSM structurés
L'article soutient qu'un aspect fondamental de la modélisation de séquences est la compression du contexte dans un état gérable. Les modèles qui peuvent se concentrer ou filtrer sélectivement les entrées fournissent un moyen plus efficace de maintenir cet état compressé, conduisant à des modèles de séquence plus efficaces et plus puissants. Cette sélectivité est vitale pour que les modèles contrôlent de manière adaptative la façon dont les informations circulent le long de la dimension de séquence, une capacité essentielle pour gérer des tâches complexes dans la modélisation du langage et au-delà .
Les SSM sélectifs améliorent les SSM conventionnels en permettant à leurs paramètres de dépendre des entrées, ce qui introduit un degré d'adaptabilité auparavant inaccessible avec les modèles invariants dans le temps. Il en résulte des SSM variables dans le temps qui ne peuvent plus utiliser des convolutions pour un calcul efficace, mais s'appuient plutôt sur un mécanisme de récurrence linéaire, un écart significatif par rapport aux modèles traditionnels.