Intelligence Artificielle
xLSTM : un guide complet sur la mémoire étendue à long terme et à court terme
Comprendre les origines : les limites du LSTM
Avant de nous plonger dans l'univers xLSTM, il est essentiel de comprendre les limites auxquelles les architectures LSTM traditionnelles ont été confrontées. Ces limites ont été à l'origine du développement de xLSTM et d'autres approches alternatives.
- Incapacité de réviser les décisions de stockage: L'une des principales limites de LSTM est sa difficulté à réviser les valeurs stockées lorsqu'un vecteur plus similaire est rencontré. Cela peut conduire à des performances sous-optimales dans les tâches qui nécessitent des mises à jour dynamiques des informations stockées.
- Capacités de stockage limitées: Les LSTM compressent les informations dans des états de cellules scalaires, ce qui peut limiter leur capacité à stocker et récupérer efficacement des modèles de données complexes, en particulier lorsqu'il s'agit de jetons rares ou de dépendances à longue portée.
- Manque de Parallélisabilité : Le mécanisme de mélange de mémoire dans les LSTM, qui implique des connexions cachées entre les pas de temps, impose un traitement séquentiel, entravant la parallélisation des calculs et limitant l'évolutivité.
Ces limitations ont ouvert la voie à l’émergence de Transformers et d’autres architectures qui ont surpassé les LSTM à certains égards, en particulier lors de l’évolution vers des modèles plus grands.
L'architecture xLSTM
Au cœur de xLSTM se trouvent deux modifications principales du cadre LSTM traditionnel : le déclenchement exponentiel et de nouvelles structures de mémoire. Ces améliorations introduisent deux nouvelles variantes de LSTM, connues sous le nom de sLSTM (LSTM scalaire) et mLSTM (LSTM matriciel).
- sLSTM: Le Scalar LSTM avec déclenchement exponentiel et mixage de mémoire
- Porte exponentielle: sLSTM intègre des fonctions d'activation exponentielle pour les portes d'entrée et d'oubli, permettant un contrôle plus flexible du flux d'informations.
- Normalisation et stabilisation: Pour éviter les instabilités numériques, sLSTM introduit un état normalisateur qui garde une trace du produit des portes d'entrée et des futures portes d'oubli.
- Mélange de mémoire: sLSTM prend en charge plusieurs cellules de mémoire et permet le mélange de mémoire via des connexions récurrentes, permettant l'extraction de modèles complexes et des capacités de suivi d'état.
- mLSTM: Le Matrix LSTM avec des capacités de stockage améliorées
- Mémoire matricielle: Au lieu d'une cellule mémoire scalaire, mLSTM utilise une mémoire matricielle, augmentant sa capacité de stockage et permettant une récupération plus efficace des informations.
- Règle de mise à jour de covariance: mLSTM utilise une règle de mise à jour de covariance, inspirée des mémoires associatives bidirectionnelles (BAM), pour stocker et récupérer efficacement les paires clé-valeur.
- Parallélisabilité: En abandonnant le mélange de mémoire, mLSTM atteint une parallélisabilité totale, permettant des calculs efficaces sur les accélérateurs matériels modernes.
Ces deux variantes, sLSTM et mLSTM, peuvent être intégrées dans des architectures de blocs résiduels, formant des blocs xLSTM. En empilant de manière résiduelle ces blocs xLSTM, les chercheurs peuvent construire de puissantes architectures xLSTM adaptées à des tâches et des domaines d'application spécifiques.
Les maths
LSTM traditionnel :
L'architecture LSTM originale a introduit le carrousel d'erreurs constantes et les mécanismes de déclenchement pour surmonter le problème du gradient de disparition dans les réseaux neuronaux récurrents.

Le module répétitif dans un LSTM – Source
Les mises à jour des cellules mémoire LSTM sont régies par les équations suivantes :
Mise à jour de l'état de la cellule : ct = ft ⊙ ct-1 + it ⊙ zt
Mise à jour de l'état caché : ht = ot ⊙ tanh(ct)
Où? :
- 𝑐𝑡 est le vecteur d'état de la cellule à l'instant 𝑡
- 𝑓𝑡 est le vecteur de la porte oubliée
- 𝑖𝑡 est le vecteur de porte d'entrée
- 𝑜𝑡 est le vecteur de porte de sortie
- 𝑧𝑡 est l'entrée modulée par la porte d'entrée
- ⊙ représente la multiplication par éléments
Les portes ft, it et ot contrôlent quelles informations sont stockées, oubliées et sorties de l'état de la cellule, atténuant ainsi le problème de disparition du gradient.
xLSTM avec déclenchement exponentiel :
L'architecture xLSTM introduit un déclenchement exponentiel pour permettre un contrôle plus flexible du flux d'informations. Pour la variante scalaire xLSTM (sLSTM) :
Mise à jour de l'état de la cellule : ct = ft ⊙ ct-1 + it ⊙ zt
Mise à jour de l'état du normalisateur : nt = ft ⊙ nt-1 + it
Mise à jour de l'état caché : ht = ot ⊙ (ct / nt)
Portes d'entrée et d'oubli : it = exp(W_i xt + R_i ht-1 + b_i) ft = σ(W_f xt + R_f ht-1 + b_f) OU ft = exp(W_f xt + R_f ht-1 + b_f)
Les fonctions d'activation exponentielle pour les portes d'entrée (it) et d'oubli (ft), ainsi que l'état normalisateur nt, permettent un contrôle plus efficace des mises à jour de la mémoire et de la révision des informations stockées.
Principales caractéristiques et avantages de xLSTM
- Capacité à réviser les décisions de stockage: Grâce au déclenchement exponentiel, xLSTM peut réviser efficacement les valeurs stockées lorsqu'il rencontre des informations plus pertinentes, surmontant ainsi une limitation importante des LSTM traditionnels.
- Capacités de stockage améliorées: La mémoire matricielle de mLSTM offre une capacité de stockage accrue, permettant à xLSTM de gérer plus efficacement les jetons rares, les dépendances à longue portée et les modèles de données complexes.
- Parallélisabilité: La variante mLSTM de xLSTM est entièrement parallélisable, permettant des calculs efficaces sur des accélérateurs matériels modernes, tels que les GPU, et permettant une évolutivité vers des modèles plus grands.
- Mélange de mémoire et suivi d'état: La variante sLSTM de xLSTM conserve les capacités de mélange de mémoire des LSTM traditionnels, permettant le suivi de l'état et rendant xLSTM plus expressif que les transformateurs et les modèles spatiaux d'état pour certaines tâches.
- Évolutivité: En tirant parti des dernières techniques des grands modèles de langage (LLM) modernes, xLSTM peut être adapté à des milliards de paramètres, ouvrant ainsi de nouvelles possibilités dans les tâches de modélisation du langage et de traitement de séquences.
Évaluation expérimentale : présentation des capacités de xLSTM
Le document de recherche présente une évaluation expérimentale complète de xLSTM, mettant en évidence ses performances dans diverses tâches et tests de référence. Voici quelques conclusions clés :
- Tâches synthétiques et arène à longue portée:
- xLSTM excelle dans la résolution de tâches de langage formel qui nécessitent un suivi d'état, surpassant les transformateurs, les modèles spatiaux d'état et d'autres architectures RNN.
- Dans la tâche de rappel associatif multi-requêtes, xLSTM démontre des capacités de mémoire améliorées, surpassant les modèles non Transformer et rivalisant avec les performances des Transformers.
- Sur le benchmark Long Range Arena, xLSTM présente des performances solides et constantes, démontrant son efficacité dans la gestion des problèmes à contexte long.
- Modélisation du langage et tâches en aval:
- Lorsqu'il est formé sur 15 milliards de jetons de l'ensemble de données SlimPajama, xLSTM surpasse les méthodes existantes, notamment les transformateurs, les modèles spatiaux d'état et d'autres variantes RNN, en termes de perplexité de validation.
- À mesure que les modèles sont adaptés à des tailles plus grandes, xLSTM continue de conserver son avantage en termes de performances, démontrant un comportement de mise à l'échelle favorable.
- Dans les tâches en aval telles que le raisonnement de bon sens et la réponse aux questions, xLSTM apparaît comme la meilleure méthode pour différentes tailles de modèles, surpassant les approches de pointe.
- Performance sur les tâches de langage PALOMA:
- Évalué sur 571 domaines de texte du benchmark linguistique PALOMA, xLSTM[1:0] (la variante sLSTM) atteint des perplexités inférieures à celles des autres méthodes dans 99.5 % des domaines par rapport à Mamba, 85.1 % par rapport à Llama et 99.8 % par rapport à RWKV. -4.
- Lois de mise à l'échelle et extrapolation de longueur:
- Lorsqu'il est formé sur des jetons 300B de SlimPajama, xLSTM présente des lois de mise à l'échelle favorables, indiquant son potentiel d'amélioration supplémentaire des performances à mesure que la taille des modèles augmente.
- Dans les expériences d'extrapolation de longueur de séquence, les modèles xLSTM maintiennent de faibles perplexités même pour des contextes nettement plus longs que ceux observés lors de la formation, surpassant ainsi les autres méthodes.
Ces résultats expérimentaux mettent en évidence les capacités remarquables de xLSTM, le positionnant comme un concurrent prometteur pour les tâches de modélisation de langage, le traitement de séquences et un large éventail d'autres applications.
Applications du monde réel et orientations futures
Les applications potentielles de xLSTM couvrent un large éventail de domaines, depuis le traitement et la génération du langage naturel jusqu'à la modélisation de séquences, l'analyse de séries chronologiques et au-delà. Voici quelques domaines passionnants dans lesquels xLSTM pourrait avoir un impact significatif :
- Modélisation du langage et génération de texte: Grâce à ses capacités de stockage améliorées et à sa capacité à réviser les informations stockées, xLSTM pourrait révolutionner les tâches de modélisation du langage et de génération de texte, permettant une génération de texte plus cohérente, plus contextuelle et plus fluide.
- Traduction automatique: Les capacités de suivi d'état de xLSTM pourraient s'avérer inestimables dans les tâches de traduction automatique, où la conservation des informations contextuelles et la compréhension des dépendances à long terme sont cruciales pour des traductions précises.
- Reconnaissance et génération vocales: La parallélisabilité et l'évolutivité de xLSTM le rendent bien adapté aux applications de reconnaissance et de génération vocales, où le traitement efficace de longues séquences est essentiel.
- Analyse et prévision de séries chronologiques:La capacité de xLSTM à gérer les dépendances à longue portée et à stocker et récupérer efficacement des modèles complexes pourrait conduire à des améliorations significatives dans les tâches d'analyse et de prévision des séries chronologiques dans divers domaines, tels que la finance, les prévisions météorologiques et les applications industrielles.
- Systèmes d'apprentissage et de contrôle par renforcement: Le potentiel de xLSTM dans les systèmes d'apprentissage et de contrôle par renforcement est prometteur, car ses capacités de mémoire améliorées et ses capacités de suivi d'état pourraient permettre une prise de décision et un contrôle plus intelligents dans des environnements complexes.
















