Intelligence artificielle
xLSTM : Un guide complet sur la mémoire à long terme étendue
Comprendre les origines : les limites de LSTM
Avant de plonger dans le monde de xLSTM, il est essentiel de comprendre les limites que les architectures LSTM traditionnelles ont rencontrées. Ces limites ont été le moteur du développement de xLSTM et d’autres approches alternatives.
- Incabilité à réviser les décisions de stockage : L’une des principales limites de LSTM est sa difficulté à réviser les valeurs stockées lorsqu’un vecteur plus similaire est rencontré. Cela peut conduire à des performances sous-optimales dans les tâches qui nécessitent des mises à jour dynamiques des informations stockées.
- Capacités de stockage limitées : Les LSTM compressent les informations dans des états de cellule scalaires, ce qui peut limiter leur capacité à stocker et à récupérer efficacement des modèles de données complexes, en particulier lorsqu’il s’agit de jetons rares ou de dépendances à longue portée.
- Manque de parallélisation : Le mécanisme de mélange de mémoire dans les LSTM, qui implique des connexions cachées-cachées entre les étapes temporelles, impose un traitement séquentiel, entravant la parallélisation des calculs et limitant la scalabilité.
Ces limites ont ouvert la voie à l’émergence de transformateurs et d’autres architectures qui ont dépassé les LSTM dans certains aspects, en particulier lorsqu’elles sont mises à l’échelle à des modèles plus grands.
L’architecture xLSTM
Au cœur de xLSTM se trouvent deux modifications majeures de l’architecture LSTM traditionnelle : la gestion exponentielle et les structures de mémoire novatrices. Ces améliorations introduisent deux nouvelles variantes de LSTM, connues sous le nom de sLSTM (LSTM scalaire) et mLSTM (LSTM matriciel).
- sLSTM : Le LSTM scalaire avec gestion exponentielle et mélange de mémoire
- Gestion exponentielle : sLSTM intègre des fonctions d’activation exponentielles pour les portes d’entrée et d’oubli, permettant un contrôle plus flexible du flux d’informations.
- Normalisation et stabilisation : Pour prévenir les instabilités numériques, sLSTM introduit un état de normalisation qui suit le produit des portes d’entrée et des portes d’oubli futures.
- Mélange de mémoire : sLSTM prend en charge plusieurs cellules de mémoire et permet un mélange de mémoire via des connexions récurrentes, permettant l’extraction de modèles complexes et des capacités de suivi d’état.
- mLSTM : Le LSTM matriciel avec des capacités de stockage améliorées
- Mémoire matricielle : Au lieu d’une cellule de mémoire scalaire, mLSTM utilise une mémoire matricielle, augmentant sa capacité de stockage et permettant une récupération plus efficace des informations.
- Règle de mise à jour de la covariance : mLSTM emploie une règle de mise à jour de la covariance, inspirée des mémoires associatives bidirectionnelles (BAM), pour stocker et récupérer efficacement des paires clé-valeur.
- Parallélisation : En abandonnant le mélange de mémoire, mLSTM atteint une parallélisation complète, permettant des calculs efficaces sur les accélérateurs de matériel modernes, tels que les GPU, et permettant la scalabilité à des modèles plus grands.
Ces deux variantes, sLSTM et mLSTM, peuvent être intégrées dans des architectures de blocs résiduels, formant des blocs xLSTM. En empilant résiduellement ces blocs xLSTM, les chercheurs peuvent construire des architectures xLSTM puissantes adaptées à des tâches et des domaines d’application spécifiques.
Les mathématiques
LSTM traditionnel :
L’architecture LSTM originale a introduit le manège d’erreur constant et les mécanismes de gestion pour surmonter le problème du gradient qui disparaît dans les réseaux de neurones récurrents.

Le module répétitif dans un LSTM – Source
Les mises à jour de la cellule de mémoire LSTM sont régies par les équations suivantes :
Mise à jour de l’état de la cellule : ct = ft ⊙ ct-1 + it ⊙ zt
Mise à jour de l’état caché : ht = ot ⊙ tanh(ct)
Où :
- 𝑐𝑡 est le vecteur d’état de la cellule à l’instant 𝑡
- 𝑓𝑡 est le vecteur de la porte d’oubli
- 𝑖𝑡 est le vecteur de la porte d’entrée
- 𝑜𝑡 est le vecteur de la porte de sortie
- 𝑧𝑡 est l’entrée modulée par la porte d’entrée
- ⊙ représente la multiplication élément par élément
Les portes ft, it et ot contrôlent les informations qui sont stockées, oubliées et sorties de l’état de la cellule ct, atténuant le problème du gradient qui disparaît.
xLSTM avec gestion exponentielle :
L’architecture xLSTM introduit la gestion exponentielle pour permettre un contrôle plus flexible du flux d’informations. Pour la variante xLSTM scalaire (sLSTM) :
Mise à jour de l’état de la cellule : ct = ft ⊙ ct-1 + it ⊙ zt
Mise à jour de l’état de normalisation : nt = ft ⊙ nt-1 + it
Mise à jour de l’état caché : ht = ot ⊙ (ct / nt)
Portes d’entrée et d’oubli : it = exp(W_i xt + R_i ht-1 + b_i) ft = σ(W_f xt + R_f ht-1 + b_f) OU ft = exp(W_f xt + R_f ht-1 + b_f)
Les fonctions d’activation exponentielles pour les portes d’entrée (it) et d’oubli (ft), ainsi que l’état de normalisation nt, permettent un contrôle plus efficace des mises à jour de la mémoire et la révision des informations stockées.
Caractéristiques clés et avantages de xLSTM
- Capacité à réviser les décisions de stockage : Grâce à la gestion exponentielle, xLSTM peut réviser efficacement les valeurs stockées lorsqu’il rencontre des informations plus pertinentes, surmontant une limitation majeure des LSTM traditionnels.
- Capacités de stockage améliorées : La mémoire matricielle dans mLSTM fournit une capacité de stockage accrue, permettant à xLSTM de gérer des jetons rares, des dépendances à longue portée et des modèles de données complexes de manière plus efficace.
- Parallélisation : La variante mLSTM de xLSTM est entièrement parallélisable, permettant des calculs efficaces sur les accélérateurs de matériel modernes, tels que les GPU, et permettant la scalabilité à des modèles plus grands.
- Mélange de mémoire et suivi d’état : La variante sLSTM de xLSTM conserve les capacités de mélange de mémoire des LSTM traditionnels, permettant le suivi d’état et rendant xLSTM plus expressif que les transformateurs et les modèles d’espace d’état pour certaines tâches.
- Scalabilité : En exploitant les dernières techniques des grands modèles de langage (LLM), xLSTM peut être mis à l’échelle à des milliards de paramètres, débloquant de nouvelles possibilités dans la modélisation de langage et le traitement de séquences.
Évaluation expérimentale : mettant en évidence les capacités de xLSTM
L’article de recherche présente une évaluation expérimentale complète de xLSTM, mettant en évidence ses performances sur diverses tâches et benchmarks. Voici quelques résultats clés :
- Tâches synthétiques et Long Range Arena :
- xLSTM excelle dans la résolution de tâches de langage formel qui nécessitent un suivi d’état, surpassant les transformateurs, les modèles d’espace d’état et d’autres architectures de RNN.
- Dans la tâche de rappel associatif à plusieurs requêtes, xLSTM démontre des capacités de mémoire améliorées, surpassant les modèles non transformateurs et rivalisant avec les performances des transformateurs.
- Sur le benchmark Long Range Arena, xLSTM montre des performances solides et cohérentes, démontrant son efficacité dans la gestion de problèmes à longue portée.
- Modélisation de langage et tâches en aval :
- Lorsqu’il est formé sur 15 milliards de jetons à partir du jeu de données SlimPajama, xLSTM surpasse les méthodes existantes, y compris les transformateurs, les modèles d’espace d’état et d’autres variantes de RNN, en termes de perplexité de validation.
- À mesure que les modèles sont mis à l’échelle à des tailles plus grandes, xLSTM maintient son avantage en termes de performance, démontrant un comportement de mise à l’échelle favorable.
- Dans les tâches en aval telles que la raisonnement commun et la réponse aux questions, xLSTM émerge comme la meilleure méthode sur différentes tailles de modèles, surpassant les approches à l’état de l’art.
- Performances sur les tâches de langage PALOMA :
- Évalué sur 571 domaines de texte à partir du benchmark de langage PALOMA, xLSTM[1:0] (la variante sLSTM) atteint des perplexités plus faibles que les autres méthodes dans 99,5 % des domaines par rapport à Mamba, 85,1 % par rapport à Llama et 99,8 % par rapport à RWKV-4.
- Lois de mise à l’échelle et extrapolation de longueur :
- Lorsqu’il est formé sur 300 milliards de jetons à partir du jeu de données SlimPajama, xLSTM montre des lois de mise à l’échelle favorables, indiquant son potentiel pour des améliorations de performance supplémentaires à mesure que la taille des modèles augmente.
- Dans les expériences d’extrapolation de longueur de séquence, les modèles xLSTM maintiennent des perplexités faibles même pour des contextes considérablement plus longs que ceux vus pendant la formation, surpassant les autres méthodes.
Ces résultats expérimentaux mettent en évidence les capacités remarquables de xLSTM, le positionnant comme un prétendant prometteur pour les tâches de modélisation de langage, de traitement de séquences et un large éventail d’autres applications.
Applications du monde réel et directions futures
Les applications potentielles de xLSTM s’étendent sur un large éventail de domaines, de la traitement du langage naturel et de la génération à la modélisation de séquences, à l’analyse de séries temporelles et au-delà. Voici quelques domaines excitants où xLSTM pourrait avoir un impact significatif :
- Modélisation de langage et génération de texte : Avec ses capacités de stockage améliorées et sa capacité à réviser les informations stockées, xLSTM pourrait révolutionner les tâches de modélisation de langage et de génération de texte, permettant une génération de texte plus cohérent, plus contextuel et plus fluide.
- Traduction automatique : Les capacités de suivi d’état de xLSTM pourraient s’avérer inestimables dans les tâches de traduction automatique, où maintenir les informations contextuelles et comprendre les dépendances à longue portée est crucial pour des traductions précises.
- Reconnaissance et génération vocale : La parallélisation et la scalabilité de xLSTM le rendent bien adapté aux applications de reconnaissance et de génération vocale, où le traitement efficace de longues séquences est essentiel.
- Analyse et prévision de séries temporelles : La capacité de xLSTM à gérer les dépendances à longue portée et à stocker efficacement des modèles complexes pourrait conduire à des améliorations significatives dans les tâches d’analyse et de prévision de séries temporelles dans divers domaines, tels que la finance, la prévision météorologique et les applications industrielles.
- Apprentissage par renforcement et systèmes de contrôle : Le potentiel de xLSTM dans l’apprentissage par renforcement et les systèmes de contrôle est prometteur, car ses capacités de mémoire améliorées et de suivi d’état pourraient permettre une prise de décision plus intelligente et un contrôle plus efficace dans des environnements complexes.
















