Intelligence artificielle

xLSTM : Un guide complet sur la mémoire à long terme étendue

Published May 16, 2024

Updated April 4, 2026

Aayush Mittal Mittal

Depuis plus de deux décennies, l’architecture de mémoire à long terme court terme (LSTM) de Sepp Hochreiter a été instrumentale dans de nombreuses avancées en apprentissage profond et dans des applications du monde réel. De la génération de langage naturel à l’alimentation de systèmes de reconnaissance vocale, les LSTM ont été une force motrice derrière la révolution de l’IA.

Cependant, même le créateur des LSTM a reconnu leurs limites inhérentes qui les empêchaient de réaliser leur plein potentiel. Des lacunes telles que l’incapacité à réviser les informations stockées, des capacités de mémoire limitées et un manque de parallélisation ont ouvert la voie à l’émergence de transformateurs et d’autres modèles pour dépasser les LSTM pour des tâches de langage plus complexes.

Mais dans un développement récent, Hochreiter et son équipe chez NXAI ont introduit une nouvelle variante appelée LSTM étendu (xLSTM) qui répond à ces problèmes de longue date. Présenté dans un article de recherche récent, xLSTM s’appuie sur les idées fondamentales qui ont rendu les LSTM si puissants, tout en surmontant leurs faiblesses clés grâce à des innovations architecturales.

Au cœur de xLSTM se trouvent deux composants novateurs : la gestion exponentielle et les structures de mémoire améliorées. La gestion exponentielle permet un contrôle plus flexible du flux d’informations, permettant aux xLSTMs de réviser efficacement les décisions lorsqu’un nouveau contexte est rencontré. Pendant ce temps, l’introduction de la mémoire matricielle augmente considérablement la capacité de stockage par rapport aux LSTM scalaires traditionnels.

Mais les améliorations ne s’arrêtent pas là. En exploitant des techniques empruntées à de grands modèles de langage comme la parallélisation et l’empilement résiduel de blocs, les xLSTMs peuvent être efficacement mis à l’échelle à des milliards de paramètres. Cela débloque leur potentiel pour la modélisation de séquences extrêmement longues et de fenêtres de contexte – une capacité critique pour la compréhension du langage complexe.

Les implications de la dernière création de Hochreiter sont monumentales. Imaginez des assistants virtuels qui peuvent suivre de manière fiable le contexte sur des conversations longues de plusieurs heures. Ou des modèles de langage qui généralisent plus solidement à de nouveaux domaines après une formation sur des données larges. Les applications s’étendent partout où les LSTM ont eu un impact – les chatbots, la traduction, les interfaces vocales, l’analyse de programmes et plus – mais maintenant turbochargés avec les capacités de pointe de xLSTM.

Dans ce guide technique approfondi, nous allons plonger dans les détails architecturaux de xLSTM, en évaluant ses composants novateurs comme les LSTM scalaires et matriciels, les mécanismes de gestion exponentielle, les structures de mémoire et plus. Vous acquerrez des connaissances à partir de résultats expérimentaux qui mettent en évidence les gains de performance impressionnants de xLSTM par rapport aux architectures à l’état de l’art comme les transformateurs et les derniers modèles récurrents.

Comprendre les origines : les limites de LSTM

Avant de plonger dans le monde de xLSTM, il est essentiel de comprendre les limites que les architectures LSTM traditionnelles ont rencontrées. Ces limites ont été le moteur du développement de xLSTM et d’autres approches alternatives.

Incabilité à réviser les décisions de stockage : L’une des principales limites de LSTM est sa difficulté à réviser les valeurs stockées lorsqu’un vecteur plus similaire est rencontré. Cela peut conduire à des performances sous-optimales dans les tâches qui nécessitent des mises à jour dynamiques des informations stockées.
Capacités de stockage limitées : Les LSTM compressent les informations dans des états de cellule scalaires, ce qui peut limiter leur capacité à stocker et à récupérer efficacement des modèles de données complexes, en particulier lorsqu’il s’agit de jetons rares ou de dépendances à longue portée.
Manque de parallélisation : Le mécanisme de mélange de mémoire dans les LSTM, qui implique des connexions cachées-cachées entre les étapes temporelles, impose un traitement séquentiel, entravant la parallélisation des calculs et limitant la scalabilité.

Ces limites ont ouvert la voie à l’émergence de transformateurs et d’autres architectures qui ont dépassé les LSTM dans certains aspects, en particulier lorsqu’elles sont mises à l’échelle à des modèles plus grands.

L’architecture xLSTM

Famille de LSTM étendus (xLSTM)

Au cœur de xLSTM se trouvent deux modifications majeures de l’architecture LSTM traditionnelle : la gestion exponentielle et les structures de mémoire novatrices. Ces améliorations introduisent deux nouvelles variantes de LSTM, connues sous le nom de sLSTM (LSTM scalaire) et mLSTM (LSTM matriciel).

sLSTM : Le LSTM scalaire avec gestion exponentielle et mélange de mémoire
- Gestion exponentielle : sLSTM intègre des fonctions d’activation exponentielles pour les portes d’entrée et d’oubli, permettant un contrôle plus flexible du flux d’informations.
- Normalisation et stabilisation : Pour prévenir les instabilités numériques, sLSTM introduit un état de normalisation qui suit le produit des portes d’entrée et des portes d’oubli futures.
- Mélange de mémoire : sLSTM prend en charge plusieurs cellules de mémoire et permet un mélange de mémoire via des connexions récurrentes, permettant l’extraction de modèles complexes et des capacités de suivi d’état.
mLSTM : Le LSTM matriciel avec des capacités de stockage améliorées
- Mémoire matricielle : Au lieu d’une cellule de mémoire scalaire, mLSTM utilise une mémoire matricielle, augmentant sa capacité de stockage et permettant une récupération plus efficace des informations.
- Règle de mise à jour de la covariance : mLSTM emploie une règle de mise à jour de la covariance, inspirée des mémoires associatives bidirectionnelles (BAM), pour stocker et récupérer efficacement des paires clé-valeur.
- Parallélisation : En abandonnant le mélange de mémoire, mLSTM atteint une parallélisation complète, permettant des calculs efficaces sur les accélérateurs de matériel modernes, tels que les GPU, et permettant la scalabilité à des modèles plus grands.

Ces deux variantes, sLSTM et mLSTM, peuvent être intégrées dans des architectures de blocs résiduels, formant des blocs xLSTM. En empilant résiduellement ces blocs xLSTM, les chercheurs peuvent construire des architectures xLSTM puissantes adaptées à des tâches et des domaines d’application spécifiques.

Les mathématiques

LSTM traditionnel :

L’architecture LSTM originale a introduit le manège d’erreur constant et les mécanismes de gestion pour surmonter le problème du gradient qui disparaît dans les réseaux de neurones récurrents.

Le module répétitif dans un LSTM – Source

Les mises à jour de la cellule de mémoire LSTM sont régies par les équations suivantes :

Mise à jour de l’état de la cellule : ct = ft ⊙ ct-1 + it ⊙ zt

Mise à jour de l’état caché : ht = ot ⊙ tanh(ct)

Où :

est le vecteur d’état de la cellule à l’instant $t$
est le vecteur de la porte d’oubli
est le vecteur de la porte d’entrée
est le vecteur de la porte de sortie
est l’entrée modulée par la porte d’entrée
représente la multiplication élément par élément

Les portes ft, it et ot contrôlent les informations qui sont stockées, oubliées et sorties de l’état de la cellule ct, atténuant le problème du gradient qui disparaît.

xLSTM avec gestion exponentielle :

L’architecture xLSTM introduit la gestion exponentielle pour permettre un contrôle plus flexible du flux d’informations. Pour la variante xLSTM scalaire (sLSTM) :

Mise à jour de l’état de la cellule : ct = ft ⊙ ct-1 + it ⊙ zt

Mise à jour de l’état de normalisation : nt = ft ⊙ nt-1 + it

Mise à jour de l’état caché : ht = ot ⊙ (ct / nt)

Portes d’entrée et d’oubli : it = exp(W_i xt + R_i ht-1 + b_i) ft = σ(W_f xt + R_f ht-1 + b_f) OU ft = exp(W_f xt + R_f ht-1 + b_f)

Les fonctions d’activation exponentielles pour les portes d’entrée (it) et d’oubli (ft), ainsi que l’état de normalisation nt, permettent un contrôle plus efficace des mises à jour de la mémoire et la révision des informations stockées.

xLSTM avec mémoire matricielle :

Pour la variante xLSTM matricielle (mLSTM) avec des capacités de stockage améliorées :

Mise à jour de l’état de la cellule : Ct = ft ⊙ Ct-1 + it ⊙ (vt kt^T)

Mise à jour de l’état de normalisation : nt = ft ⊙ nt-1 + it ⊙ kt

Mise à jour de l’état caché : ht = ot ⊙ (Ct qt / max(qt^T nt, 1))

Où :

est l’état de la cellule matricielle
et sont les vecteurs de valeur et de clé
est le vecteur de requête utilisé pour la récupération

Ces équations clés mettent en évidence la façon dont xLSTM étend la formulation originale de LSTM avec la gestion exponentielle pour un contrôle plus flexible du flux d’informations et la mémoire matricielle pour des capacités de stockage améliorées. La combinaison de ces innovations permet à xLSTM de surmonter les limites des LSTM traditionnels.

Caractéristiques clés et avantages de xLSTM

Capacité à réviser les décisions de stockage : Grâce à la gestion exponentielle, xLSTM peut réviser efficacement les valeurs stockées lorsqu’il rencontre des informations plus pertinentes, surmontant une limitation majeure des LSTM traditionnels.
Capacités de stockage améliorées : La mémoire matricielle dans mLSTM fournit une capacité de stockage accrue, permettant à xLSTM de gérer des jetons rares, des dépendances à longue portée et des modèles de données complexes de manière plus efficace.
Parallélisation : La variante mLSTM de xLSTM est entièrement parallélisable, permettant des calculs efficaces sur les accélérateurs de matériel modernes, tels que les GPU, et permettant la scalabilité à des modèles plus grands.
Mélange de mémoire et suivi d’état : La variante sLSTM de xLSTM conserve les capacités de mélange de mémoire des LSTM traditionnels, permettant le suivi d’état et rendant xLSTM plus expressif que les transformateurs et les modèles d’espace d’état pour certaines tâches.
Scalabilité : En exploitant les dernières techniques des grands modèles de langage (LLM), xLSTM peut être mis à l’échelle à des milliards de paramètres, débloquant de nouvelles possibilités dans la modélisation de langage et le traitement de séquences.

Évaluation expérimentale : mettant en évidence les capacités de xLSTM

L’article de recherche présente une évaluation expérimentale complète de xLSTM, mettant en évidence ses performances sur diverses tâches et benchmarks. Voici quelques résultats clés :

Tâches synthétiques et Long Range Arena :
- xLSTM excelle dans la résolution de tâches de langage formel qui nécessitent un suivi d’état, surpassant les transformateurs, les modèles d’espace d’état et d’autres architectures de RNN.
- Dans la tâche de rappel associatif à plusieurs requêtes, xLSTM démontre des capacités de mémoire améliorées, surpassant les modèles non transformateurs et rivalisant avec les performances des transformateurs.
- Sur le benchmark Long Range Arena, xLSTM montre des performances solides et cohérentes, démontrant son efficacité dans la gestion de problèmes à longue portée.
Modélisation de langage et tâches en aval :
- Lorsqu’il est formé sur 15 milliards de jetons à partir du jeu de données SlimPajama, xLSTM surpasse les méthodes existantes, y compris les transformateurs, les modèles d’espace d’état et d’autres variantes de RNN, en termes de perplexité de validation.
- À mesure que les modèles sont mis à l’échelle à des tailles plus grandes, xLSTM maintient son avantage en termes de performance, démontrant un comportement de mise à l’échelle favorable.
- Dans les tâches en aval telles que la raisonnement commun et la réponse aux questions, xLSTM émerge comme la meilleure méthode sur différentes tailles de modèles, surpassant les approches à l’état de l’art.
Performances sur les tâches de langage PALOMA :
- Évalué sur 571 domaines de texte à partir du benchmark de langage PALOMA, xLSTM[1:0] (la variante sLSTM) atteint des perplexités plus faibles que les autres méthodes dans 99,5 % des domaines par rapport à Mamba, 85,1 % par rapport à Llama et 99,8 % par rapport à RWKV-4.
Lois de mise à l’échelle et extrapolation de longueur :
- Lorsqu’il est formé sur 300 milliards de jetons à partir du jeu de données SlimPajama, xLSTM montre des lois de mise à l’échelle favorables, indiquant son potentiel pour des améliorations de performance supplémentaires à mesure que la taille des modèles augmente.
- Dans les expériences d’extrapolation de longueur de séquence, les modèles xLSTM maintiennent des perplexités faibles même pour des contextes considérablement plus longs que ceux vus pendant la formation, surpassant les autres méthodes.

Ces résultats expérimentaux mettent en évidence les capacités remarquables de xLSTM, le positionnant comme un prétendant prometteur pour les tâches de modélisation de langage, de traitement de séquences et un large éventail d’autres applications.

Applications du monde réel et directions futures

Les applications potentielles de xLSTM s’étendent sur un large éventail de domaines, de la traitement du langage naturel et de la génération à la modélisation de séquences, à l’analyse de séries temporelles et au-delà. Voici quelques domaines excitants où xLSTM pourrait avoir un impact significatif :

Modélisation de langage et génération de texte : Avec ses capacités de stockage améliorées et sa capacité à réviser les informations stockées, xLSTM pourrait révolutionner les tâches de modélisation de langage et de génération de texte, permettant une génération de texte plus cohérent, plus contextuel et plus fluide.
Traduction automatique : Les capacités de suivi d’état de xLSTM pourraient s’avérer inestimables dans les tâches de traduction automatique, où maintenir les informations contextuelles et comprendre les dépendances à longue portée est crucial pour des traductions précises.
Reconnaissance et génération vocale : La parallélisation et la scalabilité de xLSTM le rendent bien adapté aux applications de reconnaissance et de génération vocale, où le traitement efficace de longues séquences est essentiel.
Analyse et prévision de séries temporelles : La capacité de xLSTM à gérer les dépendances à longue portée et à stocker efficacement des modèles complexes pourrait conduire à des améliorations significatives dans les tâches d’analyse et de prévision de séries temporelles dans divers domaines, tels que la finance, la prévision météorologique et les applications industrielles.
Apprentissage par renforcement et systèmes de contrôle : Le potentiel de xLSTM dans l’apprentissage par renforcement et les systèmes de contrôle est prometteur, car ses capacités de mémoire améliorées et de suivi d’état pourraient permettre une prise de décision plus intelligente et un contrôle plus efficace dans des environnements complexes.

Optimisations architecturales et réglage des hyperparamètres

Bien que les résultats actuels soient prometteurs, il existe encore des possibilités d’optimiser l’architecture xLSTM et de réglage fin des hyperparamètres. Les chercheurs pourraient explorer différentes combinaisons de blocs sLSTM et mLSTM, en variant les ratios et les placements dans l’architecture globale. De plus, une recherche systématique des hyperparamètres pourrait conduire à des améliorations de performance supplémentaires, en particulier pour les modèles plus grands.

Optimisations matérielles : Pour exploiter pleinement la parallélisation de xLSTM, en particulier la variante mLSTM, les chercheurs pourraient investiguer les optimisations matérielles adaptées à des architectures de GPU spécifiques ou à d’autres accélérateurs. Cela pourrait impliquer l’optimisation des noyaux CUDA, les stratégies de gestion de la mémoire et l’utilisation d’instructions ou de bibliothèques spécialisées pour des opérations matricielles efficaces.

Intégration avec d’autres composants de réseaux de neurones : Explorer l’intégration de xLSTM avec d’autres composants de réseaux de neurones, tels que des mécanismes d’attention, des convolutions ou des techniques d’apprentissage auto-supervisé, pourrait conduire à des architectures hybrides qui combinent les forces de différentes approches. Ces modèles hybrides pourraient potentiellement débloquer de nouvelles capacités et améliorer les performances sur un large éventail de tâches.

Apprentissage à quelques exemples et transfert d’apprentissage : Explorer l’utilisation de xLSTM dans des scénarios d’apprentissage à quelques exemples et de transfert d’apprentissage pourrait être un axe de recherche futur passionnant. En exploitant ses capacités de mémoire améliorées et de suivi d’état, xLSTM pourrait potentiellement permettre un transfert de connaissances plus efficace et une adaptation rapide à de nouvelles tâches ou domaines avec des données de formation limitées.

Interprétabilité et explicabilité : Comme pour de nombreux modèles d’apprentissage profond, les mécanismes internes de xLSTM peuvent être opaques et difficiles à interpréter. Développer des techniques pour interpréter et expliquer les décisions prises par xLSTM pourrait conduire à des modèles plus transparents et fiables, facilitant leur adoption dans des applications critiques et promouvant la responsabilité.

Stratégies d’entraînement efficaces et évolutives : À mesure que les modèles grandissent en taille et en complexité, les stratégies d’entraînement efficaces et évolutives deviennent de plus en plus importantes. Les chercheurs pourraient explorer des techniques telles que le parallélisme de modèle, le parallélisme de données et les approches d’entraînement distribué spécifiquement conçues pour les architectures xLSTM, permettant l’entraînement de modèles encore plus grands et potentiellement réduisant les coûts de calcul.

Ce sont quelques directions de recherche futures et domaines d’exploration potentiels avec xLSTM.

Conclusion

L’introduction de xLSTM marque une étape importante dans la quête d’architectures de modélisation de langage et de traitement de séquences plus puissantes et efficaces. En abordant les limites des LSTM traditionnels et en exploitant des techniques novatrices telles que la gestion exponentielle et les structures de mémoire matricielle, xLSTM a démontré des performances remarquables sur un large éventail de tâches et de benchmarks.

Cependant, le voyage ne s’arrête pas là. Comme pour toute technologie révolutionnaire, xLSTM présente des opportunités excitantes pour une exploration, un raffinement et une application supplémentaires dans des scénarios du monde réel. À mesure que les chercheurs continuent de repousser les limites de ce qui est possible, nous pouvons nous attendre à voir encore plus d’avancées impressionnantes dans le domaine du traitement du langage naturel et de l’intelligence artificielle.

Aayush Mittal

J'ai passé les cinq dernières années à me plonger dans le monde fascinant de l'apprentissage automatique et de l'apprentissage profond. Ma passion et mon expertise m'ont conduit à contribuer à plus de 50 projets de génie logiciel divers, avec un accent particulier sur l'IA/ML. Ma curiosité permanente m'a également attiré vers le traitement automatique des langues, un domaine que je suis impatient d'explorer plus en détail.