Intelligence Artificielle

xLSTM : un guide complet sur la mémoire étendue à long terme et à court terme

Publié 16 mai 2024

Ayush Mittal mital

Depuis plus de deux décennies, Sepp Hochreiter novateur Mémoire longue durée (LSTM) L'architecture a joué un rôle déterminant dans de nombreuses percées en matière d'apprentissage profond et dans des applications concrètes. De la génération de langage naturel à l’alimentation des systèmes de reconnaissance vocale, les LSTM ont été un moteur de la révolution de l’IA.

Cependant, même le créateur des LSTM a reconnu leurs limites inhérentes qui les empêchaient de réaliser leur plein potentiel. Des lacunes telles que l'incapacité de réviser les informations stockées, des capacités de mémoire limitées et le manque de parallélisation ont ouvert la voie à l'essor des transformateurs et d'autres modèles pour surpasser les LSTM pour des tâches linguistiques plus complexes.

Mais récemment, Hochreiter et son équipe du NXAI ont introduit une nouvelle variante appelée LSTM étendu (xLSTM) qui répond à ces problèmes de longue date. Présenté dans un document de recherche récent, xLSTM s'appuie sur les idées fondamentales qui ont rendu les LSTM si puissants, tout en surmontant leurs principales faiblesses grâce à des innovations architecturales.

Au cœur de xLSTM se trouvent deux nouveaux composants : le déclenchement exponentiel et les structures de mémoire améliorées. Le contrôle exponentiel permet un contrôle plus flexible sur le flux d'informations, permettant aux xLSTM de réviser efficacement les décisions à mesure qu'un nouveau contexte est rencontré. Parallèlement, l’introduction de la mémoire matricielle augmente considérablement la capacité de stockage par rapport aux LSTM scalaires traditionnels.

Mais les améliorations ne s'arrêtent pas là. En exploitant des techniques empruntées aux grands modèles de langage, comme la parallélisabilité et l'empilement résiduel de blocs, les xLSTM peuvent s'adapter efficacement à des milliards de paramètres. Cela libère leur potentiel pour modéliser des séquences et des fenêtres contextuelles extrêmement longues, une capacité essentielle à la compréhension de langages complexes.

Les implications de la dernière création de Hochreiter sont monumentales. Imaginez des assistants virtuels capables de suivre le contexte de conversations de plusieurs heures avec fiabilité. Ou des modèles linguistiques capables de généraliser plus efficacement à de nouveaux domaines après s'être entraînés sur des données volumineuses. Les applications couvrent tous les domaines où les LSTM ont eu un impact – chatbots, traduction, interfaces vocales, analyse de programmes, etc. –, mais elles bénéficient désormais des capacités révolutionnaires de xLSTM.

Dans ce guide technique approfondi, nous explorerons les détails architecturaux de xLSTM et évaluerons ses nouveaux composants, tels que les LSTM scalaires et matriciels, les mécanismes de déclenchement exponentiel, les structures de mémoire et bien plus encore. Vous découvrirez des résultats expérimentaux démontrant les gains de performances impressionnants de xLSTM par rapport aux architectures de pointe comme les transformateurs et les derniers modèles récurrents.

Comprendre les origines : les limites du LSTM

Avant de nous plonger dans l'univers xLSTM, il est essentiel de comprendre les limites auxquelles les architectures LSTM traditionnelles ont été confrontées. Ces limites ont été à l'origine du développement de xLSTM et d'autres approches alternatives.

Incapacité de réviser les décisions de stockage: L'une des principales limites de LSTM est sa difficulté à réviser les valeurs stockées lorsqu'un vecteur plus similaire est rencontré. Cela peut conduire à des performances sous-optimales dans les tâches qui nécessitent des mises à jour dynamiques des informations stockées.
Capacités de stockage limitées: Les LSTM compressent les informations dans des états de cellules scalaires, ce qui peut limiter leur capacité à stocker et récupérer efficacement des modèles de données complexes, en particulier lorsqu'il s'agit de jetons rares ou de dépendances à longue portée.
Manque de Parallélisabilité : Le mécanisme de mélange de mémoire dans les LSTM, qui implique des connexions cachées entre les pas de temps, impose un traitement séquentiel, entravant la parallélisation des calculs et limitant l'évolutivité.

Ces limitations ont ouvert la voie à l’émergence de Transformers et d’autres architectures qui ont surpassé les LSTM à certains égards, en particulier lors de l’évolution vers des modèles plus grands.

L'architecture xLSTM

Famille LSTM étendue (xLSTM)

Au cœur de xLSTM se trouvent deux modifications principales du cadre LSTM traditionnel : le déclenchement exponentiel et de nouvelles structures de mémoire. Ces améliorations introduisent deux nouvelles variantes de LSTM, connues sous le nom de sLSTM (LSTM scalaire) et mLSTM (LSTM matriciel).

sLSTM: Le Scalar LSTM avec déclenchement exponentiel et mixage de mémoire
- Porte exponentielle: sLSTM intègre des fonctions d'activation exponentielle pour les portes d'entrée et d'oubli, permettant un contrôle plus flexible du flux d'informations.
- Normalisation et stabilisation: Pour éviter les instabilités numériques, sLSTM introduit un état normalisateur qui garde une trace du produit des portes d'entrée et des futures portes d'oubli.
- Mélange de mémoire: sLSTM prend en charge plusieurs cellules de mémoire et permet le mélange de mémoire via des connexions récurrentes, permettant l'extraction de modèles complexes et des capacités de suivi d'état.
mLSTM: Le Matrix LSTM avec des capacités de stockage améliorées
- Mémoire matricielle: Au lieu d'une cellule mémoire scalaire, mLSTM utilise une mémoire matricielle, augmentant sa capacité de stockage et permettant une récupération plus efficace des informations.
- Règle de mise à jour de covariance: mLSTM utilise une règle de mise à jour de covariance, inspirée des mémoires associatives bidirectionnelles (BAM), pour stocker et récupérer efficacement les paires clé-valeur.
- Parallélisabilité: En abandonnant le mélange de mémoire, mLSTM atteint une parallélisabilité totale, permettant des calculs efficaces sur les accélérateurs matériels modernes.

Ces deux variantes, sLSTM et mLSTM, peuvent être intégrées dans des architectures de blocs résiduels, formant des blocs xLSTM. En empilant de manière résiduelle ces blocs xLSTM, les chercheurs peuvent construire de puissantes architectures xLSTM adaptées à des tâches et des domaines d'application spécifiques.

Les maths

LSTM traditionnel :

L'architecture LSTM originale a introduit le carrousel d'erreurs constantes et les mécanismes de déclenchement pour surmonter le problème du gradient de disparition dans les réseaux neuronaux récurrents.

Le module répétitif dans un LSTM – Source

Les mises à jour des cellules mémoire LSTM sont régies par les équations suivantes :

Mise à jour de l'état de la cellule : ct = ft ⊙ ct-1 + it ⊙ zt

Mise à jour de l'état caché : ht = ot ⊙ tanh(ct)

Où? :

est le vecteur d'état de la cellule à l'instant $t$
est le vecteur de la porte oubliée
est le vecteur de porte d'entrée
est le vecteur de porte de sortie
est l'entrée modulée par la porte d'entrée
représente la multiplication par éléments

Les portes ft, it et ot contrôlent quelles informations sont stockées, oubliées et sorties de l'état de la cellule, atténuant ainsi le problème de disparition du gradient.

xLSTM avec déclenchement exponentiel :

L'architecture xLSTM introduit un déclenchement exponentiel pour permettre un contrôle plus flexible du flux d'informations. Pour la variante scalaire xLSTM (sLSTM) :

Mise à jour de l'état de la cellule : ct = ft ⊙ ct-1 + it ⊙ zt

Mise à jour de l'état du normalisateur : nt = ft ⊙ nt-1 + it

Mise à jour de l'état caché : ht = ot ⊙ (ct / nt)

Portes d'entrée et d'oubli : it = exp(W_i xt + R_i ht-1 + b_i) ft = σ(W_f xt + R_f ht-1 + b_f) OU ft = exp(W_f xt + R_f ht-1 + b_f)

Les fonctions d'activation exponentielle pour les portes d'entrée (it) et d'oubli (ft), ainsi que l'état normalisateur nt, permettent un contrôle plus efficace des mises à jour de la mémoire et de la révision des informations stockées.

xLSTM avec mémoire matricielle :

Pour la variante Matrix xLSTM (mLSTM) avec capacité de stockage améliorée :

Mise à jour de l'état de la cellule : Ct = ft ⊙ Ct-1 + it ⊙ (vt kt^T)

Mise à jour de l'état du normalisateur : nt = ft ⊙ nt-1 + it ⊙ kt

Mise à jour de l'état caché : ht = ot ⊙ (Ct qt / max(qt^T nt, 1))

Où? :

est l'état de la cellule matricielle
et sont la valeur et les vecteurs clés
est le vecteur de requête utilisé pour la récupération

Ces équations clés mettent en évidence comment xLSTM étend la formulation LSTM originale avec un déclenchement exponentiel pour un contrôle de mémoire plus flexible et une mémoire matricielle pour des capacités de stockage améliorées. La combinaison de ces innovations permet à xLSTM de surmonter les limites des LSTM traditionnels.

Principales caractéristiques et avantages de xLSTM

Capacité à réviser les décisions de stockage: Grâce au déclenchement exponentiel, xLSTM peut réviser efficacement les valeurs stockées lorsqu'il rencontre des informations plus pertinentes, surmontant ainsi une limitation importante des LSTM traditionnels.
Capacités de stockage améliorées: La mémoire matricielle de mLSTM offre une capacité de stockage accrue, permettant à xLSTM de gérer plus efficacement les jetons rares, les dépendances à longue portée et les modèles de données complexes.
Parallélisabilité: La variante mLSTM de xLSTM est entièrement parallélisable, permettant des calculs efficaces sur des accélérateurs matériels modernes, tels que les GPU, et permettant une évolutivité vers des modèles plus grands.
Mélange de mémoire et suivi d'état: La variante sLSTM de xLSTM conserve les capacités de mélange de mémoire des LSTM traditionnels, permettant le suivi de l'état et rendant xLSTM plus expressif que les transformateurs et les modèles spatiaux d'état pour certaines tâches.
Évolutivité: En tirant parti des dernières techniques des grands modèles de langage (LLM) modernes, xLSTM peut être adapté à des milliards de paramètres, ouvrant ainsi de nouvelles possibilités dans les tâches de modélisation du langage et de traitement de séquences.

Évaluation expérimentale : présentation des capacités de xLSTM

Le document de recherche présente une évaluation expérimentale complète de xLSTM, mettant en évidence ses performances dans diverses tâches et tests de référence. Voici quelques conclusions clés :

Tâches synthétiques et arène à longue portée:
- xLSTM excelle dans la résolution de tâches de langage formel qui nécessitent un suivi d'état, surpassant les transformateurs, les modèles spatiaux d'état et d'autres architectures RNN.
- Dans la tâche de rappel associatif multi-requêtes, xLSTM démontre des capacités de mémoire améliorées, surpassant les modèles non Transformer et rivalisant avec les performances des Transformers.
- Sur le benchmark Long Range Arena, xLSTM présente des performances solides et constantes, démontrant son efficacité dans la gestion des problèmes à contexte long.
Modélisation du langage et tâches en aval:
- Lorsqu'il est formé sur 15 milliards de jetons de l'ensemble de données SlimPajama, xLSTM surpasse les méthodes existantes, notamment les transformateurs, les modèles spatiaux d'état et d'autres variantes RNN, en termes de perplexité de validation.
- À mesure que les modèles sont adaptés à des tailles plus grandes, xLSTM continue de conserver son avantage en termes de performances, démontrant un comportement de mise à l'échelle favorable.
- Dans les tâches en aval telles que le raisonnement de bon sens et la réponse aux questions, xLSTM apparaît comme la meilleure méthode pour différentes tailles de modèles, surpassant les approches de pointe.
Performance sur les tâches de langage PALOMA:
- Évalué sur 571 domaines de texte du benchmark linguistique PALOMA, xLSTM[1:0] (la variante sLSTM) atteint des perplexités inférieures à celles des autres méthodes dans 99.5 % des domaines par rapport à Mamba, 85.1 % par rapport à Llama et 99.8 % par rapport à RWKV. -4.
Lois de mise à l'échelle et extrapolation de longueur:
- Lorsqu'il est formé sur des jetons 300B de SlimPajama, xLSTM présente des lois de mise à l'échelle favorables, indiquant son potentiel d'amélioration supplémentaire des performances à mesure que la taille des modèles augmente.
- Dans les expériences d'extrapolation de longueur de séquence, les modèles xLSTM maintiennent de faibles perplexités même pour des contextes nettement plus longs que ceux observés lors de la formation, surpassant ainsi les autres méthodes.

Ces résultats expérimentaux mettent en évidence les capacités remarquables de xLSTM, le positionnant comme un concurrent prometteur pour les tâches de modélisation de langage, le traitement de séquences et un large éventail d'autres applications.

Applications du monde réel et orientations futures

Les applications potentielles de xLSTM couvrent un large éventail de domaines, depuis le traitement et la génération du langage naturel jusqu'à la modélisation de séquences, l'analyse de séries chronologiques et au-delà. Voici quelques domaines passionnants dans lesquels xLSTM pourrait avoir un impact significatif :

Modélisation du langage et génération de texte: Grâce à ses capacités de stockage améliorées et à sa capacité à réviser les informations stockées, xLSTM pourrait révolutionner les tâches de modélisation du langage et de génération de texte, permettant une génération de texte plus cohérente, plus contextuelle et plus fluide.
Traduction automatique: Les capacités de suivi d'état de xLSTM pourraient s'avérer inestimables dans les tâches de traduction automatique, où la conservation des informations contextuelles et la compréhension des dépendances à long terme sont cruciales pour des traductions précises.
Reconnaissance et génération vocales: La parallélisabilité et l'évolutivité de xLSTM le rendent bien adapté aux applications de reconnaissance et de génération vocales, où le traitement efficace de longues séquences est essentiel.
Analyse et prévision de séries chronologiques:La capacité de xLSTM à gérer les dépendances à longue portée et à stocker et récupérer efficacement des modèles complexes pourrait conduire à des améliorations significatives dans les tâches d'analyse et de prévision des séries chronologiques dans divers domaines, tels que la finance, les prévisions météorologiques et les applications industrielles.
Systèmes d'apprentissage et de contrôle par renforcement: Le potentiel de xLSTM dans les systèmes d'apprentissage et de contrôle par renforcement est prometteur, car ses capacités de mémoire améliorées et ses capacités de suivi d'état pourraient permettre une prise de décision et un contrôle plus intelligents dans des environnements complexes.

Optimisations architecturales et réglage des hyperparamètres

Bien que les résultats actuels soient prometteurs, il reste encore de la place pour optimiser l'architecture xLSTM et affiner ses hyperparamètres. Les chercheurs pourraient explorer différentes combinaisons de blocs sLSTM et mLSTM, en faisant varier les ratios et les emplacements au sein de l'architecture globale. De plus, une recherche systématique d’hyperparamètres pourrait conduire à de nouvelles améliorations des performances, en particulier pour les modèles plus grands.

Optimisations tenant compte du matériel: Pour exploiter pleinement la parallélisabilité de xLSTM, en particulier la variante mLSTM, les chercheurs pourraient étudier des optimisations matérielles adaptées à des architectures GPU spécifiques ou à d'autres accélérateurs. Cela pourrait impliquer l'optimisation des noyaux CUDA, des stratégies de gestion de la mémoire et l'exploitation d'instructions ou de bibliothèques spécialisées pour des opérations matricielles efficaces.

Intégration avec d'autres composants de réseau neuronal: Explorer l'intégration de xLSTM avec d'autres composants de réseaux neuronaux, tels que les mécanismes d'attention, les convolutions ou les techniques d'apprentissage auto-supervisé, pourrait conduire à des architectures hybrides combinant les atouts de différentes approches. Ces modèles hybrides pourraient potentiellement débloquer de nouvelles capacités et améliorer les performances sur un plus large éventail de tâches.

Apprentissage en quelques étapes et par transfert: Explorer l'utilisation de xLSTM dans des scénarios d'apprentissage en quelques étapes et par transfert pourrait être une voie passionnante pour les recherches futures. En tirant parti de ses capacités de mémoire améliorées et de ses capacités de suivi d'état, xLSTM pourrait potentiellement permettre un transfert de connaissances plus efficace et une adaptation rapide à de nouvelles tâches ou domaines avec des données de formation limitées.

Interprétabilité et explicabilité: Comme pour de nombreux modèles d'apprentissage profond, le fonctionnement interne de xLSTM peut être opaque et difficile à interpréter. Le développement de techniques d'interprétation et d'explication des décisions prises par xLSTM pourrait conduire à des modèles plus transparents et plus fiables, facilitant leur adoption dans les applications critiques et promouvant la responsabilité.

Stratégies de formation efficaces et évolutives: À mesure que les modèles continuent de croître en taille et en complexité, des stratégies de formation efficaces et évolutives deviennent de plus en plus importantes. Les chercheurs pourraient explorer des techniques telles que le parallélisme des modèles, le parallélisme des données et des approches de formation distribuée spécifiquement adaptées aux architectures xLSTM, permettant la formation de modèles encore plus grands et réduisant potentiellement les coûts de calcul.

Voici quelques orientations de recherche futures potentielles et des domaines à explorer davantage avec xLSTM.

Conclusion

L'introduction de xLSTM marque une étape importante dans la recherche d'architectures de modélisation de langage et de traitement de séquences plus puissantes et plus efficaces. En répondant aux limites des LSTM traditionnels et en tirant parti de nouvelles techniques telles que le déclenchement exponentiel et les structures de mémoire matricielle, xLSTM a démontré des performances remarquables dans un large éventail de tâches et de tests de performance.

Cependant, le voyage ne s’arrête pas là. Comme toute technologie révolutionnaire, xLSTM présente des opportunités passionnantes pour une exploration, un perfectionnement et une application plus approfondis dans des scénarios du monde réel. Alors que les chercheurs continuent de repousser les limites du possible, nous pouvons nous attendre à assister à des progrès encore plus impressionnants dans le domaine du traitement du langage naturel et de l’intelligence artificielle.

Ayush Mittal

J'ai passé les cinq dernières années à m'immerger dans le monde fascinant du Machine Learning et du Deep Learning. Ma passion et mon expertise m'ont amené à contribuer à plus de 50 projets de génie logiciel divers, avec un accent particulier sur l'IA/ML. Ma curiosité continue m'a également attiré vers le traitement automatique du langage naturel, un domaine que j'ai hâte d'explorer davantage.