Intelligenza artificiale
xLSTM: Una Guida Completa all’Extended Long Short-Term Memory
Comprendere le Origini: Le Limitazioni degli LSTMs
Prima di immergerci nel mondo di xLSTM, è essenziale comprendere le limitazioni che le architetture tradizionali degli LSTMs hanno affrontato. Queste limitazioni sono state la forza trainante dietro lo sviluppo di xLSTM e altri approcci alternativi.
- Incapacità di Revisionare le Decisioni di Archiviazione: Una delle principali limitazioni degli LSTMs è la loro lotta per revisionare i valori archiviati quando si incontra un vettore più simile. Ciò può portare a prestazioni subottimali in compiti che richiedono aggiornamenti dinamici delle informazioni archiviate.
- Capacità di Archiviazione Limitate: Gli LSTMs comprimono le informazioni in stati cellulari scalari, il che può limitare la loro capacità di archiviare e recuperare efficacemente modelli di dati complessi, in particolare quando si tratta di token rari o dipendenze a lungo raggio.
- Mancanza di Parallelizzazione: Il meccanismo di miscelazione della memoria negli LSTMs, che coinvolge connessioni nascoste-nascoste tra passaggi temporali, impone l’elaborazione sequenziale, ostacolando la parallelizzazione dei calcoli e limitando la scalabilità.
Queste limitazioni hanno aperto la strada all’emergere di Trasformatori e altre architetture che hanno superato gli LSTMs in alcuni aspetti, in particolare quando si scala a modelli più grandi.
L’Architettura xLSTM
Al centro di xLSTM ci sono due principali modifiche all’architettura tradizionale degli LSTMs: la gestione esponenziale e le nuove strutture di memoria. Questi miglioramenti introducono due nuove varianti di LSTMs, note come sLSTM (LSTM scalare) e mLSTM (LSTM matriciale).
- sLSTM: Il LSTM Scalare con Gestione Esponenziale e Miscelazione della Memoria
- Gestione Esponenziale: sLSTM incorpora funzioni di attivazione esponenziali per le porte di ingresso e di oblio, consentendo un controllo più flessibile sul flusso di informazioni.
- Normalizzazione e Stabilizzazione: Per prevenire instabilità numeriche, sLSTM introduce uno stato normalizzatore che tiene traccia del prodotto delle porte di ingresso e delle future porte di oblio.
- Miscelazione della Memoria: sLSTM supporta più celle di memoria e consente la miscelazione della memoria attraverso connessioni ricorrenti, consentendo l’estrazione di modelli complessi e capacità di tracciamento dello stato.
- mLSTM: Il LSTM Matriciale con Capacità di Archiviazione Migliorate
- Memoria Matriciale: Invece di una cella di memoria scalare, mLSTM utilizza una memoria matriciale, aumentando la sua capacità di archiviazione e consentendo un recupero più efficiente delle informazioni.
- Regola di Aggiornamento della Covarianza: mLSTM impiega una regola di aggiornamento della covarianza, ispirata alle Memorie Associate Bidirezionali (BAM), per archiviare e recuperare efficientemente le coppie chiave-valore.
- Parallelizzazione: Abbandonando la miscelazione della memoria, mLSTM raggiunge la piena parallelizzazione, consentendo calcoli efficienti su acceleratori hardware moderni, come le GPU, e abilitando la scalabilità a modelli più grandi.
Queste due varianti, sLSTM e mLSTM, possono essere integrate in architetture di blocchi residuali, formando blocchi xLSTM. Costruendo blocchi xLSTM residui, i ricercatori possono costruire potenti architetture xLSTM personalizzate per compiti e domini di applicazione specifici.
La Matematica
LSTM Tradizionale:
L’architettura LSTM originale ha introdotto il carosello dell’errore costante e i meccanismi di gestione per superare il problema del gradiente che scompare nelle reti neurali ricorrenti.

The repeating module in an LSTM – Source
Gli aggiornamenti dello stato cellulare degli LSTMs sono governati dalle seguenti equazioni:
Aggiornamento dello Stato Cellulare: ct = ft ⊙ ct-1 + it ⊙ zt
Aggiornamento dello Stato Nascosto: ht = ot ⊙ tanh(ct)













