Artificiell intelligens
xLSTM : En omfattande guide till utökad Long Short-Term Memory
Förstå ursprunget: Begränsningarna av LSTM
Innan vi dyker in i världen av xLSTM, är det viktigt att förstå de begränsningar som traditionella LSTM-arkitekturer har mött. Dessa begränsningar har varit den drivande kraften bakom utvecklingen av xLSTM och andra alternativa tillvägagångssätt.
- Oförmåga att revidera lagringsbeslut: En av de primära begränsningarna av LSTM är dess kamp för att revidera lagrade värden när en mer liknande vektor möts. Detta kan leda till undermålig prestanda i uppgifter som kräver dynamiska uppdateringar av lagrad information.
- Begränsad lagringskapacitet: LSTMs komprimerar information till skalära celltillstånd, vilket kan begränsa deras förmåga att effektivt lagra och hämta komplexa datapattern, särskilt när det gäller sällsynta token eller långväga beroenden.
- Brist på parallelisering: Minnesblandningsmekanismen i LSTMs, som innefattar dolda-dolda anslutningar mellan tidssteg, tvingar fram sekventiell bearbetning, vilket hämmar paralleliseringen av beräkningar och begränsar skalbarheten.
Dessa begränsningar har banat väg för uppkomsten av Transformers och andra arkitekturer som har överträffat LSTMs i vissa aspekter, särskilt när det gäller att skala till större modeller.
xLSTM-arkitekturen
I kärnan av xLSTM ligger två huvudsakliga modifieringar av den traditionella LSTM-ramen: exponentiell gating och nya minnesstrukturer. Dessa förbättringar introducerar två nya varianter av LSTM, kända som sLSTM (skalär LSTM) och mLSTM (matris LSTM).
- sLSTM: Den skalära LSTM med exponentiell gating och minnesblandning
- Exponentiell gating: sLSTM inkorporerar exponentiella aktiveringsfunktioner för ingångs- och glömskegator, vilket möjliggör mer flexibel kontroll över informationsflödet.
- Normalisering och stabilisering: För att förhindra numeriska instabiliteter introducerar sLSTM en normaliseringsstatus som spårar produkten av ingångsgator och framtida glömskegator.
- Minnesblandning: sLSTM stöder flera minnesceller och tillåter minnesblandning via återkommande anslutningar, vilket möjliggör extrahering av komplexa mönster och tillståndsspårningsförmåga.
- mLSTM: Den matris LSTM med förbättrad lagringskapacitet
- Matrisminne: Istället för en skalär minnescell, använder mLSTM en matrisminnescell, vilket ökar dess lagringskapacitet och möjliggör mer effektiv hämtning av information.
- Kovariansuppdateringsregel: mLSTM använder en kovariansuppdateringsregel, inspirerad av Bidirectional Associative Memories (BAMs), för att lagra och hämta nyckel-värdepar effektivt.
- Parallelisering: Genom att överge minnesblandning, uppnår mLSTM full parallelisering, vilket möjliggör effektiva beräkningar på moderna hårdvaruacceleratorer, såsom GPU:er, och möjliggör skalbarhet till större modeller.
Dessa två varianter, sLSTM och mLSTM, kan integreras i restblockarkitekturer, vilket bildar xLSTM-block. Genom att residuellt stapla dessa xLSTM-block, kan forskare konstruera kraftfulla xLSTM-arkitekturer anpassade för specifika uppgifter och tillämpningsdomäner.
Matematiken
Traditionell LSTM:
Den ursprungliga LSTM-arkitekturen introducerade den konstanta felkarusellen och gatemekanismerna för att övervinna det försvinnande gradientproblemet i återkommande neurala nätverk.

Den upprepningsmodul i en LSTM – Källa
LSTM-minnescelluppdateringarna styrs av följande ekvationer:
Celltillstånds-uppdatering: ct = ft ⊙ ct-1 + it ⊙ zt
Dolt tillstånds-uppdatering: ht = ot ⊙ tanh(ct)
Där:
- 𝑐𝑡 är celltillståndsvectorn vid tid 𝑡
- 𝑓𝑡 är glömskegatvectorn
- 𝑖𝑡 är ingångsgatevectorn
- 𝑜𝑡 är utgångsgatevectorn
- 𝑧𝑡 är ingången modifierad av ingångsgaten
- ⊙ representerar elementvis multiplikation
Gatorna ft, it och ot kontrollerar vilken information som lagras, glöms och skickas ut från celltillståndet ct, vilket mildrar det försvinnande gradientproblemet.
xLSTM med exponentiell gating:
xLSTM-arkitekturen introducerar exponentiell gating för att tillåta mer flexibel kontroll över informationsflödet. För den skalära xLSTM-varianten (sLSTM):
Celltillstånds-uppdatering: ct = ft ⊙ ct-1 + it ⊙ zt
Normaliseringsstatus-uppdatering: nt = ft ⊙ nt-1 + it
Dolt tillstånds-uppdatering: ht = ot ⊙ (ct / nt)
In- och glömskegator: it = exp(W_i xt + R_i ht-1 + b_i) ft = σ(W_f xt + R_f ht-1 + b_f) eller ft = exp(W_f xt + R_f ht-1 + b_f)
De exponentiella aktiveringsfunktionerna för ingångs- (it) och glömskegat (ft), tillsammans med normaliseringsstatusen nt, möjliggör mer effektiv kontroll över minnesuppdateringar och revidering av lagrad information.
Nyckelfunktioner och fördelar med xLSTM
- Förmåga att revidera lagringsbeslut: Tack vare exponentiell gating kan xLSTM effektivt revidera lagrade värden när mer relevant information möts, vilket övervinner en betydande begränsning av traditionella LSTMs.
- Förbättrad lagringskapacitet: Matrisminnet i mLSTM ökar dess lagringskapacitet, vilket möjliggör för xLSTM att hantera sällsynta token, långväga beroenden och komplexa datapattern mer effektivt.
- Parallelisering: mLSTM-varianten av xLSTM är fullständigt paralleliserbar, vilket möjliggör effektiva beräkningar på moderna hårdvaruacceleratorer, såsom GPU:er, och möjliggör skalbarhet till större modeller.
- Minnesblandning och tillståndsspårning: sLSTM-varianten av xLSTM behåller minnesblandningsförmågan hos traditionella LSTMs, vilket möjliggör tillståndsspårning och gör xLSTM mer uttrycksfull än Transformers och State Space-modeller för vissa uppgifter.
- Skalbarhet: Genom att utnyttja de senaste teknikerna från moderna stora språkmodeller (LLM), kan xLSTM skalas till miljarder parametrar, vilket låser upp nya möjligheter inom språkmodellering och sekvensbearbetningsuppgifter.
Experimentell utvärdering: Visar xLSTMs förmågor
Forskningsartikeln presenterar en omfattande experimentell utvärdering av xLSTM, som belyser dess prestanda över olika uppgifter och benchmark. Här är några nyckelfynd:
- Syntetiska uppgifter och Long Range Arena:
- xLSTM utmärker sig i att lösa formella språkuppgifter som kräver tillståndsspårning, och överträffar Transformers, State Space-modeller och andra återkommande neurala nätverksarkitekturer.
- I Multi-Query Associative Recall-uppgiften visar xLSTM förbättrad minneskapacitet, och överträffar icke-Transformer-modeller och rivaliserar med Transformers prestanda.
- På Long Range Arena-benchmark visar xLSTM konsekvent stark prestanda, vilket visar dess effektivitet i att hantera långkontextproblem.
- Språkmodellering och nedströmsuppgifter:
- När den tränas på 15 miljarder token från SlimPajama-databasen, överträffar xLSTM befintliga metoder, inklusive Transformers, State Space-modeller och andra återkommande neurala nätverksvarianter, i terms av valideringsperplexitet.
- När modellerna skalas till större storlekar, behåller xLSTM sin prestandafördel, vilket visar gynnsam skalbarhet.
- I nedströmsuppgifter som vanligt sunt förnuft och frågesvar, framträder xLSTM som den bästa metoden över olika modellstorlekar, och överträffar state-of-the-art-approach.
- Prestanda på PALOMA-språkuppgifter:
- Utvarderad på 571 textdomäner från PALOMA-språkbenchmark, uppnår xLSTM[1:0] (sLSTM-varianten) lägre perplexitet än andra metoder i 99,5% av domänerna jämfört med Mamba, 85,1% jämfört med Llama och 99,8% jämfört med RWKV-4.
- Skalningslagar och längdextrapolering:
- När den tränas på 300 miljarder token från SlimPajama, visar xLSTM gynnsamma skalningslagar, vilket indikerar dess potential för ytterligare prestandaförbättringar när modellstorlekar ökar.
- I sekvenslängdextrapoleringsexperiment, behåller xLSTM-modellerna låg perplexitet även för kontexter som är avsevärt längre än de som setts under utbildning, och överträffar andra metoder.
Dessa experimentella resultat belyser xLSTMs remarkabla förmågor, och positionerar det som en lovande kandidat för språkmodellering, sekvensbearbetning och en mängd andra tillämpningar.
Verkliga tillämpningar och framtida riktningar
De potentiella tillämpningarna av xLSTM spänner över en bred range av domäner, från naturligt språkbehandling och generering till sekvensmodellering, tidsserieanalys och bortom. Här är några spännande områden där xLSTM kan göra en betydande inverkan:
- Språkmodellering och textgenerering: Med sin förbättrade lagringskapacitet och förmåga att revidera lagrad information, kan xLSTM revolutionera språkmodellering och textgenereringsuppgifter, och möjliggöra mer sammanhängande, kontextmedveten och flytande textgenerering.
- Maskinöversättning: Tillståndsspårningsförmågan hos xLSTM kan visa sig ovärderlig i maskinöversättningsuppgifter, där underhåll av kontextuell information och förståelse av långväga beroenden är avgörande för korrekta översättningar.
- Taligenkänning och generering: Paralleliseringen och skalbarheten hos xLSTM gör det väl lämpat för taligenkänning och genereringsapplikationer, där effektiv bearbetning av långa sekvenser är avgörande.
- Tidsserieanalys och prognostisering: xLSTMs förmåga att hantera långväga beroenden och effektivt lagra och hämta komplexa mönster kan leda till betydande förbättringar i tidsserieanalys och prognostiseringuppgifter över olika domäner, såsom finansiell analys, väderprognos och industriella tillämpningar.
- Förstärkt inlärning och kontrollsystem: Potentialen hos xLSTM inom förstärkt inlärning och kontrollsystem är lovande, eftersom dess förbättrade minnesförmåga och tillståndsspårningsförmåga kan möjliggöra mer intelligent beslutsfattning och kontroll i komplexa miljöer.
















