Artificiell intelligens

xLSTM : En omfattande guide till utökad Long Short-Term Memory

Published May 16, 2024

Updated April 27, 2026

Aayush Mittal Mittal

I över två decennier har Sepp Hochreiter’s banbrytande Long Short-Term Memory (LSTM) arkitektur varit avgörande för många genombrott inom djupinlärning och verkliga applikationer. Från att generera naturligt språk till att driva taligenkänningssystem, har LSTMs varit en drivande kraft bakom AI-revolutionen.

Men även skaparen av LSTMs erkände deras inneboende begränsningar som förhindrade dem från att förverkliga sin fulla potential. Bristfälligheter som oförmåga att revidera lagrad information, begränsad minneskapacitet och brist på parallelisering banade väg för uppkomsten av transformer och andra modeller som överträffade LSTMs för mer komplexa språkuppgifter.

Men i en nylig utveckling har Hochreiter och hans team på NXAI introducerat en ny variant som kallas utökad LSTM (xLSTM) som åtgärdar dessa långvariga problem. Presenterad i en nylig forskningsartikel, bygger xLSTM på de grundläggande idéerna som gjorde LSTMs så kraftfulla, samtidigt som den övervinner deras nyckel svagheter genom arkitektoniska innovationer.

I kärnan av xLSTM finns två nya komponenter: exponentiell gating och förbättrade minnesstrukturer. Exponentiell gating möjliggör mer flexibel kontroll över informationsflödet, vilket gör att xLSTMs kan effektivt revidera beslut när ny kontext möts. Samtidigt ökar införandet av matrisminne lagringskapaciteten avsevärt jämfört med traditionella skalära LSTMs.

Men förbättringarna slutar inte där. Genom att utnyttja tekniker som lånats från stora språkmodeller som parallelisering och restacking av block, kan xLSTMs effektivt skalas till miljarder parametrar. Detta låser upp deras potential för att modellera extremt långa sekvenser och kontextfönster – en förmåga som är avgörande för komplex språkförståelse.

Implikationerna av Hochreiters senaste skapelse är monumentala. Tänk er virtuella assistenter som kan tillförlitligt spåra kontext under timslånga samtal. Eller språkmodeller som generaliserar mer robust till nya domäner efter utbildning på breda data. Applikationerna spänner överallt LSTMs gjorde en inverkan – chatbots, översättning, talsystem, programanalys och mer – men nu turbochargerad med xLSTMs banbrytande förmågor.

I den här djupa tekniska guiden kommer vi att dyka in i arkitekturinformationen om xLSTM, utvärderar dess nya komponenter som skalära och matris LSTMs, exponentiella gatingmekanismer, minnesstrukturer och mer. Du kommer att få insikt från experimentella resultat som visar xLSTMs imponerande prestandaförbättringar över state-of-the-art-arkitekturer som transformers och senaste återkommande modeller.

Förstå ursprunget: Begränsningarna av LSTM

Innan vi dyker in i världen av xLSTM, är det viktigt att förstå de begränsningar som traditionella LSTM-arkitekturer har mött. Dessa begränsningar har varit den drivande kraften bakom utvecklingen av xLSTM och andra alternativa tillvägagångssätt.

Oförmåga att revidera lagringsbeslut: En av de primära begränsningarna av LSTM är dess kamp för att revidera lagrade värden när en mer liknande vektor möts. Detta kan leda till undermålig prestanda i uppgifter som kräver dynamiska uppdateringar av lagrad information.
Begränsad lagringskapacitet: LSTMs komprimerar information till skalära celltillstånd, vilket kan begränsa deras förmåga att effektivt lagra och hämta komplexa datapattern, särskilt när det gäller sällsynta token eller långväga beroenden.
Brist på parallelisering: Minnesblandningsmekanismen i LSTMs, som innefattar dolda-dolda anslutningar mellan tidssteg, tvingar fram sekventiell bearbetning, vilket hämmar paralleliseringen av beräkningar och begränsar skalbarheten.

Dessa begränsningar har banat väg för uppkomsten av Transformers och andra arkitekturer som har överträffat LSTMs i vissa aspekter, särskilt när det gäller att skala till större modeller.

xLSTM-arkitekturen

Utökad LSTM (xLSTM) familj

I kärnan av xLSTM ligger två huvudsakliga modifieringar av den traditionella LSTM-ramen: exponentiell gating och nya minnesstrukturer. Dessa förbättringar introducerar två nya varianter av LSTM, kända som sLSTM (skalär LSTM) och mLSTM (matris LSTM).

sLSTM: Den skalära LSTM med exponentiell gating och minnesblandning
- Exponentiell gating: sLSTM inkorporerar exponentiella aktiveringsfunktioner för ingångs- och glömskegator, vilket möjliggör mer flexibel kontroll över informationsflödet.
- Normalisering och stabilisering: För att förhindra numeriska instabiliteter introducerar sLSTM en normaliseringsstatus som spårar produkten av ingångsgator och framtida glömskegator.
- Minnesblandning: sLSTM stöder flera minnesceller och tillåter minnesblandning via återkommande anslutningar, vilket möjliggör extrahering av komplexa mönster och tillståndsspårningsförmåga.
mLSTM: Den matris LSTM med förbättrad lagringskapacitet
- Matrisminne: Istället för en skalär minnescell, använder mLSTM en matrisminnescell, vilket ökar dess lagringskapacitet och möjliggör mer effektiv hämtning av information.
- Kovariansuppdateringsregel: mLSTM använder en kovariansuppdateringsregel, inspirerad av Bidirectional Associative Memories (BAMs), för att lagra och hämta nyckel-värdepar effektivt.
- Parallelisering: Genom att överge minnesblandning, uppnår mLSTM full parallelisering, vilket möjliggör effektiva beräkningar på moderna hårdvaruacceleratorer, såsom GPU:er, och möjliggör skalbarhet till större modeller.

Dessa två varianter, sLSTM och mLSTM, kan integreras i restblockarkitekturer, vilket bildar xLSTM-block. Genom att residuellt stapla dessa xLSTM-block, kan forskare konstruera kraftfulla xLSTM-arkitekturer anpassade för specifika uppgifter och tillämpningsdomäner.

Matematiken

Traditionell LSTM:

Den ursprungliga LSTM-arkitekturen introducerade den konstanta felkarusellen och gatemekanismerna för att övervinna det försvinnande gradientproblemet i återkommande neurala nätverk.

Den upprepningsmodul i en LSTM – Källa

LSTM-minnescelluppdateringarna styrs av följande ekvationer:

Celltillstånds-uppdatering: ct = ft ⊙ ct-1 + it ⊙ zt

Dolt tillstånds-uppdatering: ht = ot ⊙ tanh(ct)

Där:

är celltillståndsvectorn vid tid $t$
är glömskegatvectorn
är ingångsgatevectorn
är utgångsgatevectorn
är ingången modifierad av ingångsgaten
representerar elementvis multiplikation

Gatorna ft, it och ot kontrollerar vilken information som lagras, glöms och skickas ut från celltillståndet ct, vilket mildrar det försvinnande gradientproblemet.

xLSTM med exponentiell gating:

xLSTM-arkitekturen introducerar exponentiell gating för att tillåta mer flexibel kontroll över informationsflödet. För den skalära xLSTM-varianten (sLSTM):

Celltillstånds-uppdatering: ct = ft ⊙ ct-1 + it ⊙ zt

Normaliseringsstatus-uppdatering: nt = ft ⊙ nt-1 + it

Dolt tillstånds-uppdatering: ht = ot ⊙ (ct / nt)

In- och glömskegator: it = exp(W_i xt + R_i ht-1 + b_i) ft = σ(W_f xt + R_f ht-1 + b_f) eller ft = exp(W_f xt + R_f ht-1 + b_f)

De exponentiella aktiveringsfunktionerna för ingångs- (it) och glömskegat (ft), tillsammans med normaliseringsstatusen nt, möjliggör mer effektiv kontroll över minnesuppdateringar och revidering av lagrad information.

xLSTM med matrisminne:

För den matris xLSTM-varianten (mLSTM) med förbättrad lagringskapacitet:

Celltillstånds-uppdatering: Ct = ft ⊙ Ct-1 + it ⊙ (vt kt^T)

Normaliseringsstatus-uppdatering: nt = ft ⊙ nt-1 + it ⊙ kt

Dolt tillstånds-uppdatering: ht = ot ⊙ (Ct qt / max(qt^T nt, 1))

Där:

är matris celltillstånd
och är värde- och nyckelvektorer
är frågevektorn som används för hämtning

Dessa nyckelekvationer belyser hur xLSTM utökar den ursprungliga LSTM-formuleringen med exponentiell gating för mer flexibel minneskontroll och matrisminne för förbättrad lagringskapacitet. Kombinationen av dessa innovationer möjliggör för xLSTM att övervinna begränsningarna hos traditionella LSTMs.

Nyckelfunktioner och fördelar med xLSTM

Förmåga att revidera lagringsbeslut: Tack vare exponentiell gating kan xLSTM effektivt revidera lagrade värden när mer relevant information möts, vilket övervinner en betydande begränsning av traditionella LSTMs.
Förbättrad lagringskapacitet: Matrisminnet i mLSTM ökar dess lagringskapacitet, vilket möjliggör för xLSTM att hantera sällsynta token, långväga beroenden och komplexa datapattern mer effektivt.
Parallelisering: mLSTM-varianten av xLSTM är fullständigt paralleliserbar, vilket möjliggör effektiva beräkningar på moderna hårdvaruacceleratorer, såsom GPU:er, och möjliggör skalbarhet till större modeller.
Minnesblandning och tillståndsspårning: sLSTM-varianten av xLSTM behåller minnesblandningsförmågan hos traditionella LSTMs, vilket möjliggör tillståndsspårning och gör xLSTM mer uttrycksfull än Transformers och State Space-modeller för vissa uppgifter.
Skalbarhet: Genom att utnyttja de senaste teknikerna från moderna stora språkmodeller (LLM), kan xLSTM skalas till miljarder parametrar, vilket låser upp nya möjligheter inom språkmodellering och sekvensbearbetningsuppgifter.

Experimentell utvärdering: Visar xLSTMs förmågor

Forskningsartikeln presenterar en omfattande experimentell utvärdering av xLSTM, som belyser dess prestanda över olika uppgifter och benchmark. Här är några nyckelfynd:

Syntetiska uppgifter och Long Range Arena:
- xLSTM utmärker sig i att lösa formella språkuppgifter som kräver tillståndsspårning, och överträffar Transformers, State Space-modeller och andra återkommande neurala nätverksarkitekturer.
- I Multi-Query Associative Recall-uppgiften visar xLSTM förbättrad minneskapacitet, och överträffar icke-Transformer-modeller och rivaliserar med Transformers prestanda.
- På Long Range Arena-benchmark visar xLSTM konsekvent stark prestanda, vilket visar dess effektivitet i att hantera långkontextproblem.
Språkmodellering och nedströmsuppgifter:
- När den tränas på 15 miljarder token från SlimPajama-databasen, överträffar xLSTM befintliga metoder, inklusive Transformers, State Space-modeller och andra återkommande neurala nätverksvarianter, i terms av valideringsperplexitet.
- När modellerna skalas till större storlekar, behåller xLSTM sin prestandafördel, vilket visar gynnsam skalbarhet.
- I nedströmsuppgifter som vanligt sunt förnuft och frågesvar, framträder xLSTM som den bästa metoden över olika modellstorlekar, och överträffar state-of-the-art-approach.
Prestanda på PALOMA-språkuppgifter:
- Utvarderad på 571 textdomäner från PALOMA-språkbenchmark, uppnår xLSTM[1:0] (sLSTM-varianten) lägre perplexitet än andra metoder i 99,5% av domänerna jämfört med Mamba, 85,1% jämfört med Llama och 99,8% jämfört med RWKV-4.
Skalningslagar och längdextrapolering:
- När den tränas på 300 miljarder token från SlimPajama, visar xLSTM gynnsamma skalningslagar, vilket indikerar dess potential för ytterligare prestandaförbättringar när modellstorlekar ökar.
- I sekvenslängdextrapoleringsexperiment, behåller xLSTM-modellerna låg perplexitet även för kontexter som är avsevärt längre än de som setts under utbildning, och överträffar andra metoder.

Dessa experimentella resultat belyser xLSTMs remarkabla förmågor, och positionerar det som en lovande kandidat för språkmodellering, sekvensbearbetning och en mängd andra tillämpningar.

Verkliga tillämpningar och framtida riktningar

De potentiella tillämpningarna av xLSTM spänner över en bred range av domäner, från naturligt språkbehandling och generering till sekvensmodellering, tidsserieanalys och bortom. Här är några spännande områden där xLSTM kan göra en betydande inverkan:

Språkmodellering och textgenerering: Med sin förbättrade lagringskapacitet och förmåga att revidera lagrad information, kan xLSTM revolutionera språkmodellering och textgenereringsuppgifter, och möjliggöra mer sammanhängande, kontextmedveten och flytande textgenerering.
Maskinöversättning: Tillståndsspårningsförmågan hos xLSTM kan visa sig ovärderlig i maskinöversättningsuppgifter, där underhåll av kontextuell information och förståelse av långväga beroenden är avgörande för korrekta översättningar.
Taligenkänning och generering: Paralleliseringen och skalbarheten hos xLSTM gör det väl lämpat för taligenkänning och genereringsapplikationer, där effektiv bearbetning av långa sekvenser är avgörande.
Tidsserieanalys och prognostisering: xLSTMs förmåga att hantera långväga beroenden och effektivt lagra och hämta komplexa mönster kan leda till betydande förbättringar i tidsserieanalys och prognostiseringuppgifter över olika domäner, såsom finansiell analys, väderprognos och industriella tillämpningar.
Förstärkt inlärning och kontrollsystem: Potentialen hos xLSTM inom förstärkt inlärning och kontrollsystem är lovande, eftersom dess förbättrade minnesförmåga och tillståndsspårningsförmåga kan möjliggöra mer intelligent beslutsfattning och kontroll i komplexa miljöer.

Arkitektoniska optimeringar och hyperparameterjustering

Medan de nuvarande resultaten är lovande, finns det fortfarande utrymme för att optimera xLSTM-arkitekturen och finjustera dess hyperparametrar. Forskare kan undersöka olika kombinationer av sLSTM- och mLSTM-block, varierande förhållandet och placeringen inom den övergripande arkitekturen. Dessutom kan en systematisk hyperparametersökning leda till ytterligare prestandaförbättringar, särskilt för större modeller.

Hårdvaru-medvetna optimeringar: För att fullt ut utnyttja paralleliseringen av xLSTM, särskilt mLSTM-varianten, kan forskare undersöka hårdvaru-medvetna optimeringar som är anpassade för specifika GPU-arkitekturer eller andra acceleratorer. Detta kan innefatta optimering av CUDA-kärnor, minneshanteringstrategier och utnyttjande av specialiserade instruktioner eller bibliotek för effektiva matrisoperationer.

Integrering med andra neurala nätverkskomponenter: Att undersöka integreringen av xLSTM med andra neurala nätverkskomponenter, såsom uppmärksamhetsmekanismer, convolutioner eller självövervakade inlärningstekniker, kan leda till hybridarkitekturer som kombinerar styrkorna hos olika tillvägagångssätt. Dessa hybridmodeller kan potentiellt låsa upp nya förmågor och förbättra prestanda på en bredare range av uppgifter.

Få-skott och överföringsinlärning: Att undersöka användningen av xLSTM i få-skott och överföringsinlärningsscenarier kan vara en spännande väg för framtida forskning. Genom att utnyttja dess förbättrade minnesförmåga och tillståndsspårningsförmåga, kan xLSTM potentiellt möjliggöra mer effektiv kunskapsöverföring och snabb anpassning till nya uppgifter eller domäner med begränsad träningsdata.

Tolkningsbarhet och förklarbarhet: Liksom många djupinlärningsmodeller, kan de inre mekanismerna hos xLSTM vara ogenomskinliga och svåra att tolka. Utveckling av tekniker för att tolka och förklara besluten som fattas av xLSTM kan leda till mer transparenta och tillförlitliga modeller, vilket underlättar deras antagande i kritiska tillämpningar och främjar ansvar.

Effektiva och skalbara träningsstrategier: När modellerna fortsätter att växa i storlek och komplexitet, blir effektiva och skalbara träningsstrategier allt viktigare. Forskare kan undersöka tekniker som modellparallelism, dataparallelism och distribuerad träningsapproach specifikt utformade för xLSTM-arkitekturer, vilket möjliggör träningsprocessen för ännu större modeller och potentiellt minskar beräkningskostnaderna.

Dessa är några potentiella framtida forskningsriktningar och områden för ytterligare utforskning med xLSTM.

Slutsats

Introduktionen av xLSTM markerar en betydande milstolpe i jakten på mer kraftfulla och effektiva språkmodellings- och sekvensbearbetningsarkitekturer. Genom att åtgärda begränsningarna hos traditionella LSTMs och utnyttja nya tekniker som exponentiell gating och matrisminnesstrukturer, har xLSTM visat remarkabla prestanda över en bred range av uppgifter och benchmark.

Men resan slutar inte här. Liksom med varje banbrytande teknik, presenterar xLSTM spännande möjligheter för ytterligare utforskning, förfining och tillämpning i verkliga scenarier. När forskare fortsätter att driva gränserna för vad som är möjligt, kan vi förvänta oss att se ännu mer imponerande framsteg inom området för naturligt språkbehandling och artificiell intelligens.

Aayush Mittal

Jag har under de senaste fem åren dykt ner i den fascinerande världen av Machine Learning och Deep Learning. Min passion och expertis har lett mig till att bidra till över 50 olika mjukvaruutvecklingsprojekt, med särskild fokus på AI/ML. Min pågående nyfikenhet har också dragit mig mot Natural Language Processing, ett område som jag är angelägen om att utforska vidare.