Kunstig intelligens

xLSTM: En komprehensiv guide til utvidet Long Short-Term Memory

Published May 16, 2024

Updated April 27, 2026

Aayush Mittal Mittal

I over to ti år, har Sepp Hochreiter’s banebrytende Long Short-Term Memory (LSTM) arkitektur vært instrumental i tallrike gjennombrudd i dyp læring og virkelige anvendelser. Fra å generere naturlig språk til å drive talegjenkjenningssystemer, har LSTMs vært en drivende kraft bak AI-revolusjonen.

Men selv skaperen av LSTMs erkjente deres innebygde begrensninger som hindret dem fra å realisere deres fulle potensiale. Begrensninger som evnen til å revidere lagret informasjon, begrensede minnekapasiteter og mangel på parallelisering banet vei for oppblomstringen av transformer og andre modeller som overgikk LSTMs for mer komplekse språkoppgaver.

Men i en ny utvikling, har Hochreiter og hans team på NXAI introdusert en ny variant kalt utvidet LSTM (xLSTM) som addreser disse langvarige problemene. Presentert i en nylig forskningsartikkel, bygger xLSTM på de grunnleggende ideene som gjorde LSTMs så kraftfulle, mens de overvinner deres nøkkel svakheter gjennom arkitektoniske innovasjoner.

I kjernen av xLSTM ligger to nye komponenter: eksponentiell styring og forbedret minnestruktur. Eksponentiell styring tillater mer fleksibel kontroll over informasjonsflyten, som gjør xLSTMs i stand til å effektivt revidere avgjørelser når ny kontekst oppdages. Samtidig introduserer matrixminnet en kraftig økning av lagringskapasiteten sammenlignet med tradisjonelle skalar LSTMs.

Men forbedringene stopper ikke der. Ved å utnytte teknikker lånt fra store språkmodeller som parallelisering og residual blokk-stabling, kan xLSTMs effektivt skaleres til milliarder av parametre. Dette låser opp deres potensiale for å modellere ekstremt lange sekvenser og kontekstvinduer – en funksjonalitet kritisk for kompleks språkforståelse.

Konsekvensene av Hochreiter’s nyeste skapelse er monumental. Tenk deg virtuelle assistenter som kan pålitelig spore kontekst over timer lange samtaler. Eller språkmodeller som generaliserer mer robust til nye domener etter trening på bredt data. Anvendelsene spenner overalt LSTMs hadde en innvirkning – chatbots, oversettelse, talegrensesnitt, programanalyse og mer – men nå turbo-ladet med xLSTMs banebrytende kapasiteter.

I denne dypt tekniske guiden, vil vi dykke ned i arkitektoniske detaljene av xLSTM, evaluere dens nye komponenter som skalar og matrix LSTMs, eksponentiell styringsmekanismer, minnestrukturer og mer. Du vil få innsikt fra eksperimentelle resultater som viser xLSTMs imponerende ytelsesforbedringer over state-of-the-art arkitekturer som transformatorer og siste rekurrerende modeller.

Forstå opphavet: Begrensningene til LSTM

Før vi dykker ned i verden av xLSTM, er det essensielt å forstå begrensningene som tradisjonelle LSTM-arkitekturer har møtt. Disse begrensningene har vært drivkraften bak utviklingen av xLSTM og andre alternative tilnærminger.

Evne til å revidere lagrede avgjørelser: En av de primære begrensningene til LSTM er dens kamp for å revidere lagrede verdier når en mer lik vector oppdages. Dette kan føre til underoptimal ytelse i oppgaver som krever dynamiske oppdateringer av lagret informasjon.
Begrensede lagringskapasiteter: LSTMs komprimerer informasjon inn i skalar celle-tilstander, som kan begrense deres evne til å effektivt lagre og hente komplekse datapunkt-mønster, særlig når det gjelder sjeldne token eller lange avhengigheter.
Mangel på parallelisering: Minnemiksen i LSTMs, som innebærer skjulte til skjulte forbindelser mellom tidssteg, tvinger sekvensiell prosessering, og begrenser skalerbarheten.

Disse begrensningene har banet vei for oppblomstringen av Transformers og andre arkitekturer som har overgikk LSTMs i visse aspekter, særlig når det gjelder å skaleres til større modeller.

xLSTM-arkitekturen

Utvidet LSTM (xLSTM) familie

I kjernen av xLSTM ligger to hovedmodifikasjoner av den tradisjonelle LSTM-rammen: eksponentiell styring og nye minnestrukturer. Disse forbedringene introduserer to nye varianter av LSTM, kjent som sLSTM (skalar LSTM) og mLSTM (matrix LSTM).

sLSTM: Den skalar LSTM med eksponentiell styring og minnemixing
- Eksponentiell styring: sLSTM inkorporerer eksponentielle aktiveringsfunksjoner for inngangs- og glemmeporter, som tillater mer fleksibel kontroll over informasjonsflyten.
- Normalisering og stabilisering: For å forhindre numeriske ustabiliteter, introduserer sLSTM en normaliserings-tilstand som holder spor av produktet av inngangsporter og fremtidige glemmeporter.
- Minnemixing: sLSTM støtter multiple minnehull og tillater minnemixing via rekurrerende forbindelser, som gjør det mulig å trekke ut komplekse mønster og tilstands-sporingsevner.
mLSTM: Den matrix LSTM med forbedret lagringskapasitet
- Matrixminne: I stedet for en skalar minnehull, bruker mLSTM en matrixminne, som øker lagringskapasiteten og gjør det mulig å hente informasjon mer effektivt.
- Kovarians-regel: mLSTM bruker en kovarians-regel, inspirert av Bidirectional Associative Memories (BAMs), for å lagre og hente nøkkel-verdi-par effektivt.
- Parallelisering: Ved å forlate minnemixing, oppnår mLSTM full parallelisering, som gjør det mulig å utføre effektive beregninger på moderne akseleratorer, som GPU-er, og muliggjør skalerbarhet til større modeller.

Disse to variantene, sLSTM og mLSTM, kan integreres i residual blokk-arkitekturer, som danner xLSTM-blokker. Ved å residuelt stable xLSTM-blokker, kan forskere konstruere kraftfulle xLSTM-arkitekturer tilpasset bestemte oppgaver og anvendelsesdomener.

Matematikken

Tradisjonell LSTM:

Den opprinnelige LSTM-arkitekturen introduserte den konstante feil-karussellen og styringsmekanismene for å overvinne det forsvinnende gradient-problemet i rekurrerende neurale nettverk.

Den gjentakende modulen i en LSTM – Kilde

LSTM-minnehull-oppdateringene styres av følgende ligninger:

Celle-tilstandsoppdatering: ct = ft ⊙ ct-1 + it ⊙ zt

Skjult tilstandsoppdatering: ht = ot ⊙ tanh(ct)

Hvor:

er celle-tilstandsvektoren på tid $t$
er glemmeporten
er inngangsporten
er utgangsporten
er inngangen modulert av inngangsporten
representerer punktvis multiplikasjon

Portene ft, it og ot kontrollerer hva slags informasjon som lagres, glemmes og utgangen fra celle-tilstanden ct, og mildner det forsvinnende gradient-problemet.

xLSTM med eksponentiell styring:

xLSTM-arkitekturen introduserer eksponentiell styring for å tillate mer fleksibel kontroll over informasjonsflyten. For den skalar xLSTM (sLSTM) varianten:

Celle-tilstandsoppdatering: ct = ft ⊙ ct-1 + it ⊙ zt

Normaliserings-tilstandsoppdatering: nt = ft ⊙ nt-1 + it

Skjult tilstandsoppdatering: ht = ot ⊙ (ct / nt)

Inngangs- og glemmeporter: it = exp(W_i xt + R_i ht-1 + b_i) ft = σ(W_f xt + R_f ht-1 + b_f) eller ft = exp(W_f xt + R_f ht-1 + b_f)

De eksponentielle aktiveringsfunksjonene for inngangs- og glemmeportene, sammen med normaliserings-tilstanden nt, gjør det mulig for mer effektiv kontroll over minne-oppdateringer og revidere lagret informasjon.

xLSTM med matrixminne:

For den matrix xLSTM (mLSTM) varianten med forbedret lagringskapasitet:

Celle-tilstandsoppdatering: Ct = ft ⊙ Ct-1 + it ⊙ (vt kt^T)

Normaliserings-tilstandsoppdatering: nt = ft ⊙ nt-1 + it ⊙ kt

Skjult tilstandsoppdatering: ht = ot ⊙ (Ct qt / max(qt^T nt, 1))

Hvor:

er matrix celle-tilstanden
og er verdi- og nøkkelvektorene
er spøringsvektoren brukt for henting

Disse nøkkel-ligningene viser hvordan xLSTM utvider den opprinnelige LSTM-formuleringen med eksponentiell styring for mer fleksibel minnekontroll og matrixminne for forbedret lagringskapasitet. Kombinasjonen av disse innovasjonene gjør det mulig for xLSTM å overvinne begrensningene til tradisjonelle LSTMs.

Nøkkel-funksjoner og fordeler med xLSTM

Evne til å revidere lagrede avgjørelser: Takket være eksponentiell styring, kan xLSTM effektivt revidere lagrede verdier når mer relevant informasjon oppdages, og overvinne en betydelig begrensning til tradisjonelle LSTMs.
Forbedret lagringskapasitet: Matrixminnet i mLSTM gir økt lagringskapasitet, og gjør det mulig for xLSTM å håndtere sjeldne token, lange avhengigheter og komplekse datapunkt-mønster mer effektivt.
Parallelisering: Den mLSTM-varianten av xLSTM er fullstendig paralleliserbar, og gjør det mulig for effektive beregninger på moderne akseleratorer, som GPU-er, og muliggjør skalerbarhet til større modeller.
Minnemixing og tilstands-sporing: Den sLSTM-varianten av xLSTM beholder minnemixingsevnen til tradisjonelle LSTMs, og gjør det mulig for tilstands-sporing og gjør xLSTM mer uttrykksfull enn Transformers og State Space-modeller for visse oppgaver.
Skalerbarhet: Ved å utnytte de siste teknikker fra moderne store språkmodeller, kan xLSTM skaleres til milliarder av parametre, og låser opp nye muligheter i språkmodellering og sekvens-behandling.

Eksperimentell evaluering: Viser xLSTMs kapasiteter

Forskningsartikkelen presenterer en omfattende eksperimentell evaluering av xLSTM, og viser dens ytelse over ulike oppgaver og benchmark. Her er noen nøkkel-funn:

Syntetiske oppgaver og Long Range Arena:
- xLSTM utmerker seg i å løse formelle språk-oppgaver som krever tilstands-sporing, og overgår Transformers, State Space-modeller og andre rekurrerende nettverks-arkitekturer.
- I Multi-Query Associative Recall-oppgaven, viser xLSTM forbedret minnekapasitet, og overgår ikke-Transformer-modeller og rivaliserer med Transformers.
- På Long Range Arena-benchmark, viser xLSTM konsistent sterk ytelse, og viser sin effektivitet i å håndtere lange kontekst-problemer.
Språkmodellering og nedstrøms-oppgaver:
- Når den er trent på 15 milliarder token fra SlimPajama-datasettet, overgår xLSTM eksisterende metoder, inkludert Transformers, State Space-modeller og andre rekurrerende nettverks-variante, i validerings-forvirring.
- Etter hvert som modellene skaleres til større størrelser, beholder xLSTM sin ytelsesfordel, og viser gunstig skalerings-atferd.
- I nedstrøms-oppgaver som felles fornuft og spørsmål-svar, oppstår xLSTM som den beste metoden over ulike modell-størrelser, og overgår state-of-the-art-tilnærminger.
Ytelse på PALOMA-språk-oppgaver:
- Vurdert på 571 tekst-domener fra PALOMA-språk-benchmark, oppnår xLSTM[1:0] (sLSTM-varianten) lavere forvirring enn andre metoder i 99,5% av domenene sammenlignet med Mamba, 85,1% sammenlignet med Llama, og 99,8% sammenlignet med RWKV-4.
Skalerings-lover og lengde-ekstrapolasjon:
- Når den er trent på 300 milliarder token fra SlimPajama, viser xLSTM gunstige skalerings-lover, og indikerer sitt potensiale for ytterligere ytelsesforbedringer når modell-størrelser øker.
- I sekvens-lengde-ekstrapolasjons-eksperimenter, beholder xLSTM-modeller lav forvirring, selv for kontekster som er betydelig lengre enn de som ble sett under trening, og overgår andre metoder.

Disse eksperimentelle resultater viser xLSTMs bemerkelsesverdige kapasiteter, og plasserer den som en lovende kandidat for språkmodellering, sekvens-behandling og en rekke andre anvendelser.

Virkelige anvendelser og fremtidige retninger

De potensielle anvendelsene av xLSTM spenner over en rekke domener, fra naturlig språk-behandling og generering til sekvens-modellering, tidsserie-analyse og utover. Her er noen spennende områder hvor xLSTM kan ha en betydelig innvirkning:

Språkmodellering og tekst-generering: Med sin forbedrede lagringskapasitet og evne til å revidere lagret informasjon, kan xLSTM revolusjonere språkmodellering og tekst-generering, og muliggjøre mer koherent, kontekst-avhengig og flytende tekst-generering.
Maskin-oversettelse: Den tilstands-sporingsevnen til xLSTM kan være uvurderlig i maskin-oversettelse, hvor det er kritisk å beholde kontekst-informasjon og forstå lange avhengigheter for å oppnå nøyaktige oversettelser.
Tale-gjenkjenning og generering: Den paralleliseringen og skalerbarheten til xLSTM gjør den velegnet for tale-gjenkjenning og generering, hvor effektiv prosessering av lange sekvenser er essensiell.
Tidsserie-analyse og prognose: xLSTMs evne til å håndtere lange avhengigheter og effektivt lagre og hente komplekse mønster, kan føre til betydelige forbedringer i tidsserie-analyse og prognose-oppgaver over ulike domener, som finansielle, vær-prognoser og industrielle anvendelser.
Forsterkning-læring og kontroll-systemer: Potensialet til xLSTM i forsterkning-læring og kontroll-systemer er lovende, og dens forbedrede minnekapasitet og tilstands-sporingsevne kan muliggjøre mer intelligent beslutningstaking og kontroll i komplekse miljøer.

Arkitektoniske optimeringer og hyperparameter-justering

Selv om de nåværende resultater er lovende, er det fortsatt rom for å optimere xLSTM-arkitekturen og finjustere hyperparameterne. Forskere kan utforske ulike kombinasjoner av sLSTM- og mLSTM-blokker, variere forholdet og plasseringen innenfor den overordnede arkitekturen. I tillegg kan en systematisk hyperparameter-søk kunne føre til ytterligere ytelsesforbedringer, særlig for større modeller.

Maskin-avhengige optimeringer: For å fullt ut å utnytte paralleliseringen til xLSTM, særlig den mLSTM-varianten, kan forskere undersøke maskin-avhengige optimeringer tilpasset bestemte GPU-arkitekturer eller andre akseleratorer. Dette kan inkludere å optimere CUDA-kjerner, minnehåndtering-strategier og å utnytte spesialiserte instruksjoner eller biblioteker for effektive matrix-operasjoner.

Integrering med andre neurale nettverks-komponenter: Å utforske integreringen av xLSTM med andre neurale nettverks-komponenter, som oppmerksomhets-mekanismer, konvolusjoner eller selv-superviset læringsteknikker, kan føre til hybrid-arkitekturer som kombinerer styrkene til ulike tilnærminger. Disse hybrid-modellene kan potensielt låse opp nye kapasiteter og forbedre ytelsen på en rekke oppgaver.

Få-skudd og overførings-læring: Å utforske bruken av xLSTM i få-skudd og overførings-læring-scenarier kan være en spennende fremtidig forskningsretning. Ved å utnytte dens forbedrede minnekapasitet og tilstands-sporingsevne, kan xLSTM potensielt muliggjøre mer effektiv kunnskaps-overføring og rask tilpasning til nye oppgaver eller domener med begrenset trening-data.

Tolknings- og forklarings-dyktighet: Som med mange dyp-lærings-modeller, kan de indre arbeidsprosessene til xLSTM være uklare og vanskelige å tolke. Utvikling av teknikker for å tolke og forklare avgjørelsene tatt av xLSTM kan føre til mer gjennomsiktige og pålitelige modeller, og muliggjøre deres adopsjon i kritiske anvendelser og fremme ansvarlighet.

Effektive og skalerbare trening-strategier: Etter hvert som modellene vokser i størrelse og kompleksitet, blir effektive og skalerbare trening-strategier stadig viktigere. Forskere kan utforske teknikker som modell-parallellisering, data-parallellisering og distribuert trening-tilnærminger spesifikt tilpasset xLSTM-arkitekturer, og muliggjøre trening av enda større modeller og potensielt redusere beregningskostnader.

Disse er noen potensielle fremtidige forskningsretninger og områder for videre utforskning med xLSTM.

Konklusjon

Innføringen av xLSTM markerer en betydelig milepæl i jakten på mer kraftfulle og effektive språkmodellering og sekvens-behandling-arkitekturer. Ved å addresse begrensningene til tradisjonelle LSTMs og å utnytte nye teknikker som eksponentiell styring og matrix-minnestrukturer, har xLSTM vist bemerkelsesverdige resultater over en rekke oppgaver og benchmark.

Men reisen er ikke over her. Som med alle banebrytende teknologier, presenterer xLSTM spennende muligheter for videre utforskning, finjustering og anvendelse i virkelige scenarier. Etter hvert som forskere fortsetter å presse grensene for hva som er mulig, kan vi forvente å være vitne til enda mer imponerende fremgang i feltet naturlig språk-behandling og kunstig intelligens.

Aayush Mittal

Jeg har brukt de siste fem årene til å dykke ned i den fasiniserende verden av Machine Learning og Deep Learning. Min lidenskap og ekspertise har ført meg til å bidra til over 50 forskjellige prosjekter innen programvareutvikling, med særlig fokus på AI/ML. Min pågående nysgjerrighet har også trukket meg mot Natural Language Processing, et felt jeg er ivrig etter å utforske videre.