Kunstig intelligens

xLSTM: En Komprehensiv Guide til Extended Long Short-Term Memory

Published May 16, 2024

Updated April 27, 2026

Aayush Mittal Mittal

I mere end to årtier har Sepp Hochreiters banebrydende Long Short-Term Memory (LSTM) arkitektur været afgørende for talrige gennembrud inden for dyb læring og virkelige anvendelser. Fra generering af naturligt sprog til at drive talegenkendelsessystemer, har LSTMs været en drivende kraft bag AI-revolutionen.

Men selv skaberen af LSTMs anerkendte deres indbyggede begrænsninger, der forhindrede dem i at realisere deres fulde potentiale. Mangler som en udeevne til at revidere gemte oplysninger, begrænsede hukommelseskapaciteter og mangel på parallelisering banede vejen for opkomsten af transformer og andre modeller, der overgik LSTMs i mere komplekse sprogopgaver.

Men i en seneste udvikling har Hochreiter og hans team på NXAI introduceret en ny variant kaldet extended LSTM (xLSTM), der løser disse langvarige problemer. Præsenteret i en seneste forskningsartikel, bygger xLSTM på de grundlæggende ideer, der gjorde LSTMs så kraftfulde, samtidig med at den overvinder deres nøgle svagheder gennem arkitektoniske innovationer.

I centrum af xLSTM ligger to nylige komponenter: eksponentiel styring og forbedret hukommelsesstruktur. Eksponentiel styring giver mulighed for mere fleksibel kontrol over informationsflowet, hvilket giver xLSTMs mulighed for effektivt at revidere beslutninger, når nye sammenhænge mødes. Samtidig øger introduktionen af matrixhukommelse lagringskapaciteten væsentligt i forhold til traditionelle skalar LSTMs.

Men forbedringerne stopper ikke her. Ved at udnytte teknikker lånt fra store sprogmodeller som parallelisering og residual stakning af blokke, kan xLSTMs effektivt skaleres til milliarder af parametre. Dette låser deres potentiale for at modellere ekstremt lange sekvenser og kontekstvinduer – en kapacitet, der er kritisk for kompleks sprogforståelse.

Konsekvenserne af Hochreiters seneste skabelse er monumentale. Forestil dig virtuelle assistenter, der kan pålideligt spore kontekst over timerlange samtaler. Eller sprogmodeller, der generaliserer mere robust til nye domæner efter træning på bred data. Anvendelser spænder overalt, hvor LSTMs havde en indvirkning – chatbots, oversættelse, talegrænseflader, programanalyse og mere – men nu turbo-ladet med xLSTMs gennembruds-kapaciteter.

I denne dybe tekniske guide vil vi dykke ned i arkitektur detaljerne af xLSTM, evaluere dets nylige komponenter som skalar og matrix LSTMs, eksponentiel styringsmekanismer, hukommelsesstrukturer og mere. Du vil få indsigt i eksperimentelle resultater, der viser xLSTMs imponerende ydelseforbedringer over state-of-the-art arkitekturer som transformatorer og seneste rekurrente modeller.

Forståelse af Oprindelsen: LSTMs Begrænsninger

Før vi dykker ned i verden af xLSTM, er det essentiel at forstå de begrænsninger, som traditionelle LSTM-arkitekturer har mødt. Disse begrænsninger har været drivkraften bag udviklingen af xLSTM og andre alternative tilgange.

Udeevne til at Revidere Lagrede Beslutninger: En af de primære begrænsninger af LSTM er dens kamp for at revidere lagrede værdier, når en mere lignende vektor mødes. Dette kan føre til underoptimal ydelse i opgaver, der kræver dynamiske opdateringer af lagrede oplysninger.
Begrænsede Lagringskapaciteter: LSTMs komprimerer oplysninger i skalar celle-tilstande, hvilket kan begrænse deres evne til effektivt at lagre og hente komplekse datapatterns, især når det handler om sjældne tokens eller lange afhængigheder.
Mangel på Parallelisering: Hukommelsesblandingsmekanismen i LSTMs, der involverer skjulte-forbindelser mellem tidssteg, tvinger sekventiel behandling, hvilket hindrer parallelisering af beregninger og begrænser skalerbarhed.

Disse begrænsninger har banet vejen for opkomsten af Transformers og andre arkitekturer, der har overgået LSTMs i visse aspekter, især når det kommer til at skalerer til større modeller.

xLSTM Arkitekturen

Extended LSTM (xLSTM) family

I centrum af xLSTM ligger to hovedmodifikationer af den traditionelle LSTM-ramme: eksponentiel styring og nylig hukommelsesstruktur. Disse forbedringer introducerer to nye varianter af LSTM, kendt som sLSTM (skalar LSTM) og mLSTM (matrix LSTM).

sLSTM: Den Skalar LSTM med Eksponentiel Styring og Hukommelsesblanding
- Eksponentiel Styring: sLSTM inkorporerer eksponentielle aktiveringsfunktioner for indgangs- og glemmeporte, hvilket giver mulighed for mere fleksibel kontrol over informationsflowet.
- Normalisering og Stabilisering: For at forhindre numeriske ustabiliteter introducerer sLSTM en normaliserings-tilstand, der holder styr på produktet af indgangsporte og fremtidige glemmeporte.
- Hukommelsesblanding: sLSTM understøtter multiple hukommelsesceller og giver mulighed for hukommelsesblanding via rekurrente forbindelser, hvilket giver mulighed for at udtrække komplekse mønstre og statustracking-kapaciteter.
mLSTM: Den Matrix LSTM med Forbedret Lagringskapacitet
- Matrixhukommelse: I stedet for en skalar hukommelsescelle bruger mLSTM en matrixhukommelse, hvilket øger lagringskapaciteten og giver mulighed for mere effektiv henting af oplysninger.
- Kovariansregel: mLSTM anvender en kovariansregel, inspireret af Bidirectional Associative Memories (BAMs), til at lagre og hente nøgle-værdi-par effektivt.
- Parallelisering: Ved at opgive hukommelsesblanding opnår mLSTM fuld parallelisering, hvilket giver mulighed for effektiv beregning på moderne hardware-acceleratorer, såsom GPU’er, og giver mulighed for skalerbarhed til større modeller.

Disse to varianter, sLSTM og mLSTM, kan integreres i residual-blok-arkitekturer, hvilket danner xLSTM-blokke. Ved at residuelt stable xLSTM-blokke kan forskere konstruere kraftfulde xLSTM-arkitekturer tilpasset til bestemte opgaver og anvendelsesdomæner.

Matematisk

Traditionel LSTM:

Den originale LSTM-arkitektur introducerede den konstante fejlkarusel og styringsmekanismer for at overvinde det forsvindende gradient-problem i rekurrente neurale netværk.

The repeating module in an LSTM – Source

LSTM-hukommelsescelle-opdateringer styres af følgende ligninger:

Celle Tilstandsopdatering: ct = ft ⊙ ct-1 + it ⊙ zt

Skjult Tilstandsopdatering: ht = ot ⊙ tanh(ct)

Hvor:

er celle-tilstandsvektoren på tid $t$
$er glemmeportvektoren$
er indgangsportevektoren
er udgangsportevektoren
er indgangsmoduleret af indgangsporte
repræsenterer punktvis multiplikation

Portene ft, it og ot kontrollerer, hvilke oplysninger der lagres, glemmes og udgangs fra celle-tilstanden ct, hvilket mildner det forsvindende gradient-problem.

xLSTM med Eksponentiel Styring:

xLSTM-arkitekturen introducerer eksponentiel styring for at give mulighed for mere fleksibel kontrol over informationsflowet. For den skalar xLSTM (sLSTM) variant:

Celle Tilstandsopdatering: ct = ft ⊙ ct-1 + it ⊙ zt

Normaliserings Tilstandsopdatering: nt = ft ⊙ nt-1 + it

Skjult Tilstandsopdatering: ht = ot ⊙ (ct / nt)

Indgangs- og Glemmeporte: it = exp(W_i xt + R_i ht-1 + b_i) ft = σ(W_f xt + R_f ht-1 + b_f) OR ft = exp(W_f xt + R_f ht-1 + b_f)

Eksponentielle aktiveringsfunktioner for indgangs- (it) og glemmeportene (ft), sammen med normaliserings-tilstanden nt, giver mulighed for mere effektiv kontrol over hukommelsesopdateringer og revidering af lagrede oplysninger.

xLSTM med Matrixhukommelse:

For den matrix xLSTM (mLSTM) variant med forbedret lagringskapacitet:

Celle Tilstandsopdatering: Ct = ft ⊙ Ct-1 + it ⊙ (vt kt^T)

Normaliserings Tilstandsopdatering: nt = ft ⊙ nt-1 + it ⊙ kt

Skjult Tilstandsopdatering: ht = ot ⊙ (Ct qt / max(qt^T nt, 1))

Hvor:

$er matrix-celle-tilstanden$
og er værdi- og nøglevektorerne
er forespørgselsvektoren brugt til henting

Disse nøgleligninger fremhæver, hvordan xLSTM udvider den originale LSTM-formulering med eksponentiel styring til mere fleksibel kontrol over informationsflowet og matrixhukommelse til forbedret lagringskapacitet. Kombinationen af disse innovationer giver xLSTM mulighed for at overvinde begrænsningerne i traditionelle LSTMs.

Nøglefunktioner og Fordele ved xLSTM

Evne til at Revidere Lagrede Beslutninger: Takket være eksponentiel styring kan xLSTM effektivt revidere lagrede værdier, når mere relevante oplysninger mødes, og overvinde en væsentlig begrænsning af traditionelle LSTMs.
Forbedret Lagringskapacitet: Matrixhukommelsen i mLSTM giver øget lagringskapacitet, hvilket giver xLSTM mulighed for at håndtere sjældne tokens, lange afhængigheder og komplekse datapatterns mere effektivt.
Parallelisering: Den mLSTM-variant af xLSTM er fuldt paralleliserbar, hvilket giver mulighed for effektiv beregning på moderne hardware-acceleratorer, såsom GPU’er, og giver mulighed for skalerbarhed til større modeller.
Hukommelsesblanding og Statustracking: Den sLSTM-variant af xLSTM beholder hukommelsesblandingskapaciteterne fra traditionelle LSTMs, hvilket giver mulighed for statustracking og gør xLSTM mere udtryksfuld end Transformers og State Space Models til visse opgaver.
Skalerbarhed: Ved at udnytte de seneste teknikker fra moderne store sprogmodeller kan xLSTM skaleres til milliarder af parametre, hvilket låser dets potentiale for at modellere ekstremt lange sekvenser og kontekstvinduer – en kapacitet, der er kritisk for kompleks sprogforståelse.

Eksperimentel Evaluering: Fremhævning af xLSTMs Kapaciteter

Forskningsartiklen præsenterer en omfattende eksperimentel evaluering af xLSTM, der fremhæver dets ydelse på tværs af forskellige opgaver og benchmarks. Her er nogle nøglefund:

Syntetiske Opgaver og Long Range Arena:
- xLSTM excellerer i at løse formelle sprogopgaver, der kræver statustracking, og overgår Transformers, State Space Models og andre RNN-arkitekturer.
- I den multi-query associative recall-opgave demonstrerer xLSTM forbedret hukommelseskapacitet og overgår ikke-Transformer-modeller og rivaliserer med Transformers.
- På Long Range Arena-benchmarket viser xLSTM konsekvent stær ydelse, hvilket fremhæver dets effektivitet i at håndtere lange kontekst-problemer.
Sprogmodelering og Nedstrøms Opgaver:
- Når xLSTM trænes på 15 mia. tokens fra SlimPajama-datasættet, overgår det eksisterende metoder, herunder Transformers, State Space Models og andre RNN-varianter, i valideringsforvirring.
- Da modellerne skaleres op til større størrelser, beholder xLSTM sin ydelseforbedring, hvilket viser gunstig skaleringsadfærd.
- I nedstrømsopgaver som fælles fornuft og spørgsmålssvaring viser xLSTM sig som den bedste metode på tværs af forskellige modelstørrelser, og overgår state-of-the-art-tilgange.
Ydelse på PALOMA Sprogopgaver:
- Evaluering på 571 tekstdomæner fra PALOMA-sprogbenchmarket viser, at xLSTM[1:0] (sLSTM-varianten) opnår lavere forvirring i 99,5% af domænerne i forhold til Mamba, 85,1% i forhold til Llama og 99,8% i forhold til RWKV-4.
Skaleringslove og Længdeextrapolation:
- Når xLSTM trænes på 300 mia. tokens fra SlimPajama, viser det gunstige skaleringslove, hvilket antyder dets potentiale for yderligere ydelseforbedringer, når modelstørrelser øges.
- I sekvenslængdeextrapolations-eksperimenter beholder xLSTM-modellerne lav forvirring, selv for kontekster, der er væsentligt længere end dem, der blev set under træning, og overgår andre metoder.

Disse eksperimentelle resultater fremhæver de bemærkelsesværdige kapaciteter ved xLSTM, og positionerer det som en lovende kandidat til sprogmodelering, sekvensbehandling og en bred vifte af andre anvendelser.

Virksomhedsanvendelser og Fremtidige Retninger

De potentielle anvendelser af xLSTM spænder over en bred vifte af domæner, fra naturlig sprogbehandling og generering til sekvensmodelering, tidsrækkeanalyse og videre. Her er nogle spændende områder, hvor xLSTM kunne have en betydelig indvirkning:

Sprogmodelering og Tekstgenerering: Med sin forbedrede lagringskapacitet og evne til at revidere lagrede oplysninger, kunne xLSTM revolutionere sprogmodelering og tekstgenereringsopgaver, og give mulighed for mere sammenhængende, kontekstbevidst og flydende tekstgenerering.
Maskinoversættelse: Statustrackingskapaciteterne ved xLSTM kunne være uvurderlige i maskinoversættelsesopgaver, hvor det er afgørende at fastholde kontekst og forstå lange afhængigheder for nøjagtige oversættelser.
Talegenkendelse og Generering: Paralleliseringen og skalerbarheden af xLSTM gør det velegnet til talegenkendelses- og genereringsanvendelser, hvor effektiv behandling af lange sekvenser er essentiel.
Tidsrækkeanalyse og Prognose: xLSTMs evne til at håndtere lange afhængigheder og effektivt lagre og hente komplekse mønstre, kunne føre til betydelige forbedringer i tidsrækkeanalyse og prognoseopgaver på tværs af forskellige domæner, såsom finans, vejrprognose og industrielle anvendelser.
Reinforcement Learning og Kontrolsystemer: Potentialet for xLSTM i reinforcement learning og kontrolsystemer er lovende, da dets forbedrede hukommelseskapaciteter og statustracking-kapaciteter kunne give mulighed for mere intelligent beslutningstagning og kontrol i komplekse miljøer.

Arkitektoniske Optimeringer og Hyperparameter-justering

Selvom resultaterne er lovende, er der stadig mulighed for at optimere xLSTM-arkitekturen og finjustere dets hyperparametre. Forskere kunne undersøge forskellige kombinationer af sLSTM- og mLSTM-blokke, variere forholdet og placeringen inden for den overordnede arkitektur. Derudover kunne en systematisk hyperparametersøgning føre til yderligere ydelseforbedringer, især for større modeller.

Hardware-venlige Optimeringer: For at fuldt udnytte paralleliseringen af xLSTM, især den mLSTM-variant, kunne forskere undersøge hardware-venlige optimeringer tilpasset specifikke GPU-arkitekturer eller andre acceleratorer. Dette kunne indebære optimering af CUDA-kerner, hukommelsesstyringsstrategier og udnyttelse af specialiserede instruktioner eller biblioteker til effektive matrixoperationer.

Integration med Andre Neurale Netværkskomponenter: At undersøge integrationen af xLSTM med andre neurale netværkskomponenter, såsom opmærksomhedsmekanismer, convolutioner eller selv-supervisede læringsmetoder, kunne føre til hybrid-arkitekturer, der kombinerer styrkerne fra forskellige tilgange. Disse hybridmodeller kunne potentielt låse nye kapaciteter og forbedre ydelsen på en bred vifte af opgaver.

Få-Shot og Transferlæring: At undersøge brugen af xLSTM i få-shot og transferlærings-scenarier kunne være en spændende vej for fremtidig forskning. Ved at udnytte dets forbedrede hukommelseskapaciteter og statustracking-kapaciteter, kunne xLSTM potentielt give mulighed for mere effektiv vidensoverførsel og hurtig tilpasning til nye opgaver eller domæner med begrænset træningsdata.

Fortolkning og Forklarbarhed: Som med mange dybe læringsmodeller kan de indre mekanismer i xLSTM være uigennemskuelige og svære at fortolke. At udvikle teknikker til at fortolke og forklare beslutningerne taget af xLSTM, kunne føre til mere gennemsigtige og pålidelige modeller, og fremme ansvarlighed.

Effektive og Skalerbare Træningsstrategier: Da modellerne fortsætter med at vokse i størrelse og kompleksitet, bliver effektive og skalerbare træningsstrategier stadig vigtigere. Forskere kunne undersøge teknikker som modelparallelisering, dataparallelisering og distribueret træning tilgange specifikt tilpasset xLSTM-arkitekturer, og give mulighed for træning af endnu større modeller og potentielt reducere beregningsomkostninger.

Disse er blot nogle potentielle fremtidige forskningsretninger og områder for yderligere udforskning med xLSTM.

Konklusion

Introduktionen af xLSTM markerer en betydelig milepæl i jagten på mere kraftfulde og effektive sprogmodelerings- og sekvensbehandlingsarkitekturer. Ved at løse begrænsningerne i traditionelle LSTMs og udnytte nylige teknikker som eksponentiel styring og matrixhukommelsesstrukturer, har xLSTM demonstreret bemærkelsesværdig ydelse på tværs af en bred vifte af opgaver og benchmarks.

Men rejsen stopper ikke her. Som med enhver banebrydende teknologi præsenterer xLSTM spændende muligheder for yderligere udforskning, forbedring og anvendelse i virkelige scenarier. Da forskere fortsætter med at pushe grænserne for, hvad der er muligt, kan vi forvente at vidne endnu mere imponerende fremgang i feltet for naturlig sprogbehandling og kunstig intelligens.

Aayush Mittal

Jeg har brugt de sidste fem år på at dykke ned i den fascinerende verden af Machine Learning og Deep Learning. Min passion og ekspertise har ført til, at jeg har bidraget til over 50 forskellige software-udviklingsprojekter, med særlig fokus på AI/ML. Min vedvarende nysgerrighed har også ført mig i retning af Natural Language Processing, et felt jeg er ivrig efter at udforske yderligere.