Kunstmatige intelligentie

xLSTM: Een uitgebreide gids voor Extended Long Short-Term Memory

Published May 16, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Al meer dan twee decennia is de baanbrekende Long Short-Term Memory (LSTM)-architectuur van Sepp Hochreiter instrumenteel geweest bij talloze doorbraken in diepe leerlingen en echte toepassingen. Van het genereren van natuurlijke taal tot het aandrijven van spraakherkenningsystemen, zijn LSTMs een drijvende kracht achter de AI-revolutie.

Echter, zelfs de maker van LSTMs erkende hun inherente beperkingen die hen ervan weerhielden om hun volledige potentieel te realiseren. Tekortkomingen zoals het onvermogen om opgeslagen informatie te herzien, beperkte geheugencapaciteiten en het ontbreken van parallelle verwerking hebben de weg geëffend voor de opkomst van transformatoren en andere modellen om LSTMs te overtreffen voor complexe taaltaken.

Maar in een recente ontwikkeling hebben Hochreiter en zijn team bij NXAI een nieuwe variant geïntroduceerd genaamd uitgebreide LSTM (xLSTM) die deze langdurige problemen aanpakt. Dit wordt gepresenteerd in een recent onderzoeksartikel, xLSTM bouwt voort op de fundamenten die LSTMs zo krachtig maakten, terwijl het de belangrijkste zwakheden overwint door architectonische innovaties.

Aan de kern van xLSTM liggen twee novatieve componenten: exponentiële poorten en verbeterde geheugestructuren. Exponentiële poorten maken een flexibele controle over de informatie mogelijk, waardoor xLSTMs effectief beslissingen kunnen herzien wanneer nieuwe context wordt gegenereerd. Ondertussen vergroot de introductie van matrixgeheugen de opslagcapaciteit aanzienlijk in vergelijking met traditionele scalaire LSTMs.

Maar de verbeteringen stoppen daar niet. Door technieken te gebruiken die zijn ontleend aan grote taalmodellen, zoals parallelle verwerking en residu-stapeling van blokken, kunnen xLSTMs efficiënt worden geschaald tot miljarden parameters. Dit ontgrendelt hun potentieel voor het modelleren van extreem lange sequenties en contextvensters – een capaciteit die kritiek is voor complexe taalbegrip.

De implicaties van Hochreiters laatste creatie zijn monumentaal. Stel je virtuele assistenten voor die context kunnen volgen over uren lange conversaties. Of taalmodellen die robuuster generaliseren naar nieuwe domeinen na training op brede gegevens. Toepassingen omvatten overal waar LSTMs een impact hadden – chatbots, vertaling, spraakinterfaces, programma-analyse en meer – maar nu met de doorbraakcapaciteiten van xLSTM.

In deze diepe technische gids zullen we duiken in de architectonische details van xLSTM, waarbij we de novatieve componenten zoals scalaire en matrix-LSTMs, exponentiële poortmechanismen, geheugestructuren en meer zullen evalueren. U krijgt inzicht in experimentele resultaten die de indrukwekkende prestatieverbeteringen van xLSTM laten zien ten opzichte van state-of-the-art-architecturen zoals transformatoren en de nieuwste recurrente modellen.

Het begrijpen van de oorsprong: De beperkingen van LSTM

Voordat we duiken in de wereld van xLSTM, is het essentieel om de beperkingen te begrijpen waarmee traditionele LSTM-architecturen te maken hebben gehad. Deze beperkingen zijn de drijvende kracht achter de ontwikkeling van xLSTM en andere alternatieve benaderingen.

Onvermogen om opslagbeslissingen te herzien: Een van de primaire beperkingen van LSTM is het onvermogen om opgeslagen waarden te herzien wanneer een meer vergelijkbare vector wordt gegenereerd. Dit kan leiden tot suboptimale prestaties in taken die dynamische updates van opgeslagen informatie vereisen.
Beperkte opslagcapaciteiten: LSTMs comprimeren informatie in scalaire celstaten, wat hun vermogen om complexe gegevenspatronen effectief op te slaan en op te halen kan beperken, vooral bij het omgaan met zeldzame tokens of lange-afstandafhankelijkheden.
Geen parallelle verwerking: De geheugenmixmechanisme in LSTMs, die verborgen-verborgen verbindingen tussen tijdstappen omvat, dwingt sequentiële verwerking af, waardoor parallellisatie van berekeningen wordt beperkt en schaalbaarheid wordt beperkt.

Deze beperkingen hebben de weg geëffend voor de opkomst van transformatoren en andere architectuur die LSTMs in sommige aspecten hebben overtroffen, vooral bij het schalen naar grotere modellen.

De xLSTM-architectuur

Extended LSTM (xLSTM) family

Aan de kern van xLSTM liggen twee belangrijke modificaties van de traditionele LSTM-raamwerk: exponentiële poorten en novatieve geheugestructuren. Deze verbeteringen introduceren twee nieuwe varianten van LSTM, bekend als sLSTM (scalaire LSTM) en mLSTM (matrix-LSTM).

sLSTM: De scalaire LSTM met exponentiële poorten en geheugenmixing
- Exponentiële poorten: sLSTM omvat exponentiële activatiefuncties voor invoer- en vergetenpoorten, waardoor een flexibele controle over de informatie mogelijk wordt.
- Normalisatie en stabilisatie: Om numerieke instabiliteiten te voorkomen, introduceert sLSTM een normalisator die het product van invoerpoorten en toekomstige vergetenpoorten bijhoudt.
- Geheugenmixing: sLSTM ondersteunt meerdere geheugencellen en staat geheugenmixing toe via recurrente verbindingen, waardoor complexe patronen en statustrackingsmogelijkheden worden geëxtraheerd.
mLSTM: De matrix-LSTM met verbeterde opslagcapaciteiten
- Matrixgeheugen: In plaats van een scalaire geheugencel, gebruikt mLSTM een matrixgeheugen, waardoor de opslagcapaciteit toeneemt en een efficiëntere ophaling van informatie mogelijk wordt.
- Covariantie-updateringsregel: mLSTM gebruikt een covariantie-updateringsregel, geïnspireerd door Bidirectionele Associatieve Geheugens (BAMs), om sleutel-waardeparen efficiënt op te slaan en op te halen.
- Parallelle verwerking: Door geheugenmixing op te geven, bereikt mLSTM volledige parallelle verwerking, waardoor efficiënte berekeningen op moderne hardwareversnellers mogelijk worden.

Deze twee varianten, sLSTM en mLSTM, kunnen worden geïntegreerd in residublokarchitecturen, waardoor krachtige xLSTM-blokken worden gevormd. Door deze xLSTM-blokken residu te stapelen, kunnen onderzoekers krachtige xLSTM-architecturen construeren die zijn aangepast voor specifieke taken en toepassingsdomeinen.

De wiskunde

Traditionele LSTM:

De oorspronkelijke LSTM-architectuur introduceerde de constante foutkarousel en poortmechanismen om het verdwijnende gradientprobleem in recurrente neurale netwerken te overwinnen.

The repeating module in an LSTM – Source

De LSTM-geheugen cel-updates worden beheerst door de volgende vergelijkingen:

Celstatus-update: ct = ft ⊙ ct-1 + it ⊙ zt

Verborgen status-update: ht = ot ⊙ tanh(ct)

Waar:

is de celstatusvector op tijd $t$
is de vergetenpoortvector
is de invoerpoortvector
is de uitvoerpoortvector
is de invoer gemoduleerd door de invoerpoort
vertegenwoordigt element-wijze vermenigvuldiging

De poorten ft, it en ot controleren welke informatie wordt opgeslagen, vergeten en uitgevoerd uit de celstatus ct, waardoor het verdwijnende gradientprobleem wordt overwonnen.

xLSTM met exponentiële poorten:

De xLSTM-architectuur introduceert exponentiële poorten om een flexibele controle over de informatie te mogelijk maken. Voor de scalaire xLSTM (sLSTM)-variant:

Celstatus-update: ct = ft ⊙ ct-1 + it ⊙ zt

Normalisatorstatus-update: nt = ft ⊙ nt-1 + it

Verborgen status-update: ht = ot ⊙ (ct / nt)

Invoer- en vergetenpoorten: it = exp(W_i xt + R_i ht-1 + b_i) ft = σ(W_f xt + R_f ht-1 + b_f) OF ft = exp(W_f xt + R_f ht-1 + b_f)

De exponentiële activatiefuncties voor de invoer- (it) en vergetenpoorten (ft), samen met de normalisatorstatus nt, maken een effectievere controle over geheugenupdates en herziening van opgeslagen informatie mogelijk.

xLSTM met matrixgeheugen:

Voor de matrix-xLSTM (mLSTM)-variant met verbeterde opslagcapaciteiten:

Celstatus-update: Ct = ft ⊙ Ct-1 + it ⊙ (vt kt^T)

Normalisatorstatus-update: nt = ft ⊙ nt-1 + it ⊙ kt

Verborgen status-update: ht = ot ⊙ (Ct qt / max(qt^T nt, 1))

Waar:

is de matrixcelstatus
en zijn de waarde- en sleutelvectoren
is de queryvector die wordt gebruikt voor ophaling

Deze sleutelvergelijkingen laten zien hoe xLSTM de oorspronkelijke LSTM-formulering uitbreidt met exponentiële poorten voor een flexibele geheugencontrole en matrixgeheugen voor verbeterde opslagcapaciteiten. De combinatie van deze innovaties stelt xLSTM in staat om de beperkingen van traditionele LSTMs te overwinnen.

Sleutelfuncties en voordelen van xLSTM

Vermogen om opslagbeslissingen te herzien: Dankzij exponentiële poorten kan xLSTM effectief opgeslagen waarden herzien wanneer meer relevante informatie wordt gegenereerd, waardoor een significante beperking van traditionele LSTMs wordt overwonnen.
Verbeterde opslagcapaciteiten: Het matrixgeheugen in mLSTM vergroot de opslagcapaciteit, waardoor xLSTM zeldzame tokens, lange-afstandafhankelijkheden en complexe gegevenspatronen effectiever kan verwerken.
Parallelle verwerking: De mLSTM-variant van xLSTM is volledig parallelleerbaar, waardoor efficiënte berekeningen op moderne hardwareversnellers mogelijk worden, zoals GPUs, en schaalbaarheid naar grotere modellen mogelijk maken.
Geheugenmixing en statustracking: De sLSTM-variant van xLSTM behoudt de geheugenmixingmogelijkheden van traditionele LSTMs, waardoor statustracking mogelijk wordt en xLSTM uitdrukkingskrachtiger maakt dan transformatoren en statuurmodellen voor bepaalde taken.
Schaalbaarheid: Door de nieuwste technieken uit moderne grote taalmodellen (LLM’s) te gebruiken, kan xLSTM worden geschaald tot miljarden parameters, waardoor nieuwe mogelijkheden in taalmodellering en sequentieverwerkingstaken worden ontgrendeld.

Experimentele evaluatie: xLSTM’s mogelijkheden demonstreren

Het onderzoeksartikel presenteert een uitgebreide experimentele evaluatie van xLSTM, waarin de prestaties worden gemeten in verschillende taken en benchmarks. Hier zijn enkele belangrijke bevindingen:

Synthetische taken en Long Range Arena:
- xLSTM blinkt uit in het oplossen van formele taaltaken die statustracking vereisen, waarbij transformatoren, statuurmodellen en andere RNN-architecturen worden overtroffen.
- In de Multi-Query Associatieve Recall-taak toont xLSTM verbeterde geheugencapaciteiten, waarbij niet-Transformer-modellen worden overtroffen en de prestaties van transformatoren worden geëvenaard.
- Op de Long Range Arena-benchmark toont xLSTM consistente sterke prestaties, waarbij de efficiëntie bij het verwerken van lange-contextproblemen wordt aangetoond.
Taalmodellering en neven taken:
- Wanneer getraind op 15B tokens uit de SlimPajama-dataset, overtreft xLSTM bestaande methoden, waaronder transformatoren, statuurmodellen en andere RNN-varianten, in termen van validatieperplexiteit.
- Naarmate de modellen groter worden, behoudt xLSTM zijn prestatievoorsprong, waarbij een gunstige schaalbaarheid wordt aangetoond.
- In neven taken zoals gezond verstand redeneren en vraagbeantwoorden, komt xLSTM naar voren als de beste methode over verschillende modelgroottes, waarbij state-of-the-art-benaderingen worden overtroffen.
Prestaties op PALOMA-taal taken:
- Geëvalueerd op 571 tekstdomeinen uit de PALOMA-taalbenchmark, bereikt xLSTM[1:0] (de sLSTM-variant) lagere perplexiteiten dan andere methoden in 99,5% van de domeinen in vergelijking met Mamba, 85,1% in vergelijking met Llama en 99,8% in vergelijking met RWKV-4.
Schaalwetten en lengte-extrapolatie:
- Wanneer getraind op 300B tokens uit SlimPajama, toont xLSTM gunstige schaalwetten, waarbij het potentieel voor verdere prestatieverbeteringen bij toenemende modelgroottes wordt aangegeven.
- In sequentie-lengte-extrapolatie-experimenten behouden xLSTM-modellen lage perplexiteiten, zelfs voor contexten die aanzienlijk langer zijn dan die tijdens de training, waarbij andere methoden worden overtroffen.

Deze experimentele resultaten benadrukken de opmerkelijke mogelijkheden van xLSTM, waarbij het wordt gepositioneerd als een veelbelovende kandidaat voor taalmodelleringstaken, sequentieverwerking en een breed scala aan andere toepassingen.

Echte toepassingen en toekomstige richtingen

De potentiële toepassingen van xLSTM omvatten een breed scala aan domeinen, van natuurlijke taalverwerking en generatie tot sequentie-modellering, tijdsreeksanalyse en verder. Hier zijn enkele opwindende gebieden waar xLSTM een significante impact kan hebben:

Taalmodellering en tekstgeneratie: Met zijn verbeterde opslagcapaciteiten en vermogen om opgeslagen informatie te herzien, kan xLSTM de taalmodellering en tekstgeneratie taken revolutioneren, waardoor meer coherente, context-gevoelige en vloeiende tekstgeneratie mogelijk wordt.
Machinetaalvertaling: De statustrackingmogelijkheden van xLSTM kunnen waardevol blijken in machinetaalvertalingstaken, waarbij het behoud van contextinformatie en het begrijpen van lange-afstandafhankelijkheden cruciaal is voor nauwkeurige vertalingen.
Spraakherkenning en generatie: De parallelle verwerking en schaalbaarheid van xLSTM maken het geschikt voor spraakherkennings- en generatie-toepassingen, waar efficiënte verwerking van lange sequenties essentieel is.
Tijdsreeksanalyse en voorspelling: Het vermogen van xLSTM om lange-afstandafhankelijkheden te verwerken en complexe patronen effectief op te slaan en op te halen, kan leiden tot significante verbeteringen in tijdsreeksanalyse- en voorspellingstaken in verschillende domeinen, zoals financiën, weersvoorspelling en industriële toepassingen.
Versterkte leertheorie en controle-systemen: Het potentieel van xLSTM in versterkte leertheorie en controle-systemen is veelbelovend, aangezien de verbeterde geheugencapaciteiten en statustrackingmogelijkheden meer intelligente besluitvorming en controle in complexe omgevingen kunnen mogelijk maken.

Architectonische optimalisaties en hyperparameterafstemming

Terwijl de huidige resultaten veelbelovend zijn, is er nog steeds ruimte voor het optimaliseren van de xLSTM-architectuur en het afstemmen van hyperparameters. Onderzoekers kunnen verschillende combinaties van sLSTM- en mLSTM-blokken onderzoeken, waarbij de verhoudingen en plaatsing binnen de algehele architectuur variëren. Bovendien kan een systematische hyperparameterzoektocht leiden tot verdere prestatieverbeteringen, vooral voor grotere modellen.

Hardware-georiënteerde optimalisaties: Om de parallelle verwerking van xLSTM, vooral de mLSTM-variant, volledig te benutten, kunnen onderzoekers hardware-georiënteerde optimalisaties onderzoeken die zijn aangepast aan specifieke GPU-architecturen of andere versnellers. Dit kan het optimaliseren van CUDA-kernels, geheugenbeheerstrategieën en het gebruik van gespecialiseerde instructies of bibliotheken voor efficiënte matrixoperaties omvatten.

Integratie met andere neurale netwerkcomponenten: Het onderzoeken van de integratie van xLSTM met andere neurale netwerkcomponenten, zoals aandachtmechanismen, convoluties of zelfsuperviserende leertechnieken, kan leiden tot hybride architecturen die de sterktes van verschillende benaderingen combineren. Deze hybride modellen kunnen potentieel nieuwe mogelijkheden ontgrendelen en prestaties op een breder scala aan taken verbeteren.

Weinig-shot en overdrachtleren: Het onderzoeken van het gebruik van xLSTM in weinig-shot en overdrachtlerenscenario’s kan een opwindende richting voor toekomstig onderzoek zijn. Door de verbeterde geheugencapaciteiten en statustrackingmogelijkheden van xLSTM te benutten, kan xLSTM mogelijk efficiëntere kennisoverdracht en snelle aanpassing aan nieuwe taken of domeinen met beperkte trainingsgegevens mogelijk maken.

Interpreteerbaarheid en verklarebaarheid: Zoals bij veel diepe leermodellen, kunnen de interne werkingen van xLSTM ondoorzichtig en moeilijk te interpreteren zijn. Het ontwikkelen van technieken voor het interpreteren en verklaren van de beslissingen van xLSTM kan leiden tot meer transparante en betrouwbare modellen, waardoor hun adoptie in kritieke toepassingen wordt vergemakkelijkt en verantwoordelijkheid wordt bevorderd.

Efficiënte en schaalbare trainingsstrategieën: Naarmate modellen groter en complexer worden, worden efficiënte en schaalbare trainingsstrategieën steeds belangrijker. Onderzoekers kunnen technieken zoals modelparallelle verwerking, dataparallelle verwerking en gedistribueerde trainingsbenaderingen onderzoeken die specifiek zijn aangepast voor xLSTM-architecturen, waardoor het trainen van nog grotere modellen mogelijk wordt en potentieel de rekenkundige kosten worden verlaagd.

Dit zijn enkele potentiële toekomstige onderzoeksrichtingen en gebieden voor verder onderzoek met xLSTM.

Conclusie

De introductie van xLSTM markeert een significante mijlpaal in de zoektocht naar krachtigere en efficiëntere taalmodellering- en sequentieverwerkingsarchitecturen. Door de beperkingen van traditionele LSTMs aan te pakken en novatieve technieken zoals exponentiële poorten en matrixgeheugenstructuren te gebruiken, heeft xLSTM opmerkelijke prestaties getoond in een breed scala aan taken en benchmarks.

Echter, de reis eindigt hier niet. Zoals bij elke baanbrekende technologie, biedt xLSTM opwindende kansen voor verder onderzoek, verfijning en toepassing in echte scenario’s. Naarmate onderzoekers de grenzen van het mogelijke blijven verleggen, kunnen we verwachten nog indrukwekkendere vooruitgang te zien in het veld van natuurlijke taalverwerking en kunstmatige intelligentie.

Aayush Mittal

Ik heb de afgelopen vijf jaar mezelf ondergedompeld in de fascinerende wereld van Machine Learning en Deep Learning. Mijn passie en expertise hebben me geleid om bij te dragen aan meer dan 50 uiteenlopende software-engineeringprojecten, met een bijzondere focus op AI/ML. Mijn voortdurende nieuwsgierigheid heeft me ook aangetrokken tot Natural Language Processing, een vakgebied dat ik graag verder wil verkennen.