Künstliche Intelligenz

xLSTM: Ein umfassender Leitfaden zu erweiterten Long Short-Term Memory

Published May 16, 2024

Updated April 4, 2026

Aayush Mittal Mittal

Seit über zwei Jahrzehnten ist die bahnbrechende Long Short-Term Memory (LSTM)-Architektur von Sepp Hochreiter instrumental für zahlreiche Durchbrüche im Bereich des Deep Learning und für reale Anwendungen. Von der Generierung natürlicher Sprache bis hin zur Steuerung von Spracherkennungssystemen waren LSTMs eine treibende Kraft hinter der KI-Revolution.

Allerdings erkannte sogar der Erfinder von LSTMs ihre inhärenten Einschränkungen, die sie daran hinderten, ihr volles Potenzial zu entfalten. Mängel wie die Unfähigkeit, gespeicherte Informationen zu überarbeiten, begrenzte Speicherkapazitäten und mangelnde Parallelisierbarkeit ebneten den Weg für den Aufstieg von Transformer- und anderen Modellen, um LSTMs bei komplexeren Sprachaufgaben zu überbieten.

Doch in einer jüngsten Entwicklung haben Hochreiter und sein Team bei NXAI eine neue Variante namens erweitertes LSTM (xLSTM) vorgestellt, die diese langjährigen Probleme anspricht. In einem aktuellen Forschungsbericht baut xLSTM auf den grundlegenden Ideen auf, die LSTMs so leistungsstark gemacht haben, und überwindet ihre Schlüsselschwächen durch architektonische Innovationen.

Im Kern von xLSTM liegen zwei neuartige Komponenten: exponentielles Gating und erweiterte Speicherstrukturen. Exponentielles Gating ermöglicht eine flexiblere Kontrolle über den Informationsfluss, sodass xLSTMs effektiv Entscheidungen überarbeiten können, wenn neue Kontexte auftauchen. Währenddessen erhöht die Einführung von Matrixspeicher die Speicherkapazität im Vergleich zu herkömmlichen skalaren LSTMs erheblich.

Aber die Verbesserungen hören nicht dort auf. Durch die Nutzung von Techniken, die von großen Sprachmodellen wie Parallelisierbarkeit und residuale Blockstapelung übernommen wurden, können xLSTMs effizient auf Billionen von Parametern skaliert werden. Dies schaltet ihr Potenzial für die Modellierung extrem langer Sequenzen und Kontextfenster frei – eine Fähigkeit, die für komplexe Sprachverständnis kritisch ist.

Die Auswirkungen von Hochreiters jüngster Schöpfung sind monumental. Stellen Sie sich virtuelle Assistenten vor, die zuverlässig Kontext über Stunden lange Gespräche verfolgen können. Oder Sprachmodelle, die robuster auf neue Bereiche generalisieren, nachdem sie auf umfangreiche Daten trainiert wurden. Anwendungen umfassen überall, wo LSTMs einen Einfluss hatten – Chatbots, Übersetzung, Sprachinterfaces, ProgrammAnalyse und mehr – aber jetzt mit den bahnbrechenden Fähigkeiten von xLSTM turboaufgeladen.

In diesem tiefen technischen Leitfaden werden wir in die architektonischen Details von xLSTM eintauchen, wobei wir neue Komponenten wie skalare und Matrix-LSTMs, exponentielles Gating-Mechanismus, Speicherstrukturen und mehr bewerten. Sie werden Einblicke aus experimentellen Ergebnissen gewinnen, die die beeindruckenden Leistungssteigerungen von xLSTM gegenüber State-of-the-Art-Architekturen wie Transformern und den neuesten rekurrenten Modellen zeigen.

Verständnis der Ursprünge: Die Einschränkungen von LSTM

Bevor wir in die Welt von xLSTM eintauchen, ist es wichtig, die Einschränkungen zu verstehen, mit denen herkömmliche LSTM-Architekturen konfrontiert sind. Diese Einschränkungen sind der treibende Faktor hinter der Entwicklung von xLSTM und anderen alternativen Ansätzen.

Unfähigkeit, Speicherentscheidungen zu überarbeiten: Eine der primären Einschränkungen von LSTM ist ihr Kampf, gespeicherte Werte zu überarbeiten, wenn ein ähnlicherer Vektor auftritt. Dies kann zu suboptimalen Leistungen bei Aufgaben führen, die dynamische Updates von gespeicherten Informationen erfordern.
Begrenzte Speicherkapazitäten: LSTMs komprimieren Informationen in skalare Zellzustände, was ihre Fähigkeit, komplexe Datenmuster effektiv zu speichern und abzurufen, einschränken kann, insbesondere wenn es um seltene Token oder lange Abhängigkeiten geht.
Mangel an Parallelisierbarkeit: Der Speichermischmechanismus in LSTMs, der Hidden-Hidden-Verbindungen zwischen Zeitpunkten umfasst, erzwingt sequenzielle Verarbeitung und behindert die Parallelisierung von Berechnungen, was die Skalierbarkeit einschränkt.

Diese Einschränkungen haben den Weg für den Aufstieg von Transformern und anderen Architekturen geebnet, die LSTMs in bestimmten Aspekten, insbesondere bei der Skalierung auf größere Modelle, überboten haben.

Die xLSTM-Architektur

Erweitertes LSTM (xLSTM) Familie

Im Kern von xLSTM liegen zwei Hauptmodifikationen der herkömmlichen LSTM-Rahmenarbeit: exponentielles Gating und neuartige Speicherstrukturen. Diese Verbesserungen führen zwei neue Varianten von LSTM ein, bekannt als sLSTM (skalares LSTM) und mLSTM (Matrix-LSTM).

sLSTM: Das skalare LSTM mit exponentiellem Gating und Speichermischung
- Exponentielles Gating: sLSTM integriert exponentielle Aktivierungsfunktionen für Eingangs- und Vergessensgates, ermöglicht eine flexiblere Kontrolle über den Informationsfluss.
- Normalisierung und Stabilisierung: Um numerische Instabilitäten zu vermeiden, führt sLSTM einen Normalisierungszustand ein, der das Produkt der Eingangsgates und zukünftigen Vergessensgates verfolgt.
- Speichermischung: sLSTM unterstützt mehrere Speicherzellen und ermöglicht Speichermischung über rekurrente Verbindungen, wodurch die Extraktion komplexer Muster und Zustandsverfolgungsfähigkeiten ermöglicht wird.
mLSTM: Das Matrix-LSTM mit erweiterten Speicherkapazitäten
- Matrixspeicher: Anstelle eines skalaren Speicherzustands verwendet mLSTM einen Matrixspeicher, der seine Speicherkapazität erhöht und eine effizientere Abrufung von Informationen ermöglicht.
- Kovarianz-Aktualisierungsregel: mLSTM verwendet eine Kovarianz-Aktualisierungsregel, inspiriert von bidirektionalen assoziativen Speichern (BAMs), um Schlüssel-Wert-Paare effizient zu speichern und abzurufen.
- Parallelisierbarkeit: Durch die Aufgabe der Speichermischung erreicht mLSTM eine vollständige Parallelisierbarkeit, ermöglicht effiziente Berechnungen auf modernen Hardware-Beschleunigern und ermöglicht Skalierbarkeit auf größere Modelle.

Diese beiden Varianten, sLSTM und mLSTM, können in Residual-Block-Architekturen integriert werden, um leistungsstarke xLSTM-Blöcke zu bilden. Durch die residuale Stapelung dieser xLSTM-Blöcke können Forscher leistungsstarke xLSTM-Architekturen für spezifische Aufgaben und Anwendungsbereiche konstruieren.

Die Mathematik

Herkömmliches LSTM:

Die ursprüngliche LSTM-Architektur führte den konstanten Fehlerkarussell und Gating-Mechanismen ein, um das verschwindende Gradientenproblem in rekurrenten neuronalen Netzen zu überwinden.

Das wiederholte Modul in einem LSTM – Quelle

Die LSTM-Speicherzustands-Aktualisierungen werden durch die folgenden Gleichungen gesteuert:

Zellzustand-Aktualisierung: ct = ft ⊙ ct-1 + it ⊙ zt

Versteckter Zustand-Aktualisierung: ht = ot ⊙ tanh(ct)

Aayush Mittal

Ich habe die letzten fünf Jahre damit verbracht, mich in die faszinierende Welt des Machine Learning und Deep Learning zu vertiefen. Meine Leidenschaft und mein Fachwissen haben mich dazu geführt, an über 50 verschiedenen Software-Entwicklungsprojekten mitzuwirken, mit einem besonderen Fokus auf KI/ML. Meine anhaltende Neugier hat mich auch zum Natural Language Processing hingezogen, ein Feld, das ich weiter erforschen möchte.