Künstliche Intelligenz
xLSTM: Ein umfassender Leitfaden zu erweiterten Long Short-Term Memory
Verständnis der Ursprünge: Die Einschränkungen von LSTM
Bevor wir in die Welt von xLSTM eintauchen, ist es wichtig, die Einschränkungen zu verstehen, mit denen herkömmliche LSTM-Architekturen konfrontiert sind. Diese Einschränkungen sind der treibende Faktor hinter der Entwicklung von xLSTM und anderen alternativen Ansätzen.
- Unfähigkeit, Speicherentscheidungen zu überarbeiten: Eine der primären Einschränkungen von LSTM ist ihr Kampf, gespeicherte Werte zu überarbeiten, wenn ein ähnlicherer Vektor auftritt. Dies kann zu suboptimalen Leistungen bei Aufgaben führen, die dynamische Updates von gespeicherten Informationen erfordern.
- Begrenzte Speicherkapazitäten: LSTMs komprimieren Informationen in skalare Zellzustände, was ihre Fähigkeit, komplexe Datenmuster effektiv zu speichern und abzurufen, einschränken kann, insbesondere wenn es um seltene Token oder lange Abhängigkeiten geht.
- Mangel an Parallelisierbarkeit: Der Speichermischmechanismus in LSTMs, der Hidden-Hidden-Verbindungen zwischen Zeitpunkten umfasst, erzwingt sequenzielle Verarbeitung und behindert die Parallelisierung von Berechnungen, was die Skalierbarkeit einschränkt.
Diese Einschränkungen haben den Weg für den Aufstieg von Transformern und anderen Architekturen geebnet, die LSTMs in bestimmten Aspekten, insbesondere bei der Skalierung auf größere Modelle, überboten haben.
Die xLSTM-Architektur
Im Kern von xLSTM liegen zwei Hauptmodifikationen der herkömmlichen LSTM-Rahmenarbeit: exponentielles Gating und neuartige Speicherstrukturen. Diese Verbesserungen führen zwei neue Varianten von LSTM ein, bekannt als sLSTM (skalares LSTM) und mLSTM (Matrix-LSTM).
- sLSTM: Das skalare LSTM mit exponentiellem Gating und Speichermischung
- Exponentielles Gating: sLSTM integriert exponentielle Aktivierungsfunktionen für Eingangs- und Vergessensgates, ermöglicht eine flexiblere Kontrolle über den Informationsfluss.
- Normalisierung und Stabilisierung: Um numerische Instabilitäten zu vermeiden, führt sLSTM einen Normalisierungszustand ein, der das Produkt der Eingangsgates und zukünftigen Vergessensgates verfolgt.
- Speichermischung: sLSTM unterstützt mehrere Speicherzellen und ermöglicht Speichermischung über rekurrente Verbindungen, wodurch die Extraktion komplexer Muster und Zustandsverfolgungsfähigkeiten ermöglicht wird.
- mLSTM: Das Matrix-LSTM mit erweiterten Speicherkapazitäten
- Matrixspeicher: Anstelle eines skalaren Speicherzustands verwendet mLSTM einen Matrixspeicher, der seine Speicherkapazität erhöht und eine effizientere Abrufung von Informationen ermöglicht.
- Kovarianz-Aktualisierungsregel: mLSTM verwendet eine Kovarianz-Aktualisierungsregel, inspiriert von bidirektionalen assoziativen Speichern (BAMs), um Schlüssel-Wert-Paare effizient zu speichern und abzurufen.
- Parallelisierbarkeit: Durch die Aufgabe der Speichermischung erreicht mLSTM eine vollständige Parallelisierbarkeit, ermöglicht effiziente Berechnungen auf modernen Hardware-Beschleunigern und ermöglicht Skalierbarkeit auf größere Modelle.
Diese beiden Varianten, sLSTM und mLSTM, können in Residual-Block-Architekturen integriert werden, um leistungsstarke xLSTM-Blöcke zu bilden. Durch die residuale Stapelung dieser xLSTM-Blöcke können Forscher leistungsstarke xLSTM-Architekturen für spezifische Aufgaben und Anwendungsbereiche konstruieren.
Die Mathematik
Herkömmliches LSTM:
Die ursprüngliche LSTM-Architektur führte den konstanten Fehlerkarussell und Gating-Mechanismen ein, um das verschwindende Gradientenproblem in rekurrenten neuronalen Netzen zu überwinden.

Das wiederholte Modul in einem LSTM – Quelle
Die LSTM-Speicherzustands-Aktualisierungen werden durch die folgenden Gleichungen gesteuert:
Zellzustand-Aktualisierung: ct = ft ⊙ ct-1 + it ⊙ zt
Versteckter Zustand-Aktualisierung: ht = ot ⊙ tanh(ct)













