Sztuczna inteligencja

xLSTM: Kompletny przewodnik po rozszerzonym długoterminowej pamięci

Published May 16, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Przez ponad dwie dekady, Sepp Hochreiter’s pionierska architektura Long Short-Term Memory (LSTM) była instrumentalna w licznych przełomach w głębokim uczeniu się i aplikacjach w świecie rzeczywistym. Od generowania języka naturalnego do napędzania systemów rozpoznawania mowy, LSTMs były siłą napędową za rewolucją AI.

Jednak nawet twórca LSTMs rozpoznał ich wrodzone ograniczenia, które uniemożliwiały im realizację ich pełnego potencjału. Wady takie jak brak możliwości rewizji przechowywanej informacji, ograniczone pojemności pamięci i brak równoległości otworzyły drogę do powstania modeli transformatorowych i innych, które przewyższyły LSTMs w bardziej złożonych zadaniach językowych.

Jednak w niedawnym rozwoju, Hochreiter i jego zespół w NXAI wprowadzili nową wersję o nazwie rozszerzony LSTM (xLSTM), który rozwiązuje te długotrwałe problemy. Przedstawiony w niedawnym artykule badawczym, xLSTM opiera się na podstawowych ideach, które sprawiły, że LSTMs były tak potężne, a jednocześnie pokonuje ich kluczowe słabości poprzez innowacje architektoniczne.

W sercu xLSTM znajdują się dwie nowe komponenty: bramka wykładnicza i struktury pamięci. Bramka wykładnicza pozwala na bardziej elastyczną kontrolę nad przepływem informacji, umożliwiając xLSTMs skutecznie rewizję decyzji wraz z nowym kontekstem. Tymczasem wprowadzenie macierzy pamięci znacznie zwiększa pojemność przechowywania w porównaniu z tradycyjnymi skalarnymi LSTMs.

Ale udoskonalenia nie kończą się tam. Wykorzystując techniki pożyczone z dużych modeli językowych, takich jak równoległość i resztowe stosowanie bloków, xLSTMs mogą wydajnie skalować do miliardów parametrów. Odblokowuje to ich potencjał do modelowania niezwykle długich sekwencji i okien kontekstowych – zdolność krytyczna dla złożonego zrozumienia języka.

Wpływ najnowszej kreacji Hochreitera jest monumentalny. Wyobraź sobie wirtualnych asystentów, które mogą niezawodnie śledzić kontekst podczas godzinnych rozmów. Albo modele językowe, które generalizują się bardziej solidnie do nowych dziedzin po szkoleniu na szerokich danych. Aplikacje rozciągają się wszędzie, gdzie LSTMs miały wpływ – chatboty, tłumaczenia, interfejsy mowy, analiza programów i więcej – ale teraz z turbocharged zdolnościami xLSTM.

W tym głębokim technicznym przewodniku, będziemy zagłębiać się w szczegóły architektury xLSTM, oceniając jego nowe komponenty, takie jak skalarny i macierzowy LSTMs, mechanizmy bramki wykładniczej, struktury pamięci i więcej. Zdobędziesz wgląd w wyniki eksperymentalne, które pokazują imponujące zyski wydajności xLSTM nad architekturami na poziomie stanu, takimi jak transformator i najnowsze modele rekurencyjne.

Zrozumienie pochodzenia: Ograniczenia LSTMs

Przed zagłębieniem się w świat xLSTM, istotne jest zrozumienie ograniczeń, z którymi tradycyjne architektury LSTMs się mierzą. Ograniczenia te były siłą napędową za rozwojem xLSTM i innymi podejściami alternatywnymi.

Niezdolność do rewizji decyzji przechowywania: Jednym z podstawowych ograniczeń LSTMs jest ich trudność w rewizji przechowywanych wartości, gdy napotka się bardziej podobny wektor. Może to prowadzić do nieoptymalnej wydajności w zadaniach, które wymagają dynamicznych aktualizacji przechowywanej informacji.
Ograniczone pojemności pamięci: LSTMs kompresują informacje w skalarnych stanach komórek, co może ograniczać ich zdolność do efektywnego przechowywania i pobierania złożonych wzorców danych, szczególnie przy radzeniu sobie z rzadkimi tokenami lub dalekimi zależnościami.
Brak równoległości: Mechanizm mieszania pamięci w LSTMs, który obejmuje połączenia ukryte-ukryte między krokami czasowymi, wymusza przetwarzanie sekwencyjne, utrudniając równoległość obliczeń i ograniczając skalowalność.

Ograniczenia te otworzyły drogę do powstania transformatorów i innych architektur, które przewyższyły LSTMs w pewnych aspektach, szczególnie przy skalowaniu do większych modeli.

Architektura xLSTM

Extended LSTM (xLSTM) family

W sercu xLSTM leżą dwie główne modyfikacje tradycyjnej ramy LSTMs: bramka wykładnicza i nowe struktury pamięci. Udoskonalenia te wprowadzają dwie nowe wersje LSTMs, znane jako sLSTM (skalarny LSTM) i mLSTM (macierzowy LSTM).

sLSTM: Skalarny LSTM z bramką wykładniczą i mieszaniem pamięci
- Bramka wykładnicza: sLSTM wprowadza funkcje aktywacji wykładniczej dla bramek wejściowych i zapomnienia, umożliwiając bardziej elastyczną kontrolę nad przepływem informacji.
- Normalizacja i stabilizacja: Aby zapobiec niestabilności numerycznej, sLSTM wprowadza stan normalizujący, który śledzi iloczyn bramek wejściowych i przyszłych bramek zapomnienia.
- Mieszanie pamięci: sLSTM obsługuje wiele komórek pamięci i pozwala na mieszanie pamięci za pomocą połączeń rekurencyjnych, umożliwiając ekstrakcję złożonych wzorców i śledzenie stanu.
mLSTM: Macierzowy LSTM z zwiększonymi pojemnościami pamięci
- Pamięć macierzowa: Zamiast skalarnego stanu komórki, mLSTM wykorzystuje pamięć macierzową, zwiększając jej pojemność przechowywania i umożliwiając bardziej efektywne pobieranie informacji.
- Reguła aktualizacji kowariancji: mLSTM zatrudnia regułę aktualizacji kowariancji, zainspirowaną przez Bidirectional Associative Memories (BAMs), do efektywnego przechowywania i pobierania par klucz-wartość.
- Równoległość: Porzucenie mieszania pamięci pozwala mLSTM na pełną równoległość, umożliwiając wydajne obliczenia na nowoczesnych przyspieszaczach sprzętowych i umożliwiając skalowalność do większych modeli.

Te dwie wersje, sLSTM i mLSTM, mogą być zintegrowane z architekturą bloków resztowych, tworząc bloki xLSTM. Poprzez resztowe stosowanie tych bloków xLSTM, badacze mogą budować potężne architektury xLSTM dostosowane do konkretnych zadań i dziedzin aplikacji.

Matematyka

Tradycyjny LSTM:

Oryginalna architektura LSTMs wprowadziła karuzelę błędu stałego i mechanizmy bramkowe, aby pokonać problem znikającego gradientu w sieciach rekurencyjnych.

The repeating module in an LSTM – Source

Aktualizacje stanu komórki LSTMs są rządzone przez następujące równania:

Aktualizacja stanu komórki: ct = ft ⊙ ct-1 + it ⊙ zt

Aktualizacja stanu ukrytego: ht = ot ⊙ tanh(ct)

Gdzie:

jest stanem komórki wektorowej w czasie $t$
jest wektorem bramki zapomnienia
jest wektorem bramki wejściowej
jest wektorem bramki wyjściowej
jest wejściem modyfikowanym przez bramkę wejściową
reprezentuje mnożenie elementowe

Bramki ft, it i ot kontrolują, jakie informacje są przechowywane, zapomniane i wyjściowe ze stanu komórki ct, łagodząc problem znikającego gradientu.

xLSTM z bramką wykładniczą:

Architektura xLSTM wprowadza bramkę wykładniczą, aby umożliwić bardziej elastyczną kontrolę nad przepływem informacji. Dla wariantu skalarnego xLSTM (sLSTM):

Aktualizacja stanu komórki: ct = ft ⊙ ct-1 + it ⊙ zt

Aktualizacja stanu normalizującego: nt = ft ⊙ nt-1 + it

Aktualizacja stanu ukrytego: ht = ot ⊙ (ct / nt)

Bramki wejściowe i zapomnienia: it = exp(W_i xt + R_i ht-1 + b_i) ft = σ(W_f xt + R_f ht-1 + b_f) OR ft = exp(W_f xt + R_f ht-1 + b_f)

Funkcje aktywacji wykładniczej dla bramek wejściowych (it) i zapomnienia (ft), wraz ze stanem normalizującym nt, umożliwiają bardziej skuteczną kontrolę nad aktualizacjami pamięci i rewizją przechowywanej informacji.

xLSTM z pamięcią macierzową:

Dla wariantu macierzowego xLSTM (mLSTM) z zwiększonymi pojemnościami pamięci:

Aktualizacja stanu komórki: Ct = ft ⊙ Ct-1 + it ⊙ (vt kt^T)

Aktualizacja stanu normalizującego: nt = ft ⊙ nt-1 + it ⊙ kt

Aktualizacja stanu ukrytego: ht = ot ⊙ (Ct qt / max(qt^T nt, 1))

Gdzie:

jest stanem komórki macierzowej
i są wektorami wartości i klucza
jest wektorem zapytania używanym do pobierania

Te kluczowe równania podkreślają, jak xLSTM rozszerza oryginalną formułę LSTMs z bramką wykładniczą dla bardziej elastycznej kontroli nad przepływem informacji i pamięcią macierzową dla zwiększonych pojemności pamięci. Połączenie tych innowacji pozwala xLSTM na pokonanie ograniczeń tradycyjnych LSTMs.

Kluczowe funkcje i zalety xLSTM

Zdolność do rewizji decyzji przechowywania: Dzięki bramce wykładniczej, xLSTM może skutecznie rewizję przechowywanych wartości, gdy napotka się bardziej istotną informację, pokonując znaczące ograniczenie tradycyjnych LSTMs.
Zwiększone pojemności pamięci: Pamięć macierzowa w mLSTM zapewnia zwiększoną pojemność przechowywania, umożliwiając xLSTM radzenie sobie z rzadkimi tokenami, dalekimi zależnościami i złożonymi wzorcami danych w bardziej efektywny sposób.
Równoległość: Wariant mLSTM xLSTM jest w pełni równoległy, umożliwiając wydajne obliczenia na nowoczesnych przyspieszaczach sprzętowych, takich jak GPU, i umożliwiając skalowalność do większych modeli.
Mieszanie pamięci i śledzenie stanu: Wariant sLSTM xLSTM zachowuje zdolności mieszania pamięci tradycyjnych LSTMs, umożliwiając śledzenie stanu i czyniąc xLSTM bardziej wyrafinowanym niż transformator i modele przestrzeni stanu dla pewnych zadań.
Skalowalność: Wykorzystując najnowsze techniki z nowoczesnych dużych modeli językowych, xLSTM może być skalowany do miliardów parametrów, odblokowując nowe możliwości w modelowaniu języka i przetwarzaniu sekwencji.

Eksperymentalna ocena: Prezentacja możliwości xLSTM

Artykuł badawczy prezentuje kompleksową eksperymentalną ocenę xLSTM, podkreślając jego wydajność w różnych zadaniach i benchmarkach. Oto niektóre kluczowe wnioski:

Zadania syntetyczne i Long Range Arena:
- xLSTM wyróżnia się w rozwiązywaniu zadań językowych formalnych, które wymagają śledzenia stanu, przewyższając transformator, modele przestrzeni stanu i inne architektury RNN.
- W zadaniu Multi-Query Associative Recall, xLSTM demonstruje zwiększone pojemności pamięci, przewyższając nie-transformatorowe modele i rywalizując z wydajnością transformatorów.
- Na benchmarku Long Range Arena, xLSTM wykazuje spójną silną wydajność, prezentując swoją efektywność w radzeniu sobie z dalekimi zależnościami.
Modelowanie języka i zadania pochodne:
- Po przeszkoleniu na 15B tokenów z zestawu SlimPajama, xLSTM przewyższa istniejące metody, w tym transformator, modele przestrzeni stanu i inne warianty RNN, pod względem perplexity walidacyjnej.
- Gdy modele są skalowane do większych rozmiarów, xLSTM utrzymuje swoją przewagę wydajności, demonstrując korzystne zachowanie skalowania.
- W zadaniach pochodnych, takich jak rozumowanie zdroworozsądkowe i odpowiedzi na pytania, xLSTM wyróżnia się jako najlepsza metoda we wszystkich rozmiarach modeli, przewyższając podejścia na poziomie stanu.
Wydajność na zadaniach językowych PALOMA:
- Oceny na 571 domenach tekstowych z benchmarku PALOMA, xLSTM[1:0] (wariant sLSTM) osiąga niższe perplexity niż inne metody w 99,5% domen w porównaniu z Mamba, 85,1% w porównaniu z Llama i 99,8% w porównaniu z RWKV-4.
Prawa skalowania i ekstrapolacja długości:
- Po przeszkoleniu na 300B tokenów z SlimPajama, xLSTM wykazuje korzystne prawa skalowania, wskazując na potencjał dalszych popraw wydajności wraz ze zwiększaniem się rozmiaru modeli.
- W eksperymentach z ekstrapolacją długości sekwencji, modele xLSTM utrzymują niskie perplexity nawet dla kontekstów znacznie dłuższych niż te widziane podczas treningu, przewyższając inne metody.

Te wyniki eksperymentalne podkreślają imponujące możliwości xLSTM, pozycjonując go jako obiecującego kandydata do zadań modelowania języka, przetwarzania sekwencji i szerokiego zakresu innych aplikacji.

Aplikacje w świecie rzeczywistym i kierunki przyszłości

Potencjalne aplikacje xLSTM rozciągają się na szeroki zakres dziedzin, od przetwarzania języka naturalnego i generacji do modelowania sekwencji, analizy szeregów czasowych i poza. Oto niektóre ekscytujące obszary, gdzie xLSTM może mieć znaczący wpływ:

Modelowanie języka i generacja tekstu: Z zwiększonymi pojemnościami pamięci i zdolnością do rewizji przechowywanej informacji, xLSTM może rewolucjonizować zadania modelowania języka i generacji tekstu, umożliwiając bardziej spójny, kontekstowy i płynny tekst.
Tłumaczenie maszynowe: Zdolności śledzenia stanu xLSTM mogą okazać się niezwykle cenne w zadaniach tłumaczenia maszynowego, gdzie utrzymanie informacji kontekstowych i zrozumienie dalekich zależności jest kluczowe dla dokładnych tłumaczeń.
Rozpoznawanie i generacja mowy: Równoległość i skalowalność xLSTM sprawiają, że jest on dobrze przystosowany do aplikacji rozpoznawania i generacji mowy, gdzie efektywne przetwarzanie długich sekwencji jest niezbędne.
Analiza i prognozowanie szeregów czasowych: Zdolność xLSTM do radzenia sobie z dalekimi zależnościami i efektywnego przechowywania i pobierania złożonych wzorców może prowadzić do znaczących popraw w zadaniach analizy i prognozowania szeregów czasowych w różnych dziedzinach, takich jak finanse, prognozowanie pogody i aplikacje przemysłowe.
Uczenie się wzmocnione i systemy sterowania: Potencjał xLSTM w uczeniu się wzmocnionym i systemach sterowania jest obiecujący, ponieważ jego zwiększone zdolności pamięci i śledzenia stanu mogą umożliwić bardziej inteligentne podejmowanie decyzji i sterowanie w złożonych środowiskach.

Optymalizacje architektury i strojenie hiperparametrów

Chociaż obecne wyniki są obiecujące, istnieje jeszcze miejsce na optymalizację architektury xLSTM i dostrajanie jego hiperparametrów. Badacze mogą badać różne kombinacje bloków sLSTM i mLSTM, zmieniając ich proporcje i rozmieszczenie w ramach ogólnej architektury. Dodatkowo, systematyczne wyszukiwanie hiperparametrów może prowadzić do dalszych popraw wydajności, szczególnie dla większych modeli.

Optymalizacje sprzętowe: Aby w pełni wykorzystać równoległość xLSTM, szczególnie wariantu mLSTM, badacze mogą badać optymalizacje sprzętowe dostosowane do konkretnych architektur GPU lub innych przyspieszacji. Mogłoby to obejmować optymalizację jąder CUDA, strategie zarządzania pamięcią i wykorzystanie specjalnych instrukcji lub bibliotek do efektywnych operacji macierzowych.

Integracja z innymi komponentami sieci neuronowych: Badanie integracji xLSTM z innymi komponentami sieci neuronowych, takimi jak mechanizmy uwagi, konwolucje lub techniki samouczące, mogłoby prowadzić do hybrydowych architektur, które łączą zalety różnych podejść. Te hybrydowe modele mogłyby potencjalnie odblokować nowe możliwości i poprawić wydajność w szerszym zakresie zadań.

Uczenie się z niewielką ilością danych i transfer: Badanie zastosowania xLSTM w scenariuszach uczenia się z niewielką ilością danych i transferu mogłoby być ekscytującym kierunkiem przyszłych badań. Wykorzystując zwiększone zdolności pamięci i śledzenia stanu, xLSTM mógłby potencjalnie umożliwić bardziej efektywny transfer wiedzy i szybką adaptację do nowych zadań lub dziedzin z ograniczonymi danymi treningowymi.

Interpretowalność i wyjaśnialność: Jak w przypadku wielu modeli głębokiego uczenia się, wewnętrzne mechanizmy xLSTM mogą być nieprzezroczyste i trudne do zinterpretowania. Rozwój technik interpretacji i wyjaśniania decyzji podejmowanych przez xLSTM mógłby prowadzić do bardziej przejrzystych i godnych zaufania modeli, ułatwiając ich przyjęcie w krytycznych aplikacjach i promując odpowiedzialność.

Wygodne i skalowalne strategie treningu: Gdy modele rosną w rozmiarze i złożoności, wygodne i skalowalne strategie treningu stają się coraz ważniejsze. Badacze mogą badać techniki, takie jak modelowa równoległość, danych równoległość i rozproszone podejścia treningu, specjalnie dostosowane do architektur xLSTM, umożliwiając trening jeszcze większych modeli i potencjalnie redukując koszty obliczeniowe.

To są tylko niektóre potencjalne przyszłe kierunki badań i obszary do dalszego zbadania z xLSTM.

Podsumowanie

Wprowadzenie xLSTM stanowi znaczący kamień milowy w poszukiwaniu bardziej potężnych i efektywnych architektur modelowania języka i przetwarzania sekwencji. Poprzez rozwiązanie ograniczeń tradycyjnych LSTMs i wykorzystanie nowych technik, takich jak bramka wykładnicza i struktury pamięci macierzowej, xLSTM wykazał imponującą wydajność w szerokim zakresie zadań i benchmarków.

Jednakże, podróż nie kończy się tu. Jak w przypadku każdej przełomowej technologii, xLSTM prezentuje ekscytujące możliwości dalszego rozwoju, udoskonalenia i zastosowania w świecie rzeczywistym. Gdy badacze będą kontynuować poszerzanie granic tego, co jest możliwe, możemy spodziewać się świadków jeszcze bardziej imponujących postępów w dziedzinie przetwarzania języka naturalnego i sztucznej inteligencji.

Aayush Mittal

Spędziłem ostatnie pięć lat, zanurzając się w fascynującym świecie Machine Learning i Deep Learning. Moja pasja i ekspertyza doprowadziły mnie do udziału w ponad 50 różnych projektach inżynierii oprogramowania, ze szczególnym uwzględnieniem AI/ML. Moja nieustanna ciekawość również skierowała mnie w stronę Natural Language Processing, dziedziny, którą chcę bardziej zbadać.