Artificial Intelligence

xLSTM: kompleksowy przewodnik po rozszerzonej pamięci długoterminowej

Zaktualizowano on 16 maja 2024 r.

Przez ponad dwie dekady Seppa Hochreitera pionierskość Długotrwała pamięć (LSTM) Architektura odegrała kluczową rolę w licznych przełomowych rozwiązaniach związanych z głębokim uczeniem się i zastosowaniami w świecie rzeczywistym. Od generowania języka naturalnego po zasilanie systemów rozpoznawania mowy, LSTM są siłą napędową rewolucji AI.

Jednak nawet twórca LSTM dostrzegł ich nieodłączne ograniczenia, które uniemożliwiały im wykorzystanie pełnego potencjału. Wady, takie jak niemożność sprawdzenia przechowywanych informacji, ograniczona pojemność pamięci i brak równoległości, utorowały drogę do powstania modeli transformatorowych i innych, które przewyższyły LSTM w przypadku bardziej złożonych zadań językowych.

Jednak w ramach niedawnego rozwoju Hochreiter i jego zespół ds NXAI wprowadzili nowy wariant tzw rozszerzony LSTM (xLSTM) która rozwiązuje te długotrwałe problemy. Zaprezentowany w niedawnym artykule badawczym xLSTM opiera się na podstawowych pomysłach, które uczyniły LSTM tak potężnymi, jednocześnie pokonując ich kluczowe słabości dzięki innowacjom architektonicznym.

U podstaw xLSTM leżą dwa nowatorskie komponenty: bramkowanie wykładnicze i ulepszone struktury pamięci. Bramkowanie wykładnicze pozwala na bardziej elastyczną kontrolę nad przepływem informacji, umożliwiając xLSTM skuteczną rewizję decyzji w miarę napotkania nowego kontekstu. Tymczasem wprowadzenie pamięci matrycowej znacznie zwiększa pojemność pamięci w porównaniu z tradycyjnymi skalarnymi LSTM.

Ale na tym ulepszenia się nie kończą. Wykorzystując techniki zapożyczone z dużych modeli językowych, takie jak możliwość równoległości i resztkowe układanie bloków, xLSTM mogą skutecznie skalować do miliardów parametrów. Uwalnia to ich potencjał w zakresie modelowania niezwykle długich sekwencji i okien kontekstowych – jest to zdolność kluczowa dla zrozumienia złożonego języka.

Implikacje najnowszego dzieła Hochreitera są monumentalne. Wyobraź sobie wirtualnych asystentów, którzy mogą niezawodnie śledzić kontekst podczas wielogodzinnych rozmów. Lub modele językowe, które po treningu na szerokich danych skuteczniej generalizują na nowe domeny. Zastosowania obejmują wszędzie tam, gdzie LSTM wywarło wpływ – chatboty, tłumaczenia, interfejsy głosowe, analiza programów i nie tylko – ale teraz są wzmocnione przełomowymi możliwościami xLSTM.

W tym szczegółowym przewodniku technicznym zagłębimy się w ArchitectDetailsOf xLSTM, oceniając jego nowatorskie komponenty, takie jak skalarne i macierzowe LSTM, mechanizmy bramkowania wykładniczego, struktury pamięci i inne. Zdobędziesz wiedzę na podstawie wyników eksperymentów prezentujących imponujący wzrost wydajności xLSTM w porównaniu z najnowocześniejszymi architekturami, takimi jak transformatory i najnowsze modele cykliczne.

Zrozumienie pochodzenia: ograniczenia LSTM

Zanim zagłębimy się w świat xLSTM, konieczne jest zrozumienie ograniczeń, przed którymi stoją tradycyjne architektury LSTM. Ograniczenia te były siłą napędową rozwoju xLSTM i innych alternatywnych podejść.

Brak możliwości zmiany decyzji dotyczących przechowywania: Jednym z głównych ograniczeń LSTM jest jego trudność w rewizji przechowywanych wartości w przypadku napotkania bardziej podobnego wektora. Może to prowadzić do nieoptymalnej wydajności zadań wymagających dynamicznych aktualizacji przechowywanych informacji.
Ograniczona pojemność pamięci: LSTM kompresują informacje do skalarnych stanów komórek, co może ograniczać ich zdolność do skutecznego przechowywania i odzyskiwania złożonych wzorców danych, szczególnie w przypadku rzadkich tokenów lub zależności o dużym zasięgu.
Brak Możliwość równoległości: Mechanizm mieszania pamięci w LSTM, który obejmuje ukryte-ukryte połączenia pomiędzy krokami czasowymi, wymusza przetwarzanie sekwencyjne, utrudniając równoległość obliczeń i ograniczając skalowalność.

Ograniczenia te utorowały drogę do pojawienia się transformatorów i innych architektur, które pod pewnymi względami przewyższały LSTM, szczególnie podczas skalowania do większych modeli.

Architektura xLSTM

Rozszerzona rodzina LSTM (xLSTM).

U podstaw xLSTM leżą dwie główne modyfikacje tradycyjnego frameworka LSTM: bramkowanie wykładnicze i nowatorskie struktury pamięci. Te udoskonalenia wprowadzają dwa nowe warianty LSTM, znane jako sLSTM (skalarny LSTM) i mLSTM (macierzowy LSTM).

sLSTM: Skalarny LSTM z bramkowaniem wykładniczym i mieszaniem pamięci
- Bramkowanie wykładnicze: sLSTM zawiera wykładnicze funkcje aktywacji bramek wprowadzania i zapominania, umożliwiając bardziej elastyczną kontrolę nad przepływem informacji.
- Normalizacja i stabilizacja: Aby zapobiec niestabilnościom liczbowym, sLSTM wprowadza stan normalizatora, który śledzi iloczyn bramek wejściowych i przyszłych bramek zapominania.
- Mieszanie pamięci: sLSTM obsługuje wiele komórek pamięci i umożliwia mieszanie pamięci poprzez połączenia rekurencyjne, umożliwiając wyodrębnianie złożonych wzorców i możliwości śledzenia stanu.
mlLSTM: Matrix LSTM ze zwiększoną pojemnością pamięci
- Pamięć matrycy: Zamiast skalarnej komórki pamięci, mLSTM wykorzystuje pamięć matrycową, zwiększając jej pojemność i umożliwiając efektywniejsze wyszukiwanie informacji.
- Reguła aktualizacji kowariancji: mLSTM wykorzystuje regułę aktualizacji kowariancji, zainspirowaną dwukierunkowymi pamięciami asocjacyjnymi (BAM), w celu wydajnego przechowywania i odzyskiwania par klucz-wartość.
- Zrównoległość: Rezygnując z mieszania pamięci, mLSTM osiąga pełną możliwość równoległości, umożliwiając wydajne obliczenia na nowoczesnych akceleratorach sprzętowych.

Te dwa warianty, sLSTM i mLSTM, można zintegrować z resztkową architekturą blokową, tworząc bloki xLSTM. Układając resztkowo te bloki xLSTM, badacze mogą konstruować potężne architektury xLSTM dostosowane do konkretnych zadań i domen aplikacji.

Matematyka

Tradycyjny LSTM:

Oryginalna architektura LSTM wprowadziła karuzelę stałego błędu i mechanizmy bramkowania, aby przezwyciężyć problem zanikającego gradientu w rekurencyjnych sieciach neuronowych.

Moduł powtarzalny w LSTM – Źródło

Aktualizacje komórek pamięci LSTM regulują następujące równania:

Aktualizacja stanu komórki: ct = ft ⊙ ct-1 + it ⊙ zt

Aktualizacja stanu ukrytego: ht = ot ⊙ tanh(ct)

Gdzie:

jest wektorem stanu komórki w czasie $t$
jest wektorem bramki zapominania
jest wektorem bramki wejściowej
jest wektorem bramki wyjściowej
jest wejściem modulowanym przez bramkę wejściową
reprezentuje mnożenie elementarne

Bramki kontrolują, jakie informacje są przechowywane, zapominane i wysyłane ze stanu komórki ct, łagodząc problem zanikającego gradientu.

xLSTM z bramkowaniem wykładniczym:

Architektura xLSTM wprowadza bramkowanie wykładnicze, aby umożliwić bardziej elastyczną kontrolę nad przepływem informacji. Dla wariantu skalarnego xLSTM (sLSTM):

Aktualizacja stanu komórki: ct = ft ⊙ ct-1 + it ⊙ zt

Aktualizacja stanu normalizatora: nt = ft ⊙ nt-1 + it

Aktualizacja stanu ukrytego: ht = ot ⊙ (ct / nt)

Bramki wprowadzania i zapominania: it = exp(W_i xt + R_i ht-1 + b_i) ft = σ(W_f xt + R_f ht-1 + b_f) OR ft = exp(W_f xt + R_f ht-1 + b_f)

Wykładnicze funkcje aktywacji bramek wejściowych (it) i bramek zapominania (ft) wraz ze stanem normalizatora nt umożliwiają bardziej efektywną kontrolę nad aktualizacjami pamięci i weryfikację przechowywanych informacji.

xLSTM z pamięcią matrycy:

Dla wariantu matrix xLSTM (mLSTM) o zwiększonej pojemności:

Aktualizacja stanu komórki: Ct = ft ⊙ Ct-1 + it ⊙ (vt kt^T)

Aktualizacja stanu normalizatora: nt = ft ⊙ nt-1 + it ⊙ kt

Aktualizacja stanu ukrytego: ht = ot ⊙ (Ct qt / max(qt^T nt, 1))

Gdzie:

jest stanem komórki macierzy
i to wektory wartości i klucza
jest wektorem zapytania używanym do pobierania

Te kluczowe równania podkreślają, w jaki sposób xLSTM rozszerza oryginalną formułę LSTM o bramkowanie wykładnicze w celu zapewnienia bardziej elastycznej kontroli pamięci i pamięci matrycowej w celu zwiększenia możliwości przechowywania. Połączenie tych innowacji pozwala xLSTM pokonać ograniczenia tradycyjnych LSTM.

Kluczowe cechy i zalety xLSTM

Możliwość zmiany decyzji dotyczących przechowywania: Dzięki bramkowaniu wykładniczemu xLSTM może skutecznie weryfikować zapisane wartości w przypadku napotkania bardziej istotnych informacji, przezwyciężając znaczące ograniczenia tradycyjnych LSTM.
Zwiększona pojemność pamięci masowej: Pamięć matrycowa w mLSTM zapewnia zwiększoną pojemność, umożliwiając xLSTM skuteczniejszą obsługę rzadkich tokenów, zależności dalekiego zasięgu i złożonych wzorców danych.
Zrównoległość: Wariant mLSTM xLSTM jest w pełni zrównoleglony, co pozwala na wydajne obliczenia na nowoczesnych akceleratorach sprzętowych, takich jak procesory graficzne, i umożliwia skalowalność do większych modeli.
Mieszanie pamięci i śledzenie stanu: Wariant sLSTM xLSTM zachowuje możliwości mieszania pamięci tradycyjnych LSTM, umożliwiając śledzenie stanu i czyniąc xLSTM bardziej wyrazistym niż transformatory i modele przestrzeni stanów w przypadku niektórych zadań.
Skalowalność: Wykorzystując najnowsze techniki nowoczesnych modeli dużych języków (LLM), xLSTM można skalować do miliardów parametrów, odblokowując nowe możliwości w modelowaniu języka i zadaniach przetwarzania sekwencji.

Ocena eksperymentalna: prezentacja możliwości xLSTM

Artykuł badawczy przedstawia kompleksową ocenę eksperymentalną xLSTM, podkreślając jego wydajność w różnych zadaniach i testach porównawczych. Oto kilka kluczowych wniosków:

Zadania syntetyczne i arena dalekiego zasięgu:
- xLSTM przoduje w rozwiązywaniu formalnych zadań językowych, które wymagają śledzenia stanu, przewyższając wydajnością Transformers, Modele Przestrzeni Stanu i inne architektury RNN.
- W zadaniu Multi-Query Asociative Recall xLSTM wykazuje zwiększoną pojemność pamięci, przewyższającą modele inne niż Transformer i dorównującą wydajnością Transformersom.
- W teście porównawczym Long Range Arena xLSTM wykazuje niezmiennie wysoką wydajność, co świadczy o jego skuteczności w rozwiązywaniu problemów o długim kontekście.
Modelowanie języka i dalsze zadania:
- Po szkoleniu na tokenach 15B ze zbioru danych SlimPajama, xLSTM przewyższa istniejące metody, w tym Transformers, modele przestrzeni stanów i inne warianty RNN, pod względem trudności w weryfikacji.
- W miarę skalowania modeli do większych rozmiarów, xLSTM w dalszym ciągu utrzymuje swoją przewagę wydajnościową, wykazując korzystne zachowanie przy skalowaniu.
- W dalszych zadaniach, takich jak rozumowanie zdroworozsądkowe i odpowiadanie na pytania, xLSTM okazuje się najlepszą metodą w przypadku modeli o różnej wielkości, przewyższającą najnowocześniejsze podejścia.
Wydajność w zadaniach językowych PALOMA:
- Oceniony na 571 domenach tekstowych w teście językowym PALOMA, xLSTM[1:0] (wariant sLSTM) zapewnia mniej trudności niż inne metody w 99.5% domen w porównaniu z Mambą, 85.1% w porównaniu z Lamą i 99.8% w porównaniu z RWKV -4.
Prawa skalowania i ekstrapolacja długości:
- Trenowany na tokenach 300B firmy SlimPajama, xLSTM wykazuje korzystne prawa skalowania, co wskazuje na jego potencjał dalszej poprawy wydajności w miarę wzrostu rozmiarów modelu.
- W eksperymentach z ekstrapolacją długości sekwencji modele xLSTM charakteryzują się niskim poziomem złożoności nawet w przypadku kontekstów znacznie dłuższych niż te obserwowane podczas szkolenia, co przewyższa inne metody.

Te wyniki eksperymentów podkreślają niezwykłe możliwości xLSTM, pozycjonując go jako obiecującego pretendenta do zadań modelowania języka, przetwarzania sekwencji i szerokiej gamy innych zastosowań.

Zastosowania w świecie rzeczywistym i przyszłe kierunki

Potencjalne zastosowania xLSTM obejmują szeroki zakres dziedzin, od przetwarzania i generowania języka naturalnego po modelowanie sekwencji, analizę szeregów czasowych i nie tylko. Oto kilka ekscytujących obszarów, w których xLSTM może wywrzeć znaczący wpływ:

Modelowanie języka i generowanie tekstu: Dzięki zwiększonej pojemności przechowywania i możliwości sprawdzania przechowywanych informacji, xLSTM może zrewolucjonizować zadania modelowania języka i generowania tekstu, umożliwiając bardziej spójne, kontekstowe i płynne generowanie tekstu.
Tłumaczenie maszynowe: Możliwości śledzenia stanu xLSTM mogą okazać się nieocenione w zadaniach tłumaczenia maszynowego, gdzie zachowanie informacji kontekstowych i zrozumienie zależności dalekiego zasięgu ma kluczowe znaczenie dla dokładnych tłumaczeń.
Rozpoznawanie i generowanie mowy: Możliwość pracy równoległej i skalowalność xLSTM sprawia, że doskonale nadaje się do zastosowań związanych z rozpoznawaniem i generowaniem mowy, gdzie istotne jest wydajne przetwarzanie długich sekwencji.
Analiza i prognozowanie szeregów czasowych: Zdolność xLSTM do obsługi zależności dalekiego zasięgu oraz efektywnego przechowywania i wyszukiwania złożonych wzorców może prowadzić do znacznych usprawnień w analizie szeregów czasowych i zadaniach prognozowania w różnych dziedzinach, takich jak finanse, prognozowanie pogody i zastosowania przemysłowe.
Systemy uczenia się i kontroli ze wzmocnieniem: Potencjał xLSTM w systemach uczenia się i kontroli przez wzmacnianie jest obiecujący, ponieważ jego ulepszone możliwości pamięci i możliwości śledzenia stanu mogą umożliwić bardziej inteligentne podejmowanie decyzji i kontrolę w złożonych środowiskach.

Optymalizacje architektoniczne i dostrajanie hiperparametrów

Chociaż obecne wyniki są obiecujące, nadal pozostaje miejsce na optymalizację architektury xLSTM i dostrojenie jej hiperparametrów. Naukowcy mogą badać różne kombinacje bloków sLSTM i mLSTM, zmieniając proporcje i rozmieszczenie w całej architekturze. Ponadto systematyczne wyszukiwanie hiperparametrów może prowadzić do dalszej poprawy wydajności, szczególnie w przypadku większych modeli.

Optymalizacje uwzględniające sprzęt: Aby w pełni wykorzystać możliwość równoległego działania xLSTM, zwłaszcza wariantu mLSTM, badacze mogliby zbadać optymalizacje uwzględniające sprzęt, dostosowane do określonych architektur GPU lub innych akceleratorów. Może to obejmować optymalizację jądra CUDA, strategie zarządzania pamięcią i wykorzystanie specjalistycznych instrukcji lub bibliotek w celu wydajnego działania na macierzach.

Integracja z innymi komponentami sieci neuronowej: Badanie integracji xLSTM z innymi komponentami sieci neuronowej, takimi jak mechanizmy uwagi, sploty lub techniki samonadzorowanego uczenia się, może prowadzić do architektur hybrydowych, które łączą mocne strony różnych podejść. Te modele hybrydowe mogą potencjalnie odblokować nowe możliwości i poprawić wydajność szerszego zakresu zadań.

Nauka „Few-Shot” i transferu: Zbadanie zastosowania xLSTM w scenariuszach uczenia się metodą kilku strzałów i transferu może być ekscytującym kierunkiem przyszłych badań. Wykorzystując ulepszone możliwości pamięci i możliwości śledzenia stanu, xLSTM może potencjalnie umożliwić bardziej efektywny transfer wiedzy i szybką adaptację do nowych zadań lub dziedzin przy ograniczonych danych szkoleniowych.

Interpretowalność i wyjaśnialność: Podobnie jak w przypadku wielu modeli głębokiego uczenia się, wewnętrzne działanie xLSTM może być nieprzejrzyste i trudne do interpretacji. Opracowanie technik interpretacji i wyjaśniania decyzji podejmowanych przez xLSTM może prowadzić do powstania bardziej przejrzystych i godnych zaufania modeli, ułatwiając ich przyjęcie w krytycznych zastosowaniach i promując odpowiedzialność.

Efektywne i skalowalne strategie szkoleniowe: W miarę zwiększania się rozmiaru i złożoności modeli, coraz ważniejsze stają się wydajne i skalowalne strategie szkoleniowe. Badacze mogliby zbadać techniki, takie jak równoległość modeli, równoległość danych i rozproszone podejścia szkoleniowe specjalnie dostosowane do architektur xLSTM, umożliwiające szkolenie jeszcze większych modeli i potencjalnie zmniejszające koszty obliczeniowe.

Oto kilka potencjalnych przyszłych kierunków badań i obszarów do dalszych badań z wykorzystaniem xLSTM.

Wnioski

Wprowadzenie xLSTM stanowi znaczący kamień milowy w dążeniu do wydajniejszego i wydajniejszego modelowania języka i architektur przetwarzania sekwencji. Pokonując ograniczenia tradycyjnych LSTM i wykorzystując nowatorskie techniki, takie jak bramkowanie wykładnicze i macierzowe struktury pamięci, xLSTM wykazał niezwykłą wydajność w szerokim zakresie zadań i testów porównawczych.

Jednak podróż nie kończy się tutaj. Jak każda przełomowa technologia, xLSTM oferuje ekscytujące możliwości dalszych badań, udoskonalania i stosowania w rzeczywistych scenariuszach. W miarę jak badacze w dalszym ciągu przesuwają granice tego, co jest możliwe, możemy spodziewać się jeszcze bardziej imponujących postępów w dziedzinie przetwarzania języka naturalnego i sztucznej inteligencji.

W przyszłym

Reddit współpracuje z OpenAI, aby zapewnić funkcje oparte na sztucznej inteligencji

Nie przegap

Czy sztuczna inteligencja może interpretować sny?

Aayush Mittal

Ostatnie pięć lat spędziłem zanurzając się w fascynującym świecie uczenia maszynowego i głębokiego uczenia się. Moja pasja i wiedza sprawiły, że uczestniczyłem w ponad 50 różnorodnych projektach z zakresu inżynierii oprogramowania, ze szczególnym uwzględnieniem AI/ML. Moja ciągła ciekawość przyciągnęła mnie również w stronę przetwarzania języka naturalnego – dziedziny, którą chcę dalej zgłębiać.