Artificial Intelligence
xLSTM: kompleksowy przewodnik po rozszerzonej pamięci długoterminowej
![](https://www.unite.ai/wp-content/uploads/2024/05/DALL%C2%B7E-2024-05-16-11.31.26-A-futuristic-and-abstract-illustration-depicting-the-evolution-of-AI-models-from-traditional-LSTMs-to-xLSTMs.-Show-dynamic-flowing-representations-of-1.webp)
Zrozumienie pochodzenia: ograniczenia LSTM
Zanim zagłębimy się w świat xLSTM, konieczne jest zrozumienie ograniczeń, przed którymi stoją tradycyjne architektury LSTM. Ograniczenia te były siłą napędową rozwoju xLSTM i innych alternatywnych podejść.
- Brak możliwości zmiany decyzji dotyczących przechowywania: Jednym z głównych ograniczeń LSTM jest jego trudność w rewizji przechowywanych wartości w przypadku napotkania bardziej podobnego wektora. Może to prowadzić do nieoptymalnej wydajności zadań wymagających dynamicznych aktualizacji przechowywanych informacji.
- Ograniczona pojemność pamięci: LSTM kompresują informacje do skalarnych stanów komórek, co może ograniczać ich zdolność do skutecznego przechowywania i odzyskiwania złożonych wzorców danych, szczególnie w przypadku rzadkich tokenów lub zależności o dużym zasięgu.
- Brak Możliwość równoległości: Mechanizm mieszania pamięci w LSTM, który obejmuje ukryte-ukryte połączenia pomiędzy krokami czasowymi, wymusza przetwarzanie sekwencyjne, utrudniając równoległość obliczeń i ograniczając skalowalność.
Ograniczenia te utorowały drogę do pojawienia się transformatorów i innych architektur, które pod pewnymi względami przewyższały LSTM, szczególnie podczas skalowania do większych modeli.
Architektura xLSTM
U podstaw xLSTM leżą dwie główne modyfikacje tradycyjnego frameworka LSTM: bramkowanie wykładnicze i nowatorskie struktury pamięci. Te udoskonalenia wprowadzają dwa nowe warianty LSTM, znane jako sLSTM (skalarny LSTM) i mLSTM (macierzowy LSTM).
- sLSTM: Skalarny LSTM z bramkowaniem wykładniczym i mieszaniem pamięci
- Bramkowanie wykładnicze: sLSTM zawiera wykładnicze funkcje aktywacji bramek wprowadzania i zapominania, umożliwiając bardziej elastyczną kontrolę nad przepływem informacji.
- Normalizacja i stabilizacja: Aby zapobiec niestabilnościom liczbowym, sLSTM wprowadza stan normalizatora, który śledzi iloczyn bramek wejściowych i przyszłych bramek zapominania.
- Mieszanie pamięci: sLSTM obsługuje wiele komórek pamięci i umożliwia mieszanie pamięci poprzez połączenia rekurencyjne, umożliwiając wyodrębnianie złożonych wzorców i możliwości śledzenia stanu.
- mlLSTM: Matrix LSTM ze zwiększoną pojemnością pamięci
- Pamięć matrycy: Zamiast skalarnej komórki pamięci, mLSTM wykorzystuje pamięć matrycową, zwiększając jej pojemność i umożliwiając efektywniejsze wyszukiwanie informacji.
- Reguła aktualizacji kowariancji: mLSTM wykorzystuje regułę aktualizacji kowariancji, zainspirowaną dwukierunkowymi pamięciami asocjacyjnymi (BAM), w celu wydajnego przechowywania i odzyskiwania par klucz-wartość.
- Zrównoległość: Rezygnując z mieszania pamięci, mLSTM osiąga pełną możliwość równoległości, umożliwiając wydajne obliczenia na nowoczesnych akceleratorach sprzętowych.
Te dwa warianty, sLSTM i mLSTM, można zintegrować z resztkową architekturą blokową, tworząc bloki xLSTM. Układając resztkowo te bloki xLSTM, badacze mogą konstruować potężne architektury xLSTM dostosowane do konkretnych zadań i domen aplikacji.
Matematyka
Tradycyjny LSTM:
Oryginalna architektura LSTM wprowadziła karuzelę stałego błędu i mechanizmy bramkowania, aby przezwyciężyć problem zanikającego gradientu w rekurencyjnych sieciach neuronowych.
![Powtarzający się moduł w LSTM](https://www.unite.ai/wp-content/uploads/2024/05/LSTM.png)
Moduł powtarzalny w LSTM – Źródło
Aktualizacje komórek pamięci LSTM regulują następujące równania:
Aktualizacja stanu komórki: ct = ft ⊙ ct-1 + it ⊙ zt
Aktualizacja stanu ukrytego: ht = ot ⊙ tanh(ct)
Gdzie:
- 𝑐𝑡 jest wektorem stanu komórki w czasie 𝑡
- 𝑓𝑡 jest wektorem bramki zapominania
- 𝑖𝑡 jest wektorem bramki wejściowej
- 𝑜𝑡 jest wektorem bramki wyjściowej
- 𝑧𝑡 jest wejściem modulowanym przez bramkę wejściową
- ⊙ reprezentuje mnożenie elementarne
Bramki kontrolują, jakie informacje są przechowywane, zapominane i wysyłane ze stanu komórki ct, łagodząc problem zanikającego gradientu.
xLSTM z bramkowaniem wykładniczym:
Architektura xLSTM wprowadza bramkowanie wykładnicze, aby umożliwić bardziej elastyczną kontrolę nad przepływem informacji. Dla wariantu skalarnego xLSTM (sLSTM):
Aktualizacja stanu komórki: ct = ft ⊙ ct-1 + it ⊙ zt
Aktualizacja stanu normalizatora: nt = ft ⊙ nt-1 + it
Aktualizacja stanu ukrytego: ht = ot ⊙ (ct / nt)
Bramki wprowadzania i zapominania: it = exp(W_i xt + R_i ht-1 + b_i) ft = σ(W_f xt + R_f ht-1 + b_f) OR ft = exp(W_f xt + R_f ht-1 + b_f)
Wykładnicze funkcje aktywacji bramek wejściowych (it) i bramek zapominania (ft) wraz ze stanem normalizatora nt umożliwiają bardziej efektywną kontrolę nad aktualizacjami pamięci i weryfikację przechowywanych informacji.
Kluczowe cechy i zalety xLSTM
- Możliwość zmiany decyzji dotyczących przechowywania: Dzięki bramkowaniu wykładniczemu xLSTM może skutecznie weryfikować zapisane wartości w przypadku napotkania bardziej istotnych informacji, przezwyciężając znaczące ograniczenia tradycyjnych LSTM.
- Zwiększona pojemność pamięci masowej: Pamięć matrycowa w mLSTM zapewnia zwiększoną pojemność, umożliwiając xLSTM skuteczniejszą obsługę rzadkich tokenów, zależności dalekiego zasięgu i złożonych wzorców danych.
- Zrównoległość: Wariant mLSTM xLSTM jest w pełni zrównoleglony, co pozwala na wydajne obliczenia na nowoczesnych akceleratorach sprzętowych, takich jak procesory graficzne, i umożliwia skalowalność do większych modeli.
- Mieszanie pamięci i śledzenie stanu: Wariant sLSTM xLSTM zachowuje możliwości mieszania pamięci tradycyjnych LSTM, umożliwiając śledzenie stanu i czyniąc xLSTM bardziej wyrazistym niż transformatory i modele przestrzeni stanów w przypadku niektórych zadań.
- Skalowalność: Wykorzystując najnowsze techniki nowoczesnych modeli dużych języków (LLM), xLSTM można skalować do miliardów parametrów, odblokowując nowe możliwości w modelowaniu języka i zadaniach przetwarzania sekwencji.
Ocena eksperymentalna: prezentacja możliwości xLSTM
Artykuł badawczy przedstawia kompleksową ocenę eksperymentalną xLSTM, podkreślając jego wydajność w różnych zadaniach i testach porównawczych. Oto kilka kluczowych wniosków:
- Zadania syntetyczne i arena dalekiego zasięgu:
- xLSTM przoduje w rozwiązywaniu formalnych zadań językowych, które wymagają śledzenia stanu, przewyższając wydajnością Transformers, Modele Przestrzeni Stanu i inne architektury RNN.
- W zadaniu Multi-Query Asociative Recall xLSTM wykazuje zwiększoną pojemność pamięci, przewyższającą modele inne niż Transformer i dorównującą wydajnością Transformersom.
- W teście porównawczym Long Range Arena xLSTM wykazuje niezmiennie wysoką wydajność, co świadczy o jego skuteczności w rozwiązywaniu problemów o długim kontekście.
- Modelowanie języka i dalsze zadania:
- Po szkoleniu na tokenach 15B ze zbioru danych SlimPajama, xLSTM przewyższa istniejące metody, w tym Transformers, modele przestrzeni stanów i inne warianty RNN, pod względem trudności w weryfikacji.
- W miarę skalowania modeli do większych rozmiarów, xLSTM w dalszym ciągu utrzymuje swoją przewagę wydajnościową, wykazując korzystne zachowanie przy skalowaniu.
- W dalszych zadaniach, takich jak rozumowanie zdroworozsądkowe i odpowiadanie na pytania, xLSTM okazuje się najlepszą metodą w przypadku modeli o różnej wielkości, przewyższającą najnowocześniejsze podejścia.
- Wydajność w zadaniach językowych PALOMA:
- Oceniony na 571 domenach tekstowych w teście językowym PALOMA, xLSTM[1:0] (wariant sLSTM) zapewnia mniej trudności niż inne metody w 99.5% domen w porównaniu z Mambą, 85.1% w porównaniu z Lamą i 99.8% w porównaniu z RWKV -4.
- Prawa skalowania i ekstrapolacja długości:
- Trenowany na tokenach 300B firmy SlimPajama, xLSTM wykazuje korzystne prawa skalowania, co wskazuje na jego potencjał dalszej poprawy wydajności w miarę wzrostu rozmiarów modelu.
- W eksperymentach z ekstrapolacją długości sekwencji modele xLSTM charakteryzują się niskim poziomem złożoności nawet w przypadku kontekstów znacznie dłuższych niż te obserwowane podczas szkolenia, co przewyższa inne metody.
Te wyniki eksperymentów podkreślają niezwykłe możliwości xLSTM, pozycjonując go jako obiecującego pretendenta do zadań modelowania języka, przetwarzania sekwencji i szerokiej gamy innych zastosowań.
Zastosowania w świecie rzeczywistym i przyszłe kierunki
Potencjalne zastosowania xLSTM obejmują szeroki zakres dziedzin, od przetwarzania i generowania języka naturalnego po modelowanie sekwencji, analizę szeregów czasowych i nie tylko. Oto kilka ekscytujących obszarów, w których xLSTM może wywrzeć znaczący wpływ:
- Modelowanie języka i generowanie tekstu: Dzięki zwiększonej pojemności przechowywania i możliwości sprawdzania przechowywanych informacji, xLSTM może zrewolucjonizować zadania modelowania języka i generowania tekstu, umożliwiając bardziej spójne, kontekstowe i płynne generowanie tekstu.
- Tłumaczenie maszynowe: Możliwości śledzenia stanu xLSTM mogą okazać się nieocenione w zadaniach tłumaczenia maszynowego, gdzie zachowanie informacji kontekstowych i zrozumienie zależności dalekiego zasięgu ma kluczowe znaczenie dla dokładnych tłumaczeń.
- Rozpoznawanie i generowanie mowy: Możliwość pracy równoległej i skalowalność xLSTM sprawia, że doskonale nadaje się do zastosowań związanych z rozpoznawaniem i generowaniem mowy, gdzie istotne jest wydajne przetwarzanie długich sekwencji.
- Analiza i prognozowanie szeregów czasowych: Zdolność xLSTM do obsługi zależności dalekiego zasięgu oraz efektywnego przechowywania i wyszukiwania złożonych wzorców może prowadzić do znacznych usprawnień w analizie szeregów czasowych i zadaniach prognozowania w różnych dziedzinach, takich jak finanse, prognozowanie pogody i zastosowania przemysłowe.
- Systemy uczenia się i kontroli ze wzmocnieniem: Potencjał xLSTM w systemach uczenia się i kontroli przez wzmacnianie jest obiecujący, ponieważ jego ulepszone możliwości pamięci i możliwości śledzenia stanu mogą umożliwić bardziej inteligentne podejmowanie decyzji i kontrolę w złożonych środowiskach.
![](https://www.unite.ai/wp-content/uploads/2022/10/join-the-future-newsletter.png)
![](https://www.unite.ai/wp-content/uploads/2024/01/Unite-AI-Mobile-Newsletter-1.png)