Искусственный интеллект
xLSTM: Комплексное руководство по расширенной долгосрочной краткосрочной памяти
Понимание происхождения: ограничения LSTM
Прежде чем мы погрузимся в мир xLSTM, важно понять ограничения, с которыми традиционные архитектуры LSTM сталкивались. Эти ограничения были движущей силой за разработкой xLSTM и других альтернативных подходов.
- Невозможность пересмотреть решения хранения: Одним из основных ограничений LSTM является его борьба с пересмотром сохраненных значений, когда встречается более похожий вектор. Это может привести к неоптимальной производительности в задачах, которые требуют динамического обновления сохраненной информации.
- Ограниченные емкости хранения: LSTM сжимает информацию в скалярные состояния ячеек, что может ограничить их способность эффективно хранить и извлекать сложные закономерности данных, особенно при работе с редкими токенами или длинными диапазонами зависимостей.
- Отсутствие параллелизации: Механизм смешивания памяти в LSTM, который включает скрытые-скрытые связи между шагами времени, обеспечивает последовательную обработку, препятствуя параллелизации вычислений и ограничивая масштабируемость.
Эти ограничения открыли путь для появления трансформеров и других архитектур, которые превзошли LSTM в определенных аспектах, особенно при масштабировании до более крупных моделей.
Архитектура xLSTM
В основе xLSTM лежат два основных изменения традиционной архитектуры LSTM: экспоненциальная блокировка и новые структуры памяти. Эти улучшения вводят два новых варианта LSTM, известных как sLSTM (скалярная LSTM) и mLSTM (матричная LSTM).
- sLSTM: Скалярная LSTM с экспоненциальной блокировкой и смешиванием памяти
- Экспоненциальная блокировка: sLSTM включает экспоненциальные функции активации для входных и забывательных ворот, позволяя более гибко контролировать поток информации.
- Нормализация и стабилизация: Чтобы предотвратить числовые нестабильности, sLSTM вводит состояние нормализатора, которое отслеживает произведение входных ворот и будущих забывательных ворот.
- Смешивание памяти: sLSTM поддерживает несколько ячеек памяти и позволяет смешивать память посредством рекуррентных соединений, позволяя извлекать сложные закономерности и отслеживать состояния.
- mLSTM: Матричная LSTM с улучшенными емкостями хранения
- Матричная память: Вместо скалярной ячейки памяти, mLSTM использует матричную память, увеличивая ее емкость хранения и позволяя более эффективно извлекать информацию.
- Правило обновления ковариации: mLSTM использует правило обновления ковариации, вдохновленное двусторонними ассоциативными памятями (BAM), для эффективного хранения и извлечения пар ключ-значение.
- Параллелизация: Отказавшись от смешивания памяти, mLSTM достигает полной параллелизации, позволяя выполнять эффективные вычисления на современных ускорителях, таких как GPU, и обеспечивая масштабируемость до более крупных моделей.
Эти два варианта, sLSTM и mLSTM, могут быть интегрированы в архитектуры остаточных блоков, образуя блоки xLSTM. Отслеживая остаточные блоки xLSTM, исследователи могут создавать мощные архитектуры xLSTM, адаптированные для конкретных задач и областей применения.
Математика
Традиционная LSTM:
Оригинальная архитектура LSTM ввела постоянный карусель ошибок и механизмы блокировки для преодоления проблемы исчезающего градиента в рекуррентных нейронных сетях.
<img class="wp-image-200117" src="https://www.unite.ai/wp-content/uploads/2024/05/LSTM.png" alt="Повторяющийся модуль в LSTM – Источник” width=”631″ height=”245″ /> Повторяющийся модуль в LSTM – Источник
Обновления состояния ячейки LSTM управляются следующими уравнениями:
Обновление состояния ячейки: ct = ft ⊙ ct-1 + it ⊙ zt
Обновление скрытого состояния: ht = ot ⊙ tanh(ct)
Где:
- 𝑐𝑡 является вектором состояния ячейки в момент времени 𝑡
- 𝑓𝑡 является вектором забывательного вора
- 𝑖𝑡 является вектором входного вора
- 𝑜𝑡 является вектором выходного вора
- 𝑧𝑡 является входом, модулированным входным воротом
- ⊙ представляет собой элементно-множественное умножение
Ворота ft, it и ot контролируют, какая информация сохраняется, забывается и выводится из состояния ячейки ct, смягчая проблему исчезающего градиента.
xLSTM с экспоненциальной блокировкой:
Архитектура xLSTM вводит экспоненциальную блокировку, чтобы позволить более гибкий контроль над потоком информации. Для варианта скалярной xLSTM (sLSTM):
Обновление состояния ячейки: ct = ft ⊙ ct-1 + it ⊙ zt
Обновление нормализатора: nt = ft ⊙ nt-1 + it
Обновление скрытого состояния: ht = ot ⊙ (ct / nt)
Входные и забывательные ворота: it = exp(W_i xt + R_i ht-1 + b_i) ft = σ(W_f xt + R_f ht-1 + b_f) ИЛИ ft = exp(W_f xt + R_f ht-1 + b_f)
Экспоненциальные функции активации для входных (it) и забывательных (ft) ворот, а также состояние нормализатора nt, позволяют более эффективно контролировать обновления памяти и пересматривать сохраненную информацию.
Ключевые особенности и преимущества xLSTM
- Способность пересмотреть решения хранения: Благодаря экспоненциальной блокировке, xLSTM может эффективно пересмотреть сохраненные значения при встрече с более актуальной информацией, преодолевая значительное ограничение традиционных LSTM.
- Улучшенные емкости хранения: Матричная память в mLSTM обеспечивает увеличение емкости хранения, позволяя xLSTM более эффективно обрабатывать редкие токены, длинные диапазоны зависимостей и сложные закономерности данных.
- Параллелизация: Вариант mLSTM xLSTM полностью параллелизируем, позволяя выполнять эффективные вычисления на современных ускорителях, таких как GPU, и обеспечивая масштабируемость до более крупных моделей.
- Смешивание памяти и отслеживание состояния: Вариант sLSTM xLSTM сохраняет возможности смешивания памяти традиционных LSTM, позволяя отслеживать состояния и делая xLSTM более выразительным, чем трансформеры и модели пространства состояний для определенных задач.
- Масштабируемость: Используя последние методы из современных крупных языковых моделей (LLM), xLSTM может быть масштабирован до миллиардов параметров, открывая новые возможности в моделировании языка и обработке последовательностей.
Экспериментальная оценка: демонстрация возможностей xLSTM
Исследовательская статья представляет всестороннюю экспериментальную оценку xLSTM, подчеркивая его производительность в различных задачах и бенчмарках. Вот некоторые ключевые выводы:
- Синтетические задачи и Long Range Arena:
- xLSTM превосходит в решении формальных языковых задач, требующих отслеживания состояния, превосходя трансформеры, модели пространства состояний и другие рекуррентные архитектуры.
- В задаче многократного ассоциативного воспоминания xLSTM демонстрирует улучшенные емкости памяти, превосходя не-трансформерные модели и соперничая с производительностью трансформеров.
- На бенчмарке Long Range Arena xLSTM демонстрирует стабильно высокую производительность, демонстрируя свою эффективность в обработке длинных контекстов.
- Моделирование языка и задачи вниз по течению:
- Обученный на 15 миллиардах токенов из набора данных SlimPajama, xLSTM превосходит существующие методы, включая трансформеры, модели пространства состояний и другие рекуррентные варианты, по метрике валидационного перплекса.
- По мере увеличения размера моделей xLSTM продолжает поддерживать свое преимущество в производительности, демонстрируя благоприятное масштабирование.
- В задачах вниз по течению, таких как рассуждения о общем смысле и ответы на вопросы, xLSTM возникает как лучший метод при различных размерах моделей, превосходя методы государственного уровня.
- Производительность на задачах языка PALOMA:
- Оцененный на 571 текстовом домене из бенчмарка PALOMA, xLSTM[1:0] (вариант sLSTM) достигает более низких перплексов, чем другие методы, в 99,5% доменов по сравнению с Mamba, 85,1% по сравнению с Llama и 99,8% по сравнению с RWKV-4.
- Законы масштабирования и экстраполяция длины:
- Обученный на 300 миллиардах токенов из SlimPajama, xLSTM демонстрирует благоприятные законы масштабирования, указывающие на его потенциал для дальнейших улучшений производительности при увеличении размера моделей.
- В экспериментах по экстраполяции длины последовательности модели xLSTM сохраняют низкие перплексы даже для контекстов, значительно длиннее тех, которые были видны во время обучения, превосходя другие методы.
Эти экспериментальные результаты подчеркивают замечательные возможности xLSTM, позиционируя его как перспективного претендента для задач моделирования языка, обработки последовательностей и широкого спектра других приложений.
Реальные приложения и будущие направления
Потенциальные приложения xLSTM охватывают широкий спектр областей, от обработки естественного языка и генерации до моделирования последовательностей, анализа временных рядов и многого другого. Вот некоторые интересные области, где xLSTM может сделать значительный вклад:
- Моделирование языка и генерация текста: С улучшенными емкостями хранения и способностью пересмотреть сохраненную информацию, xLSTM может революционизировать задачи моделирования языка и генерации текста, позволяя создавать более связный, контекстно-осведомленный и плавный текст.
- Машинный перевод: Способности xLSTM к отслеживанию состояния могут оказаться бесценными в задачах машинного перевода, где поддержание контекстной информации и понимание длинных диапазонов зависимостей имеет решающее значение для точных переводов.
- Распознавание и генерация речи: Параллелизация и масштабируемость xLSTM делают его хорошо подходящим для приложений распознавания и генерации речи, где эффективная обработка длинных последовательностей имеет важное значение.
- Анализ и прогнозирование временных рядов: Способность xLSTM обрабатывать длинные диапазоны зависимостей и эффективно хранить и извлекать сложные закономерности может привести к значительным улучшениям в задачах анализа и прогнозирования временных рядов в различных областях, таких как финансы, прогнозирование погоды и промышленные применения.
- Расширение обучения и системы управления: Потенциал xLSTM в расширении обучения и системах управления обещает, поскольку его улучшенные возможности памяти и отслеживания состояния могут позволить более интеллектуальное принятие решений и управление в сложных средах.
















