Искусственный интеллект

xLSTM: Комплексное руководство по расширенной долгосрочной краткосрочной памяти

Published May 16, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Более двух десятилетий архитектура долгосрочной краткосрочной памяти (LSTM) Сеппа Хохрайтера была инструментальной в многочисленных прорывах в области глубокого обучения и реальных приложениях. От генерации естественного языка до питания систем распознавания речи, LSTM были движущей силой за революцией ИИ.

Однако даже создатель LSTM признал их внутренние ограничения, которые не позволяли им реализовать свой полный потенциал. Недостатки, такие как невозможность пересмотреть сохраненную информацию, ограниченные емкости памяти и отсутствие параллелизации, открыли путь для появления трансформеров и других моделей, которые превзошли LSTM в более сложных языковых задачах.

Но в недавнем развитии Хохрайтер и его команда в NXAI представили новый вариант, называемый расширенной LSTM (xLSTM), который решает эти давние проблемы. Представленный в недавней исследовательской статье, xLSTM основан на фундаментальных идеях, которые сделали LSTM так мощными, а также преодолевает их ключевые слабости посредством архитектурных инноваций.

В основе xLSTM лежат два новых компонента: экспоненциальная блокировка и улучшенные структуры памяти. Экспоненциальная блокировка позволяет более гибко контролировать поток информации, позволяя xLSTM эффективно пересматривать решения при встрече с новым контекстом. Тем временем, введение матричной памяти значительно увеличивает емкость хранения по сравнению с традиционными скалярными LSTM.

Но улучшения не останавливаются на этом. Используя методы, заимствованные из крупных языковых моделей, такие как параллелизация и остаточная укладка блоков, xLSTM может эффективно масштабироваться до миллиардов параметров. Это разблокирует их потенциал для моделирования чрезвычайно длинных последовательностей и контекстных окон – возможности, критической для сложного понимания языка.

Последствия последнего творения Хохрайтера монументальны. Представьте себе виртуальных помощников, которые могут надежно отслеживать контекст в течение часов-long разговоров. Или языковые модели, которые более устойчиво обобщаются на новые области после обучения на широких данных. Применения охватывают все, где LSTM сделали влияние – чат-боты, перевод, речевые интерфейсы, анализ программ и многое другое – но теперь с турбо-способностями xLSTM.

В этом глубоком техническом руководстве мы погрузимся в архитектурные детали xLSTM, оценивая его новые компоненты, такие как скалярные и матричные LSTM, экспоненциальные механизмы блокировки, структуры памяти и многое другое. Вы получите представление из экспериментальных результатов, демонстрирующих впечатляющие показатели производительности xLSTM над архитектурами государственного уровня, такими как трансформеры и последние рекуррентные модели.

Понимание происхождения: ограничения LSTM

Прежде чем мы погрузимся в мир xLSTM, важно понять ограничения, с которыми традиционные архитектуры LSTM сталкивались. Эти ограничения были движущей силой за разработкой xLSTM и других альтернативных подходов.

Невозможность пересмотреть решения хранения: Одним из основных ограничений LSTM является его борьба с пересмотром сохраненных значений, когда встречается более похожий вектор. Это может привести к неоптимальной производительности в задачах, которые требуют динамического обновления сохраненной информации.
Ограниченные емкости хранения: LSTM сжимает информацию в скалярные состояния ячеек, что может ограничить их способность эффективно хранить и извлекать сложные закономерности данных, особенно при работе с редкими токенами или длинными диапазонами зависимостей.
Отсутствие параллелизации: Механизм смешивания памяти в LSTM, который включает скрытые-скрытые связи между шагами времени, обеспечивает последовательную обработку, препятствуя параллелизации вычислений и ограничивая масштабируемость.

Эти ограничения открыли путь для появления трансформеров и других архитектур, которые превзошли LSTM в определенных аспектах, особенно при масштабировании до более крупных моделей.

Архитектура xLSTM

Расширенная LSTM (xLSTM) семейство

В основе xLSTM лежат два основных изменения традиционной архитектуры LSTM: экспоненциальная блокировка и новые структуры памяти. Эти улучшения вводят два новых варианта LSTM, известных как sLSTM (скалярная LSTM) и mLSTM (матричная LSTM).

sLSTM: Скалярная LSTM с экспоненциальной блокировкой и смешиванием памяти
- Экспоненциальная блокировка: sLSTM включает экспоненциальные функции активации для входных и забывательных ворот, позволяя более гибко контролировать поток информации.
- Нормализация и стабилизация: Чтобы предотвратить числовые нестабильности, sLSTM вводит состояние нормализатора, которое отслеживает произведение входных ворот и будущих забывательных ворот.
- Смешивание памяти: sLSTM поддерживает несколько ячеек памяти и позволяет смешивать память посредством рекуррентных соединений, позволяя извлекать сложные закономерности и отслеживать состояния.
mLSTM: Матричная LSTM с улучшенными емкостями хранения
- Матричная память: Вместо скалярной ячейки памяти, mLSTM использует матричную память, увеличивая ее емкость хранения и позволяя более эффективно извлекать информацию.
- Правило обновления ковариации: mLSTM использует правило обновления ковариации, вдохновленное двусторонними ассоциативными памятями (BAM), для эффективного хранения и извлечения пар ключ-значение.
- Параллелизация: Отказавшись от смешивания памяти, mLSTM достигает полной параллелизации, позволяя выполнять эффективные вычисления на современных ускорителях, таких как GPU, и обеспечивая масштабируемость до более крупных моделей.

Эти два варианта, sLSTM и mLSTM, могут быть интегрированы в архитектуры остаточных блоков, образуя блоки xLSTM. Отслеживая остаточные блоки xLSTM, исследователи могут создавать мощные архитектуры xLSTM, адаптированные для конкретных задач и областей применения.

Математика

Традиционная LSTM:

Оригинальная архитектура LSTM ввела постоянный карусель ошибок и механизмы блокировки для преодоления проблемы исчезающего градиента в рекуррентных нейронных сетях.

<img class="wp-image-200117" src="https://www.unite.ai/wp-content/uploads/2024/05/LSTM.png" alt="Повторяющийся модуль в LSTM – Источник

” width=”631″ height=”245″ /> Повторяющийся модуль в LSTM – Источник

Обновления состояния ячейки LSTM управляются следующими уравнениями:

Обновление состояния ячейки: ct = ft ⊙ ct-1 + it ⊙ zt

Обновление скрытого состояния: ht = ot ⊙ tanh(ct)

Где:

является вектором состояния ячейки в момент времени $t$
является вектором забывательного вора
является вектором входного вора
является вектором выходного вора
является входом, модулированным входным воротом
представляет собой элементно-множественное умножение

Ворота ft, it и ot контролируют, какая информация сохраняется, забывается и выводится из состояния ячейки ct, смягчая проблему исчезающего градиента.

xLSTM с экспоненциальной блокировкой:

Архитектура xLSTM вводит экспоненциальную блокировку, чтобы позволить более гибкий контроль над потоком информации. Для варианта скалярной xLSTM (sLSTM):

Обновление состояния ячейки: ct = ft ⊙ ct-1 + it ⊙ zt

Обновление нормализатора: nt = ft ⊙ nt-1 + it

Обновление скрытого состояния: ht = ot ⊙ (ct / nt)

Входные и забывательные ворота: it = exp(W_i xt + R_i ht-1 + b_i) ft = σ(W_f xt + R_f ht-1 + b_f) ИЛИ ft = exp(W_f xt + R_f ht-1 + b_f)

Экспоненциальные функции активации для входных (it) и забывательных (ft) ворот, а также состояние нормализатора nt, позволяют более эффективно контролировать обновления памяти и пересматривать сохраненную информацию.

xLSTM с матричной памятью:

Для варианта матричной xLSTM (mLSTM) с улучшенными емкостями хранения:

Обновление состояния ячейки: Ct = ft ⊙ Ct-1 + it ⊙ (vt kt^T)

Обновление нормализатора: nt = ft ⊙ nt-1 + it ⊙ kt

Обновление скрытого состояния: ht = ot ⊙ (Ct qt / max(qt^T nt, 1))

Где:

является матричным состоянием ячейки
и являются векторами значения и ключа
является вектором запроса, используемым для извлечения

Эти ключевые уравнения подчеркивают, как xLSTM расширяет оригинальную формулировку LSTM с экспоненциальной блокировкой для более гибкого контроля над потоком информации и матричной памятью для улучшенных емкостей хранения. Комбинация этих инноваций позволяет xLSTM преодолеть ограничения традиционных LSTM.

Ключевые особенности и преимущества xLSTM

Способность пересмотреть решения хранения: Благодаря экспоненциальной блокировке, xLSTM может эффективно пересмотреть сохраненные значения при встрече с более актуальной информацией, преодолевая значительное ограничение традиционных LSTM.
Улучшенные емкости хранения: Матричная память в mLSTM обеспечивает увеличение емкости хранения, позволяя xLSTM более эффективно обрабатывать редкие токены, длинные диапазоны зависимостей и сложные закономерности данных.
Параллелизация: Вариант mLSTM xLSTM полностью параллелизируем, позволяя выполнять эффективные вычисления на современных ускорителях, таких как GPU, и обеспечивая масштабируемость до более крупных моделей.
Смешивание памяти и отслеживание состояния: Вариант sLSTM xLSTM сохраняет возможности смешивания памяти традиционных LSTM, позволяя отслеживать состояния и делая xLSTM более выразительным, чем трансформеры и модели пространства состояний для определенных задач.
Масштабируемость: Используя последние методы из современных крупных языковых моделей (LLM), xLSTM может быть масштабирован до миллиардов параметров, открывая новые возможности в моделировании языка и обработке последовательностей.

Экспериментальная оценка: демонстрация возможностей xLSTM

Исследовательская статья представляет всестороннюю экспериментальную оценку xLSTM, подчеркивая его производительность в различных задачах и бенчмарках. Вот некоторые ключевые выводы:

Синтетические задачи и Long Range Arena:
- xLSTM превосходит в решении формальных языковых задач, требующих отслеживания состояния, превосходя трансформеры, модели пространства состояний и другие рекуррентные архитектуры.
- В задаче многократного ассоциативного воспоминания xLSTM демонстрирует улучшенные емкости памяти, превосходя не-трансформерные модели и соперничая с производительностью трансформеров.
- На бенчмарке Long Range Arena xLSTM демонстрирует стабильно высокую производительность, демонстрируя свою эффективность в обработке длинных контекстов.
Моделирование языка и задачи вниз по течению:
- Обученный на 15 миллиардах токенов из набора данных SlimPajama, xLSTM превосходит существующие методы, включая трансформеры, модели пространства состояний и другие рекуррентные варианты, по метрике валидационного перплекса.
- По мере увеличения размера моделей xLSTM продолжает поддерживать свое преимущество в производительности, демонстрируя благоприятное масштабирование.
- В задачах вниз по течению, таких как рассуждения о общем смысле и ответы на вопросы, xLSTM возникает как лучший метод при различных размерах моделей, превосходя методы государственного уровня.
Производительность на задачах языка PALOMA:
- Оцененный на 571 текстовом домене из бенчмарка PALOMA, xLSTM[1:0] (вариант sLSTM) достигает более низких перплексов, чем другие методы, в 99,5% доменов по сравнению с Mamba, 85,1% по сравнению с Llama и 99,8% по сравнению с RWKV-4.
Законы масштабирования и экстраполяция длины:
- Обученный на 300 миллиардах токенов из SlimPajama, xLSTM демонстрирует благоприятные законы масштабирования, указывающие на его потенциал для дальнейших улучшений производительности при увеличении размера моделей.
- В экспериментах по экстраполяции длины последовательности модели xLSTM сохраняют низкие перплексы даже для контекстов, значительно длиннее тех, которые были видны во время обучения, превосходя другие методы.

Эти экспериментальные результаты подчеркивают замечательные возможности xLSTM, позиционируя его как перспективного претендента для задач моделирования языка, обработки последовательностей и широкого спектра других приложений.

Реальные приложения и будущие направления

Потенциальные приложения xLSTM охватывают широкий спектр областей, от обработки естественного языка и генерации до моделирования последовательностей, анализа временных рядов и многого другого. Вот некоторые интересные области, где xLSTM может сделать значительный вклад:

Моделирование языка и генерация текста: С улучшенными емкостями хранения и способностью пересмотреть сохраненную информацию, xLSTM может революционизировать задачи моделирования языка и генерации текста, позволяя создавать более связный, контекстно-осведомленный и плавный текст.
Машинный перевод: Способности xLSTM к отслеживанию состояния могут оказаться бесценными в задачах машинного перевода, где поддержание контекстной информации и понимание длинных диапазонов зависимостей имеет решающее значение для точных переводов.
Распознавание и генерация речи: Параллелизация и масштабируемость xLSTM делают его хорошо подходящим для приложений распознавания и генерации речи, где эффективная обработка длинных последовательностей имеет важное значение.
Анализ и прогнозирование временных рядов: Способность xLSTM обрабатывать длинные диапазоны зависимостей и эффективно хранить и извлекать сложные закономерности может привести к значительным улучшениям в задачах анализа и прогнозирования временных рядов в различных областях, таких как финансы, прогнозирование погоды и промышленные применения.
Расширение обучения и системы управления: Потенциал xLSTM в расширении обучения и системах управления обещает, поскольку его улучшенные возможности памяти и отслеживания состояния могут позволить более интеллектуальное принятие решений и управление в сложных средах.

Оптимизации архитектуры и настройка гиперпараметров

Хотя текущие результаты обещают, есть еще место для оптимизации архитектуры xLSTM и тонкой настройки ее гиперпараметров. Исследователи могут изучить различные комбинации блоков sLSTM и mLSTM, варьируя их соотношения и размещения внутри общей архитектуры. Кроме того, систематический поиск гиперпараметров может привести к дальнейшим улучшениям производительности, особенно для более крупных моделей.

Оптимизации, осведомленные о аппаратном обеспечении: Чтобы полностью использовать параллелизацию xLSTM, особенно вариант mLSTM, исследователи могут изучить оптимизации, адаптированные для конкретных архитектур GPU или других ускорителей. Это может включать оптимизацию ядер CUDA, стратегии управления памятью и использование специализированных инструкций или библиотек для эффективных матричных операций.

Интеграция с другими компонентами нейронных сетей: Изучение интеграции xLSTM с другими компонентами нейронных сетей, такими как механизмы внимания, свертки или методы самообучения, может привести к гибридным архитектурам, которые объединяют сильные стороны различных подходов. Эти гибридные модели могут потенциально открыть новые возможности и улучшить производительность в более широком спектре задач.

Немного-шотное обучение и перенос обучения: Изучение использования xLSTM в сценариях немного-шотного обучения и переноса обучения может быть интересной областью будущих исследований. Используя улучшенные возможности памяти и отслеживания состояния xLSTM, можно потенциально позволить более эффективный перенос знаний и быструю адаптацию к новым задачам или областям с ограниченными данными для обучения.

Интерпретируемость и объяснимость: Как и многие модели глубокого обучения, внутренние механизмы xLSTM могут быть неясными и трудными для интерпретации. Разработка методов для интерпретации и объяснения решений, принимаемых xLSTM, может привести к более прозрачным и заслуживающим доверия моделям, облегчая их принятие в критических приложениях и содействуя подотчетности.

Эффективные и масштабируемые стратегии обучения: По мере роста размеров и сложности моделей, эффективные и масштабируемые стратегии обучения становятся все более важными. Исследователи могут изучить методы, такие как параллелизм моделей, параллелизм данных и распределенные подходы к обучению, адаптированные специально для архитектур xLSTM, позволяя обучать еще более крупные модели и потенциально снижая вычислительные затраты.

Это лишь несколько потенциальных будущих направлений исследований и областей для дальнейшего изучения xLSTM.

Заключение

Введение xLSTM знаменует собой значительный рубеж в поисках более мощных и эффективных архитектур моделирования языка и обработки последовательностей. Решая ограничения традиционных LSTM и используя новые методы, такие как экспоненциальная блокировка и матричные структуры памяти, xLSTM продемонстрировал замечательную производительность в широком спектре задач и бенчмарков.

Однако путь не заканчивается здесь. Как и любая новаторская технология, xLSTM представляет собой интересные возможности для дальнейшего исследования, усовершенствования и применения в реальных сценариях. По мере того, как исследователи продолжают расширять границы того, что возможно, мы можем ожидать увидеть еще более впечатляющие достижения в области обработки естественного языка и искусственного интеллекта.

Aayush Mittal

Я провел последние пять лет, погружаясь в увлекательный мир Machine Learning и Deep Learning. Моя страсть и экспертиза привели меня к участию в более чем 50 различных проектах по разработке программного обеспечения, с особым акцентом на AI/ML. Мое непрекращающееся любопытство также привело меня к Natural Language Processing, области, которую я с нетерпением жду возможности изучить более подробно.