Искусственный интеллект

xLSTM: Полное руководство по расширенной долгосрочной памяти

mm
div]:bg-bg-300 [&_pre]:-mr-4 md:[&_pre]:-mr-9″>

Более двух десятилетий архитектура долгосрочной памяти (LSTM) Сеппа Хохрайтера была инструментальной в numerous прорывах в области глубокого обучения и реальных приложениях. От генерации естественного языка до питания систем распознавания речи, LSTM были движущей силой за революцией ИИ.

Однако даже создатель LSTM признал их внутренние ограничения, которые не позволяли им реализовать свой полный потенциал. Недостатки, такие как невозможность пересмотреть сохраненную информацию, ограниченные возможности памяти и отсутствие параллелизации, привели к появлению моделей трансформеров и других моделей, которые превзошли LSTM в более сложных задачах обработки языка.

Но в недавнем развитии Хохрайтер и его команда в NXAI представили новую вариацию, называемую расширенной LSTM (xLSTM), которая решает эти давние проблемы. Представленная в недавней исследовательской работе, xLSTM основана на фундаментальных идеях, которые сделали LSTM так мощными, а также преодолевает их ключевые слабости посредством архитектурных инноваций.

В основе xLSTM лежат два новых компонента: экспоненциальная шлюзовая система и улучшенные структуры памяти. Экспоненциальная шлюзовая система позволяет более гибко контролировать поток информации, что позволяет xLSTM эффективно пересматривать решения при появлении новой информации. Тем временем, введение матричной памяти значительно увеличивает емкость хранения по сравнению с традиционными скалярными LSTM.

Но улучшения не останавливаются на этом. Используя методы, заимствованные из крупных языковых моделей, такие как параллелизация и остаточная укладка блоков, xLSTM может эффективно масштабироваться до миллиардов параметров. Это открывает возможности для моделирования чрезвычайно длинных последовательностей и контекстных окон – возможности, критической для сложного понимания языка.

Последствия последнего творения Хохрайтера монументальны. Представьте себе виртуальных помощников, которые могут надежно отслеживать контекст в течение часов-long разговоров. Или языковые модели, которые более надежно обобщаются на новые области после обучения на широких данных. Применения охватывают все области, где LSTM оказали влияние – чат-боты, перевод, речевые интерфейсы, анализ программ и многое другое – но теперь с возможностями xLSTM.

В этом глубоком техническом руководстве мы погрузимся в архитектурные детали xLSTM, оценивая его новые компоненты, такие как скалярные и матричные LSTM, экспоненциальные шлюзовые механизмы, структуры памяти и многое другое. Вы получите представление о результатах экспериментов, демонстрирующих впечатляющие показатели xLSTM по сравнению с архитектурами трансформеров и последними рекуррентными моделями.

Понимание истоков: Ограничения LSTM

Прежде чем мы погрузимся в мир xLSTM, важно понять ограничения, с которыми сталкивались традиционные архитектуры LSTM. Эти ограничения были движущей силой за разработкой xLSTM и других альтернативных подходов.

  1. Невозможность пересмотреть хранилищные решения: Одним из основных ограничений LSTM является его борьба с пересмотром сохраненных значений, когда встречается более похожий вектор. Это может привести к подоптимальной производительности в задачах, которые требуют динамического обновления сохраненной информации.
  2. Ограниченные возможности хранения: LSTM сжимают информацию в скалярные состояния ячеек, что может ограничить их способность эффективно хранить и извлекать сложные закономерности данных, особенно при работе с редкими токенами или длинными зависимостями.
  3. Отсутствие параллелизации: Механизм смешивания памяти в LSTM, который включает скрытые-скрытые связи между шагами времени, обеспечивает последовательную обработку, препятствуя параллелизации вычислений и ограничивая масштабируемость.

Эти ограничения привели к появлению трансформеров и других архитектур, которые превзошли LSTM в определенных аспектах, особенно при масштабировании до более крупных моделей.

Архитектура xLSTM

Расширенная LSTM (xLSTM) семейство

Расширенная LSTM (xLSTM) семейство

В основе xLSTM лежат два основных изменения традиционной архитектуры LSTM: экспоненциальная шлюзовая система и новые структуры памяти. Эти улучшения вводят два новых варианта LSTM, известных как sLSTM (скалярная LSTM) и mLSTM (матричная LSTM).

  1. sLSTM: Скалярная LSTM с экспоненциальной шлюзовой системой и смешиванием памяти
    • Экспоненциальная шлюзовая система: sLSTM включает экспоненциальные функции активации для входных и забывающих шлюзов, обеспечивая более гибкий контроль над потоком информации.
    • Нормализация и стабилизация: Чтобы предотвратить числовые нестабильности, sLSTM вводит нормализаторное состояние, которое отслеживает произведение входных шлюзов и будущих забывающих шлюзов.
    • Смешивание памяти: sLSTM поддерживает несколько ячеек памяти и позволяет смешивать память через рекуррентные связи, обеспечивая извлечение сложных закономерностей и отслеживание состояний.
  2. mLSTM: Матричная LSTM с улучшенными возможностями хранения
    • Матричная память: Вместо скалярной ячейки памяти mLSTM использует матричную память, увеличивая ее емкость хранения и обеспечивая более эффективное извлечение информации.
    • Правило обновления ковариации: mLSTM использует правило обновления ковариации, вдохновленное двусторонними ассоциативными памятью (BAM), для хранения и извлечения ключ-значение пар эффективно.
    • Параллелизация: Отказавшись от смешивания памяти, mLSTM достигает полной параллелизации, обеспечивая эффективные вычисления на современных аппаратных ускорителях.

Эти два варианта, sLSTM и mLSTM, могут быть интегрированы в остаточные блоки, образуя блоки xLSTM. Стacking этих блоков xLSTM, исследователи могут построить мощные архитектуры xLSTM, адаптированные для конкретных задач и областей применения.

Математика

Традиционная LSTM:

Оригинальная архитектура LSTM ввела постоянный карусель ошибок и шлюзовые механизмы для преодоления проблемы исчезающего градиента в рекуррентных нейронных сетях.

Повторяющийся модуль в LSTM

Повторяющийся модуль в LSTM – Источник

Обновления состояния ячейки LSTM управляются следующими уравнениями:

Обновление состояния ячейки: ct = ft ⊙ ct-1 + it ⊙ zt

Обновление скрытого состояния: ht = ot ⊙ tanh(ct)

Где:

  • 𝑐𝑡 является вектором состояния ячейки в момент времени 𝑡
  • 𝑓𝑡 является вектором забывающего шлюза
  • 𝑖𝑡 является вектором входного шлюза
  • 𝑜𝑡 является вектором выходного шлюза
  • 𝑧𝑡 является входом, модулированным входным шлюзом
  • представляет собой элементно-множественное умножение

Шлюзы ft, it и ot контролируют, какая информация сохраняется, забывается и выводится из состояния ячейки ct, смягчая проблему исчезающего градиента.

xLSTM с экспоненциальной шлюзовой системой:

Архитектура xLSTM вводит экспоненциальную шлюзовую систему для более гибкого контроля над потоком информации. Для варианта скалярной xLSTM (sLSTM):

Обновление состояния ячейки: ct = ft ⊙ ct-1 + it ⊙ zt

Обновление нормализаторного состояния: nt = ft ⊙ nt-1 + it

Обновление скрытого состояния: ht = ot ⊙ (ct / nt)

Входные и забывающие шлюзы: it = exp(W_i xt + R_i ht-1 + b_i) ft = σ(W_f xt + R_f ht-1 + b_f) ИЛИ ft = exp(W_f xt + R_f ht-1 + b_f)

Экспоненциальные функции активации для входных и забывающих шлюзов, а также нормализаторное состояние nt, обеспечивают более эффективный контроль над обновлениями памяти и пересмотром сохраненной информации.

div]:bg-bg-300 [&_pre]:-mr-4 md:[&_pre]:-mr-9″>

xLSTM с матричной памятью:

Для варианта матричной xLSTM (mLSTM) с улучшенными возможностями хранения:

Обновление состояния ячейки: Ct = ft ⊙ Ct-1 + it ⊙ (vt kt^T)

Обновление нормализаторного состояния: nt = ft ⊙ nt-1 + it ⊙ kt

Обновление скрытого состояния: ht = ot ⊙ (Ct qt / max(qt^T nt, 1))

Где:

  • 𝐶𝑡 является матричным состоянием ячейки
  • 𝑣𝑡 и 𝑘𝑡 являются векторами значения и ключа
  • 𝑞𝑡 является вектором запроса, используемым для извлечения

Эти ключевые уравнения подчеркивают, как xLSTM расширяет оригинальную формулу LSTM с экспоненциальной шлюзовой системой для более гибкого контроля над памятью и матричной памятью для улучшенных возможностей хранения. Комбинация этих инноваций позволяет xLSTM преодолеть ограничения традиционных LSTM.

Ключевые особенности и преимущества xLSTM

  1. Возможность пересмотреть решения хранения: Благодаря экспоненциальной шлюзовой системе xLSTM может эффективно пересматривать сохраненные значения при встрече с более актуальной информацией, преодолевая значительное ограничение традиционных LSTM.
  2. Улучшенные возможности хранения: Матричная память в mLSTM обеспечивает увеличенную емкость хранения, позволяя xLSTM более эффективно обрабатывать редкие токены, длинные зависимости и сложные закономерности данных.
  3. Параллелизация: Вариант mLSTM xLSTM полностью параллелизируем, позволяя выполнять эффективные вычисления на современных аппаратных ускорителях и обеспечивая масштабируемость.
  4. Смешивание памяти и отслеживание состояний: Вариант sLSTM xLSTM сохраняет возможности смешивания памяти традиционных LSTM, обеспечивая отслеживание состояний и делая xLSTM более выразительным, чем трансформеры и модели состояния для определенных задач.
  5. Масштабируемость: Используя последние методы из современных крупных языковых моделей, xLSTM может быть масштабирована до миллиардов параметров, открывая новые возможности в моделировании языка и обработке последовательностей.

Экспериментальная оценка: Демонстрация возможностей xLSTM

Исследовательская работа представляет всестороннюю экспериментальную оценку xLSTM, подчеркивая ее производительность в различных задачах и бенчмарках. Вот некоторые ключевые результаты:

  1. Синтетические задачи и Long Range Arena:
    • xLSTM превосходит в решении формальных языковых задач, требующих отслеживания состояний, превосходя трансформеры, модели состояния и другие рекуррентные архитектуры.
    • В задаче ассоциативного воспоминания xLSTM демонстрирует улучшенные возможности хранения, превосходя не-трансформерные модели и соперничая с производительностью трансформеров.
    • На бенчмарке Long Range Arena xLSTM демонстрирует последовательную сильную производительность, демонстрируя свою эффективность в обработке длинных контекстов.
  2. Моделирование языка и задачи вниз по течению:
    • Когда обучается на 15 миллиардах токенов из набора данных SlimPajama, xLSTM превосходит существующие методы, включая трансформеры, модели состояния и другие рекуррентные варианты, по метрике валидационной перплексии.
    • По мере увеличения размеров моделей xLSTM сохраняет свое преимущество в производительности, демонстрируя благоприятное масштабирование.
    • В задачах вниз по течению, таких как рассуждение и ответы на вопросы, xLSTM возникает как лучший метод во всех размерах моделей, превосходя современные подходы.
  3. Производительность на задачах PALOMA:
    • Оцененная на 571 текстовом домене из бенчмарка PALOMA, xLSTM[1:0] (вариант sLSTM) достигает более низкой перплексии, чем другие методы, в 99,5% доменов по сравнению с Mamba, 85,1% по сравнению с Llama и 99,8% по сравнению с RWKV-4.
  4. Законы масштабирования и экстраполяция длины:
    • Когда обучается на 300 миллиардах токенов из SlimPajama, xLSTM демонстрирует благоприятные законы масштабирования, указывая на потенциал для дальнейшего улучшения производительности при увеличении размеров моделей.
    • В экспериментах по экстраполяции длины последовательности модели xLSTM сохраняют низкую перплексию даже для контекстов, значительно длиннее тех, которые были видны во время обучения, превосходя другие методы.

Эти экспериментальные результаты подчеркивают замечательные возможности xLSTM, позиционируя ее как перспективного претендента для задач моделирования языка, обработки последовательностей и широкого спектра других приложений.

Реальные приложения и будущие направления

Потенциальные приложения xLSTM охватывают широкий спектр областей, от обработки естественного языка и генерации до моделирования последовательностей, анализа временных рядов и за их пределами. Вот некоторые интересные области, где xLSTM может оказать значительное влияние:

  1. Моделирование языка и текстовая генерация: Благодаря улучшенным возможностям хранения и способности пересматривать сохраненную информацию, xLSTM может революционизировать моделирование языка и задачи текстовой генерации, обеспечивая более связный, контекстно-зависимый и плавный текст.
  2. Машинный перевод: Способности xLSTM к отслеживанию состояний могут оказаться бесценными в задачах машинного перевода, где поддержание контекстной информации и понимание длинных зависимостей имеет решающее значение для точных переводов.
  3. Распознавание и генерация речи: Параллелизация и масштабируемость xLSTM делают ее хорошо подходящей для приложений распознавания и генерации речи, где эффективная обработка длинных последовательностей имеет важное значение.
  4. Анализ временных рядов и прогнозирование: Способность xLSTM обрабатывать длинные зависимости и эффективно хранить и извлекать сложные закономерности может привести к значительным улучшениям в задачах анализа временных рядов и прогнозирования в различных областях, таких как финансы, прогнозирование погоды и промышленные применения.
  5. Расширение обучения и системы управления: Потенциал xLSTM в расширении обучения и системах управления обещает, поскольку ее улучшенные возможности хранения и способности отслеживания могут обеспечить более интеллектуальное принятие решений и контроль в сложных средах.
div]:bg-bg-300 [&_pre]:-mr-4 md:[&_pre]:-mr-9″>

Архитектурные оптимизации и настройка гиперпараметров

Хотя текущие результаты обещают, все еще есть место для оптимизации архитектуры xLSTM и тонкой настройки ее гиперпараметров. Исследователи могут изучить различные комбинации блоков sLSTM и mLSTM, варьируя их соотношения и размещение внутри общей архитектуры. Кроме того, систематический поиск гиперпараметров может привести к дальнейшим улучшениям производительности, особенно для более крупных моделей.

Оптимизации, учитывающие аппаратное обеспечение: Чтобы полностью использовать параллелизацию xLSTM, особенно варианта mLSTM, исследователи могут изучить оптимизации, адаптированные для конкретных архитектур GPU или других ускорителей. Это может включать оптимизацию ядер CUDA, стратегии управления памятью и использование специализированных инструкций или библиотек для эффективных матричных операций.

Интеграция с другими компонентами нейронных сетей: Изучение интеграции xLSTM с другими компонентами нейронных сетей, такими как механизмы внимания, свертки или методы самообучения, может привести к гибридным архитектурам, которые объединяют сильные стороны различных подходов. Эти гибридные модели потенциально могут открыть новые возможности и улучшить производительность в более широком спектре задач.

Обучение с несколькими примерами и перенос обучения: Изучение использования xLSTM в сценариях обучения с несколькими примерами и переноса обучения может быть интересным направлением будущих исследований. Используя улучшенные возможности хранения и способности отслеживания xLSTM, можно обеспечить более эффективный перенос знаний и быструю адаптацию к новым задачам или областям с ограниченными данными для обучения.

Интерпретируемость и объяснимость: Как и многие модели глубокого обучения, внутренние механизмы xLSTM могут быть неясными и трудными для интерпретации. Разработка методов для интерпретации и объяснения решений, принимаемых xLSTM, может привести к более прозрачным и заслуживающим доверия моделям, облегчая их принятие в критических приложениях и содействуя подотчетности.

Эффективные и масштабируемые стратегии обучения: По мере роста размеров моделей эффективные и масштабируемые стратегии обучения становятся все более важными. Исследователи могут изучить методы, такие как параллелизм моделей, параллелизм данных и распределенные подходы к обучению, специально адаптированные для архитектур xLSTM, позволяя обучать еще более крупные модели и потенциально снижая вычислительные затраты.

Это лишь несколько потенциальных направлений будущих исследований и областей для дальнейшего изучения xLSTM.

Заключение

Введение xLSTM знаменует собой значительный рубеж в поисках более мощных и эффективных архитектур моделирования языка и обработки последовательностей. Решая ограничения традиционных LSTM и используя новые методы, такие как экспоненциальная шлюзовая система и матричные структуры памяти, xLSTM продемонстрировала замечательную производительность в широком спектре задач и бенчмарков.

Однако путь не заканчивается здесь. Как и любая новаторская технология, xLSTM представляет интересные возможности для дальнейшего исследования, совершенствования и применения в реальных сценариях. По мере того, как исследователи продолжают расширять границы того, что возможно, мы можем ожидать еще более впечатляющих достижений в области обработки естественного языка и искусственного интеллекта.

Я провел последние пять лет, погружаясь в увлекательный мир машинного обучения и глубокого обучения. Моя страсть и экспертиза привели меня к участию в более чем 50 различных проектах программной инженерии, с особым акцентом на ИИ/МО. Мое непрекращающееся любопытство также привело меня к обработке естественного языка, области, которую я с нетерпением жду возможности изучить дальше.