Inteligência artificial

xLSTM: Um Guia Abrangente para a Memória de Longo Prazo Estendida

Published May 16, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Por mais de duas décadas, a arquitetura de Memória de Longo Prazo (LSTM) pioneira de Sepp Hochreiter tem sido instrumental em numerous avanços de aprendizado profundo e aplicações do mundo real. Desde a geração de linguagem natural até o poder de sistemas de reconhecimento de fala, LSTMs têm sido uma força motriz por trás da revolução da IA.

No entanto, mesmo o criador dos LSTMs reconheceu suas limitações inerentes que impediam que eles realizassem seu potencial total. Limitações como a incapacidade de revisar informações armazenadas, capacidades de memória limitadas e falta de parallelização abriram caminho para o surgimento de transformadores e outros modelos para superar os LSTMs em tarefas de linguagem mais complexas.

Mas em um desenvolvimento recente, Hochreiter e sua equipe na NXAI introduziram uma nova variante chamada LSTM estendida (xLSTM) que aborda essas questões de longa data. Apresentada em um artigo de pesquisa recente, xLSTM constrói sobre as ideias fundamentais que tornaram os LSTMs tão poderosos, superando suas principais fraquezas por meio de inovações arquiteturais.

No núcleo da xLSTM estão dois componentes novos: portas de controle exponenciais e estruturas de memória aprimoradas. O controle exponencial permite um controle mais flexível sobre o fluxo de informações, permitindo que as xLSTMs revisem efetivamente as decisões à medida que novos contextos são encontrados. Enquanto isso, a introdução da memória de matriz aumenta significativamente a capacidade de armazenamento em comparação com os LSTMs escalares tradicionais.

Mas os aprimoramentos não param por aí. Ao aproveitar técnicas emprestadas de grandes modelos de linguagem, como parallelizabilidade e empilhamento residual de blocos, as xLSTMs podem escalar eficientemente para bilhões de parâmetros. Isso desbloqueia seu potencial para modelar sequências extremamente longas e janelas de contexto – uma capacidade crítica para a compreensão de linguagem complexa.

As implicações da última criação de Hochreiter são monumentais. Imagine assistentes virtuais que possam rastrear contexto por horas de conversa. Ou modelos de linguagem que generalizam mais robustamente para novos domínios após o treinamento em dados amplos. As aplicações abrangem todos os lugares onde os LSTMs fizeram um impacto – chatbots, tradução, interfaces de fala, análise de programas e muito mais – mas agora turboalimentados com as capacidades de quebra de xLSTM.

Neste guia técnico profundo, mergulhamos nos detalhes arquiteturais da xLSTM, avaliando seus componentes novos, como LSTMs escalares e de matriz, mecanismos de controle exponencial, estruturas de memória e muito mais. Você ganhará insights dos resultados experimentais que mostram os ganhos de desempenho impressionantes da xLSTM sobre arquiteturas de estado da arte, como transformadores e modelos recorrentes mais recentes.

Compreendendo as Origens: As Limitações do LSTM

Antes de mergulharmos no mundo da xLSTM, é essencial entender as limitações que as arquiteturas LSTM tradicionais enfrentaram. Essas limitações têm sido a força motriz por trás do desenvolvimento da xLSTM e de outras abordagens alternativas.

Incapacidade de Revisar Decisões de Armazenamento: Uma das principais limitações do LSTM é sua luta para revisar valores armazenados quando um vetor mais semelhante é encontrado. Isso pode levar a um desempenho subótimo em tarefas que exigem atualizações dinâmicas de informações armazenadas.
Capacidades de Armazenamento Limitadas: Os LSTMs comprimem informações em estados de célula escalares, o que pode limitar sua capacidade de armazenar e recuperar padrões de dados complexos de forma eficaz, particularmente ao lidar com tokens raros ou dependências de longo alcance.
Falta de Parallelizabilidade: O mecanismo de mistura de memória nos LSTMs, que envolve conexões ocultas-ocultas entre etapas de tempo, impõe o processamento sequencial, dificultando a parallelização dos cálculos e limitando a escalabilidade.

Essas limitações abriram caminho para o surgimento de transformadores e outras arquiteturas que superaram os LSTMs em certos aspectos, particularmente ao escalar para modelos maiores.

A Arquitetura xLSTM

Família de LSTM estendida (xLSTM)

No núcleo da xLSTM estão duas principais modificações no quadro de trabalho tradicional do LSTM: portas de controle exponenciais e estruturas de memória novas. Esses aprimoramentos introduzem duas novas variantes de LSTM, conhecidas como sLSTM (LSTM escalar) e mLSTM (LSTM de matriz).

sLSTM: O LSTM escalar com portas de controle exponenciais e mistura de memória
- Portas de Controle Exponenciais: O sLSTM incorpora funções de ativação exponenciais para portas de entrada e esquecimento, permitindo um controle mais flexível sobre o fluxo de informações.
- Normalização e Estabilização: Para prevenir instabilidades numéricas, o sLSTM introduz um estado normalizador que acompanha o produto das portas de entrada e das portas de esquecimento futuras.
- Mistura de Memória: O sLSTM suporta várias células de memória e permite a mistura de memória por meio de conexões recorrentes, permitindo a extração de padrões complexos e capacidades de rastreamento de estado.
mLSTM: O LSTM de matriz com capacidades de armazenamento aprimoradas
- Memória de Matriz: Em vez de uma célula de memória escalar, o mLSTM utiliza uma memória de matriz, aumentando sua capacidade de armazenamento e permitindo uma recuperação mais eficiente de informações.
- Regra de Atualização de Covariância: O mLSTM emprega uma regra de atualização de covariância, inspirada em Memórias Associativas Bidirecionais (BAMs), para armazenar e recuperar pares de chave-valor de forma eficiente.
- Parallelizabilidade: Ao abandonar a mistura de memória, o mLSTM alcança uma parallelização total, permitindo cálculos eficientes em aceleradores de hardware modernos, como GPUs, e habilitando a escalabilidade para modelos maiores.

Essas duas variantes, sLSTM e mLSTM, podem ser integradas em arquiteturas de blocos residuais, formando blocos xLSTM. Ao empilhar residualmente esses blocos xLSTM, os pesquisadores podem construir arquiteturas xLSTM poderosas personalizadas para tarefas e domínios de aplicação específicos.

A Matemática

LSTM Tradicional:

A arquitetura LSTM original introduziu o carrossel de erro constante e mecanismos de controle para superar o problema do gradiente desaparecido em redes neurais recorrentes.

O módulo repetido em um LSTM – Fonte

As atualizações do estado de memória do LSTM são governadas pelas seguintes equações:

Atualização do Estado da Célula: ct = ft ⊙ ct-1 + it ⊙ zt

Atualização do Estado Oculto: ht = ot ⊙ tanh(ct)

Onde:

é o vetor de estado da célula no tempo $t$
é o vetor da porta de esquecimento
é o vetor da porta de entrada
é o vetor da porta de saída
é a entrada modulada pela porta de entrada
representa a multiplicação elementar

As portas ft, it e ot controlam quais informações são armazenadas, esquecidas e saídas do estado da célula ct, mitigando o problema do gradiente desaparecido.

xLSTM com Portas de Controle Exponenciais:

A arquitetura xLSTM introduz portas de controle exponenciais para permitir um controle mais flexível sobre o fluxo de informações. Para a variante sLSTM:

Atualização do Estado da Célula: ct = ft ⊙ ct-1 + it ⊙ zt

Atualização do Estado Normalizador: nt = ft ⊙ nt-1 + it

Atualização do Estado Oculto: ht = ot ⊙ (ct / nt)

Portas de Entrada e Esquecimento: it = exp(W_i xt + R_i ht-1 + b_i) ft = σ(W_f xt + R_f ht-1 + b_f) OU ft = exp(W_f xt + R_f ht-1 + b_f)

As funções de ativação exponenciais para as portas de entrada (it) e esquecimento (ft), juntamente com o estado normalizador nt, permitem um controle mais eficaz sobre as atualizações de memória e a revisão de informações armazenadas.

xLSTM com Memória de Matriz:

Para a variante mLSTM com capacidade de armazenamento aprimorada:

Atualização do Estado da Célula: Ct = ft ⊙ Ct-1 + it ⊙ (vt kt^T)

Atualização do Estado Normalizador: nt = ft ⊙ nt-1 + it ⊙ kt

Atualização do Estado Oculto: ht = ot ⊙ (Ct qt / max(qt^T nt, 1))

Onde:

é o estado da célula de matriz
e são os vetores de valor e chave
é o vetor de consulta usado para recuperação

Essas equações-chave destacam como a xLSTM estende a formulação original do LSTM com portas de controle exponenciais para um controle mais flexível sobre o fluxo de informações e memória de matriz para capacidades de armazenamento aprimoradas. A combinação dessas inovações permite que a xLSTM supere as limitações dos LSTMs tradicionais.

Recursos e Vantagens Chave da xLSTM

Capacidade de Revisar Decisões de Armazenamento: Graças às portas de controle exponenciais, a xLSTM pode revisar efetivamente os valores armazenados quando encontra informações mais relevantes, superando uma limitação significativa dos LSTMs tradicionais.
Capacidades de Armazenamento Aprimoradas: A memória de matriz no mLSTM fornece uma capacidade de armazenamento aumentada, permitindo que a xLSTM lide com tokens raros, dependências de longo alcance e padrões de dados complexos de forma mais eficaz.
Parallelizabilidade: A variante mLSTM da xLSTM é totalmente parallelizável, permitindo cálculos eficientes em aceleradores de hardware modernos, como GPUs, e habilitando a escalabilidade para modelos maiores.
Mistura de Memória e Rastreamento de Estado: A variante sLSTM da xLSTM retém as capacidades de mistura de memória dos LSTMs tradicionais, permitindo o rastreamento de estado e tornando a xLSTM mais expressiva do que os transformadores e os modelos de espaço de estado para certas tarefas.
Escalabilidade: Ao aproveitar as últimas técnicas dos grandes modelos de linguagem (LLMs), a xLSTM pode ser escalada para bilhões de parâmetros, desbloqueando novas possibilidades em modelagem de linguagem e processamento de sequências.

Avaliação Experimental: Destacando as Capacidades da xLSTM

O artigo de pesquisa apresenta uma avaliação experimental abrangente da xLSTM, destacando seu desempenho em várias tarefas e benchmarks. Aqui estão alguns resultados-chave:

Tarefas Sintéticas e Long Range Arena:
- A xLSTM se sai bem na resolução de tarefas de linguagem formal que exigem rastreamento de estado, superando transformadores, modelos de espaço de estado e outras arquiteturas de RNN.
- Na tarefa de Recuperação Associativa de Multi-Consulta, a xLSTM demonstra capacidades de memória aprimoradas, superando modelos não transformadores e rivalizando o desempenho dos transformadores.
- No benchmark da Long Range Arena, a xLSTM exibe um desempenho forte e consistente, demonstrando sua eficiência no tratamento de problemas de contexto de longo alcance.
Modelagem de Linguagem e Tarefas Downstream:
- Quando treinada em 15B tokens do conjunto de dados SlimPajama, a xLSTM supera os métodos existentes, incluindo transformadores, modelos de espaço de estado e outras variantes de RNN, em termos de perplexidade de validação.
- À medida que os modelos são escalados para tamanhos maiores, a xLSTM continua a manter sua vantagem de desempenho, demonstrando um comportamento de escalabilidade favorável.
- Em tarefas downstream, como raciocínio de senso comum e resposta a perguntas, a xLSTM emerge como o melhor método em vários tamanhos de modelo, superando as abordagens de estado da arte.
Desempenho em Tarefas de Linguagem PALOMA:
- Avaliada em 571 domínios de texto do benchmark PALOMA, a xLSTM[1:0] (a variante sLSTM) alcança perplexidades mais baixas do que outros métodos em 99,5% dos domínios em comparação com o Mamba, 85,1% em comparação com o Llama e 99,8% em comparação com o RWKV-4.
Leis de Escalabilidade e Extrapolación de Comprimento:
- Quando treinada em 300B tokens do SlimPajama, a xLSTM exibe leis de escalabilidade favoráveis, indicando seu potencial para melhorias de desempenho adicionais à medida que os tamanhos do modelo aumentam.
- Em experimentos de extrapolación de comprimento de sequência, os modelos xLSTM mantêm perplexidades baixas mesmo para contextos significativamente mais longos do que os vistos durante o treinamento, superando outros métodos.

Esses resultados experimentais destacam as capacidades notáveis da xLSTM, posicionando-a como uma promissora concorrente para tarefas de modelagem de linguagem, processamento de sequências e uma ampla gama de outras aplicações.

Aplicações no Mundo Real e Direções Futuras

As aplicações potenciais da xLSTM abrangem uma ampla gama de domínios, desde processamento de linguagem natural e geração até modelagem de sequências, análise de séries temporais e além. Aqui estão algumas áreas emocionais onde a xLSTM pode ter um impacto significativo:

Modelagem de Linguagem e Geração de Texto: Com suas capacidades de armazenamento aprimoradas e habilidade de revisar informações armazenadas, a xLSTM pode revolucionar tarefas de modelagem de linguagem e geração de texto, permitindo a geração de texto mais coerente, contextual e fluente.
Tradução de Máquina: As capacidades de rastreamento de estado da xLSTM podem ser inestimáveis em tarefas de tradução de máquina, onde manter informações contextuais e entender dependências de longo alcance é crucial para traduções precisas.
Reconhecimento e Geração de Fala: A parallelizabilidade e escalabilidade da xLSTM a tornam adequada para aplicações de reconhecimento e geração de fala, onde o processamento eficiente de sequências longas é essencial.
Análise e Previsão de Séries Temporais: A capacidade da xLSTM de lidar com dependências de longo alcance e armazenar e recuperar padrões complexos pode levar a melhorias significativas em tarefas de análise e previsão de séries temporais em vários domínios, como finanças, previsão do tempo e aplicações industriais.
Aprendizado por Reforço e Sistemas de Controle: O potencial da xLSTM no aprendizado por reforço e sistemas de controle é promissor, pois suas capacidades de memória aprimoradas e rastreamento de estado podem permitir uma tomada de decisão mais inteligente e controle em ambientes complexos.

Otimizações Arquiteturais e Ajuste de Hiperparâmetros

Embora os resultados atuais sejam promissores, ainda há espaço para otimizar a arquitetura xLSTM e ajustar seus hiperparâmetros. Os pesquisadores podem explorar combinações diferentes de blocos sLSTM e mLSTM, variando as razões e posicionamentos dentro da arquitetura geral. Além disso, uma busca sistemática de hiperparâmetros pode levar a melhorias adicionais de desempenho, particularmente para modelos maiores.

Otimizações de Hardware: Para aproveitar totalmente a parallelizabilidade da xLSTM, especialmente a variante mLSTM, os pesquisadores podem investigar otimizações de hardware personalizadas para arquiteturas de GPU específicas ou outros aceleradores. Isso pode envolver otimizar os kernels CUDA, estratégias de gerenciamento de memória e aproveitar instruções especializadas ou bibliotecas para operações de matriz eficientes.

Integração com Outros Componentes de Redes Neurais: Explorar a integração da xLSTM com outros componentes de redes neurais, como mecanismos de atenção, convoluções ou técnicas de aprendizado auto-supervisionado, pode levar a arquiteturas híbridas que combinem as forças de diferentes abordagens. Essas arquiteturas híbridas podem potencialmente desbloquear novas capacidades e melhorar o desempenho em uma ampla gama de tarefas.

Aprendizado de Poucos Disparos e Transferência de Aprendizado: Explorar o uso da xLSTM em cenários de aprendizado de poucos disparos e transferência de aprendizado pode ser uma área emocionante para pesquisas futuras. Ao aproveitar suas capacidades de memória aprimoradas e habilidades de rastreamento de estado, a xLSTM pode potencialmente permitir uma transferência de conhecimento mais eficiente e uma adaptação rápida a novas tarefas ou domínios com conjuntos de dados de treinamento limitados.

Interpretabilidade e Explicabilidade: Como muitos modelos de aprendizado profundo, o funcionamento interno da xLSTM pode ser opaco e difícil de interpretar. Desenvolver técnicas para interpretar e explicar as decisões tomadas pela xLSTM pode levar a modelos mais transparentes e confiáveis, facilitando sua adoção em aplicações críticas e promovendo a responsabilidade.

Estratégias de Treinamento Eficientes e Escaláveis: À medida que os modelos continuam a crescer em tamanho e complexidade, estratégias de treinamento eficientes e escaláveis se tornam cada vez mais importantes. Os pesquisadores podem explorar técnicas como parallelismo de modelo, parallelismo de dados e abordagens de treinamento distribuído específicas para arquiteturas xLSTM, permitindo o treinamento de modelos ainda maiores e potencialmente reduzindo os custos computacionais.

Essas são apenas algumas direções de pesquisa futura e áreas para exploração adicional com a xLSTM.

Conclusão

A introdução da xLSTM marca um marco significativo na busca por arquiteturas de modelagem de linguagem e processamento de sequências mais poderosas e eficientes. Ao abordar as limitações dos LSTMs tradicionais e aproveitar técnicas novas, como portas de controle exponenciais e estruturas de memória de matriz, a xLSTM demonstrou um desempenho notável em uma ampla gama de tarefas e benchmarks.

No entanto, a jornada não termina aqui. Como qualquer tecnologia inovadora, a xLSTM apresenta oportunidades emocionais para exploração adicional, refinamento e aplicação em cenários do mundo real. À medida que os pesquisadores continuam a empurrar os limites do que é possível, podemos esperar testemunhar avanços ainda mais impressionantes no campo do processamento de linguagem natural e inteligência artificial.

Aayush Mittal

Eu passei os últimos cinco anos me imergindo no fascinante mundo de Aprendizado de Máquina e Aprendizado Profundo. Minha paixão e especialização me levaram a contribuir para mais de 50 projetos diversificados de engenharia de software, com um foco particular em IA/ML. Minha curiosidade contínua também me atraiu para o Processamento de Linguagem Natural, um campo que estou ansioso para explorar mais.