Inteligência artificial

xLSTM: um guia abrangente para memória estendida de longo e curto prazo

Atualização do on 16 de maio de 2024

Por mais de duas décadas, Sepp Hochreiter pioneiro Memória de longo prazo (LSTM) a arquitetura tem sido fundamental em vários avanços no aprendizado profundo e em aplicações do mundo real. Desde a geração de linguagem natural até a alimentação de sistemas de reconhecimento de fala, os LSTMs têm sido uma força motriz por trás da revolução da IA.

No entanto, mesmo o criador dos LSTMs reconheceu as suas limitações inerentes que os impediram de realizar todo o seu potencial. Deficiências como a incapacidade de revisar as informações armazenadas, capacidades de memória restritas e falta de paralelização abriram caminho para o surgimento de transformadores e outros modelos para superar os LSTMs para tarefas de linguagem mais complexas.

Mas num desenvolvimento recente, Hochreiter e a sua equipa na NXAI introduziram uma nova variante chamada LSTM estendido (xLSTM) que aborda essas questões de longa data. Apresentado em um artigo de pesquisa recente, o xLSTM baseia-se nas ideias fundamentais que tornaram os LSTMs tão poderosos, ao mesmo tempo que supera seus principais pontos fracos por meio de inovações arquitetônicas.

No centro do xLSTM estão dois novos componentes: portas exponenciais e estruturas de memória aprimoradas. A porta exponencial permite um controle mais flexível sobre o fluxo de informações, permitindo que os xLSTMs revisem efetivamente as decisões à medida que um novo contexto é encontrado. Enquanto isso, a introdução da memória matricial aumenta enormemente a capacidade de armazenamento em comparação com os LSTMs escalares tradicionais.

Mas as melhorias não param por aí. Ao aproveitar técnicas emprestadas de grandes modelos de linguagem, como paralelização e empilhamento residual de blocos, os xLSTMs podem escalar com eficiência para bilhões de parâmetros. Isso libera seu potencial para modelar sequências extremamente longas e janelas de contexto – uma capacidade crítica para a compreensão de linguagens complexas.

As implicações da última criação de Hochreiter são monumentais. Imagine assistentes virtuais que podem rastrear o contexto de maneira confiável durante conversas de horas de duração. Ou modelos de linguagem que generalizam de forma mais robusta para novos domínios após treinamento em dados amplos. As aplicações abrangem todos os lugares onde os LSTMs causaram impacto – chatbots, tradução, interfaces de fala, análise de programas e muito mais – mas agora turbinados com os recursos inovadores do xLSTM.

Neste guia técnico aprofundado, mergulharemos no arquiteturaDetailsOf xLSTM, avaliando seus novos componentes, como LSTMs escalares e matriciais, mecanismos de portas exponenciais, estruturas de memória e muito mais. Você obterá insights de resultados experimentais que mostram os impressionantes ganhos de desempenho do xLSTM em relação às arquiteturas de última geração, como transformadores e os modelos recorrentes mais recentes.

Compreendendo as origens: as limitações do LSTM

Antes de mergulharmos no mundo do xLSTM, é essencial compreender as limitações que as arquiteturas LSTM tradicionais enfrentam. Estas limitações têm sido a força motriz por trás do desenvolvimento do xLSTM e de outras abordagens alternativas.

Incapacidade de revisar decisões de armazenamento: Uma das principais limitações do LSTM é a dificuldade em revisar os valores armazenados quando um vetor mais semelhante é encontrado. Isso pode levar a um desempenho abaixo do ideal em tarefas que exigem atualizações dinâmicas das informações armazenadas.
Capacidades de armazenamento limitadas: Os LSTMs compactam informações em estados de células escalares, o que pode limitar sua capacidade de armazenar e recuperar efetivamente padrões de dados complexos, especialmente ao lidar com tokens raros ou dependências de longo alcance.
Falta de Paralelização: O mecanismo de mistura de memória em LSTMs, que envolve conexões ocultas entre intervalos de tempo, impõe processamento sequencial, dificultando a paralelização de cálculos e limitando a escalabilidade.

Essas limitações abriram caminho para o surgimento de Transformers e outras arquiteturas que ultrapassaram os LSTMs em certos aspectos, principalmente na escala para modelos maiores.

A arquitetura xLSTM

Família LSTM estendida (xLSTM)

No centro do xLSTM estão duas modificações principais na estrutura LSTM tradicional: portas exponenciais e novas estruturas de memória. Essas melhorias introduzem duas novas variantes do LSTM, conhecidas como sLSTM (LSTM escalar) e mLSTM (matriz LSTM).

sLSTM: O LSTM escalar com porta exponencial e mixagem de memória
- Porta exponencial: o sLSTM incorpora funções de ativação exponencial para portas de entrada e esquecimento, permitindo um controle mais flexível sobre o fluxo de informações.
- Normalização e Estabilização: Para evitar instabilidades numéricas, o sLSTM introduz um estado normalizador que rastreia o produto das portas de entrada e futuras portas de esquecimento.
- Mistura de memória: o sLSTM oferece suporte a múltiplas células de memória e permite a mistura de memória por meio de conexões recorrentes, permitindo a extração de padrões complexos e recursos de rastreamento de estado.
mLSTM: Matrix LSTM com capacidades de armazenamento aprimoradas
- Memória Matriz: Em vez de uma célula de memória escalar, o mLSTM utiliza uma memória matricial, aumentando sua capacidade de armazenamento e permitindo uma recuperação mais eficiente de informações.
- Regra de atualização de covariância: mLSTM emprega uma regra de atualização de covariância, inspirada em Memórias Associativas Bidirecionais (BAMs), para armazenar e recuperar pares de valores-chave de forma eficiente.
- Paralelização: Ao abandonar a mistura de memória, o mLSTM alcança total paralelização, permitindo cálculos eficientes em aceleradores de hardware modernos.

Estas duas variantes, sLSTM e mLSTM, podem ser integradas em arquiteturas de blocos residuais, formando blocos xLSTM. Ao empilhar residualmente esses blocos xLSTM, os pesquisadores podem construir poderosas arquiteturas xLSTM adaptadas para tarefas e domínios de aplicação específicos.

A matemática

LSTM tradicional:

A arquitetura LSTM original introduziu o carrossel de erros constantes e mecanismos de controle para superar o problema do gradiente evanescente em redes neurais recorrentes.

O módulo de repetição em um LSTM – fonte

As atualizações das células de memória LSTM são regidas pelas seguintes equações:

Atualização do estado da célula: ct = ft ⊙ ct-1 + it ⊙ zt

Atualização de estado oculto: ht = ot ⊙ tanh(ct)

Onde:

é o vetor de estado da célula no tempo $t$
é o vetor da porta do esquecimento
é o vetor da porta de entrada
é o vetor da porta de saída
é a entrada modulada pela porta de entrada
representa multiplicação elemento a elemento

Os portões controlam quais informações são armazenadas, esquecidas e emitidas do estado da célula, mitigando o problema do gradiente de desaparecimento.

xLSTM com controle exponencial:

A arquitetura xLSTM introduz portas exponenciais para permitir um controle mais flexível sobre o fluxo de informações. Para a variante escalar xLSTM (sLSTM):

Atualização do estado da célula: ct = ft ⊙ ct-1 + it ⊙ zt

Atualização do estado do normalizador: nt = ft ⊙ nt-1 + it

Atualização de estado oculto: ht = ot ⊙ (ct / nt)

Portas de entrada e esquecimento: it = exp (W_i xt + R_i ht-1 + b_i) ft = σ (W_f xt + R_f ht-1 + b_f) OU ft = exp (W_f xt + R_f ht-1 + b_f)

As funções de ativação exponencial para as portas de entrada (it) e esquecimento (ft), juntamente com o estado normalizador nt, permitem um controle mais eficaz sobre as atualizações de memória e a revisão das informações armazenadas.

xLSTM com memória matricial:

Para a variante Matrix xLSTM (mLSTM) com capacidade de armazenamento aprimorada:

Atualização do estado da célula: Ct = ft ⊙ Ct-1 + it ⊙ (vt kt^T)

Atualização do estado do normalizador: nt = ft ⊙ nt-1 + it ⊙ kt

Atualização de estado oculto: ht = ot ⊙ (Ct qt / max(qt^T nt, 1))

Onde:

é o estado da célula da matriz
e são o valor e os vetores-chave
é o vetor de consulta usado para recuperação

Essas equações principais destacam como o xLSTM estende a formulação LSTM original com portas exponenciais para controle de memória mais flexível e memória matricial para recursos aprimorados de armazenamento. A combinação dessas inovações permite que o xLSTM supere as limitações dos LSTMs tradicionais.

Principais recursos e vantagens do xLSTM

Capacidade de revisar decisões de armazenamento: Graças ao gate exponencial, o xLSTM pode revisar efetivamente os valores armazenados ao encontrar informações mais relevantes, superando uma limitação significativa dos LSTMs tradicionais.
Capacidades de armazenamento aprimoradas: A memória matricial no mLSTM fornece maior capacidade de armazenamento, permitindo que o xLSTM lide com tokens raros, dependências de longo alcance e padrões de dados complexos de forma mais eficaz.
Paralelização: A variante mLSTM do xLSTM é totalmente paralelizável, permitindo cálculos eficientes em aceleradores de hardware modernos, como GPUs, e permitindo escalabilidade para modelos maiores.
Mistura de memória e rastreamento de estado: A variante sLSTM do xLSTM retém os recursos de mistura de memória dos LSTMs tradicionais, permitindo o rastreamento de estado e tornando o xLSTM mais expressivo do que transformadores e modelos de espaço de estado para determinadas tarefas.
AMPLIAR: Ao aproveitar as técnicas mais recentes dos modernos Large Language Models (LLMs), o xLSTM pode ser dimensionado para bilhões de parâmetros, abrindo novas possibilidades em modelagem de linguagem e tarefas de processamento de sequência.

Avaliação Experimental: Apresentando as Capacidades do xLSTM

O artigo de pesquisa apresenta uma avaliação experimental abrangente do xLSTM, destacando seu desempenho em diversas tarefas e benchmarks. Aqui estão algumas descobertas importantes:

Tarefas Sintéticas e Arena de Longo Alcance:
- O xLSTM é excelente na solução de tarefas de linguagem formal que exigem rastreamento de estado, superando transformadores, modelos de espaço de estado e outras arquiteturas RNN.
- Na tarefa Multi-Query Associative Recall, o xLSTM demonstra capacidades de memória aprimoradas, superando os modelos não-Transformer e rivalizando com o desempenho dos Transformers.
- No benchmark Long Range Arena, o xLSTM exibe um desempenho forte e consistente, demonstrando sua eficiência no tratamento de problemas de longo contexto.
Modelagem de linguagem e tarefas downstream:
- Quando treinado em tokens de 15 bilhões do conjunto de dados SlimPajama, o xLSTM supera os métodos existentes, incluindo transformadores, modelos de espaço de estado e outras variantes RNN, em termos de perplexidade de validação.
- À medida que os modelos são dimensionados para tamanhos maiores, o xLSTM continua a manter sua vantagem de desempenho, demonstrando um comportamento de dimensionamento favorável.
- Em tarefas posteriores, como raciocínio de bom senso e resposta a perguntas, o xLSTM surge como o melhor método em vários tamanhos de modelos, superando as abordagens de última geração.
Desempenho em tarefas de linguagem PALOMA:
- Avaliado em 571 domínios de texto do benchmark de linguagem PALOMA, xLSTM[1:0] (a variante sLSTM) atinge perplexidades mais baixas do que outros métodos em 99.5% dos domínios em comparação com Mamba, 85.1% em comparação com Llama e 99.8% em comparação com RWKV -4.
Leis de escala e extrapolação de comprimento:
- Quando treinado em tokens de 300 bilhões do SlimPajama, o xLSTM exibe leis de escalabilidade favoráveis, indicando seu potencial para melhorias adicionais de desempenho à medida que o tamanho do modelo aumenta.
- Em experimentos de extrapolação de comprimento de sequência, os modelos xLSTM mantêm baixas perplexidades mesmo para contextos significativamente mais longos do que aqueles observados durante o treinamento, superando outros métodos.

Esses resultados experimentais destacam as capacidades notáveis do xLSTM, posicionando-o como um candidato promissor para tarefas de modelagem de linguagem, processamento de sequências e uma ampla gama de outras aplicações.

Aplicações do mundo real e direções futuras

As aplicações potenciais do xLSTM abrangem uma ampla gama de domínios, desde processamento e geração de linguagem natural até modelagem de sequência, análise de séries temporais e muito mais. Aqui estão algumas áreas interessantes onde o xLSTM pode causar um impacto significativo:

Modelagem de Linguagem e Geração de Texto: Com suas capacidades de armazenamento aprimoradas e capacidade de revisar informações armazenadas, o xLSTM pode revolucionar a modelagem de linguagem e as tarefas de geração de texto, permitindo uma geração de texto mais coerente, consciente do contexto e fluente.
Maquina de tradução: Os recursos de rastreamento de estado do xLSTM podem ser inestimáveis em tarefas de tradução automática, onde a manutenção de informações contextuais e a compreensão de dependências de longo alcance são cruciais para traduções precisas.
Reconhecimento e geração de fala: A paralelização e a escalabilidade do xLSTM o tornam adequado para aplicações de reconhecimento e geração de fala, onde o processamento eficiente de sequências longas é essencial.
Análise e Previsão de Séries Temporais: a capacidade do xLSTM de lidar com dependências de longo alcance e armazenar e recuperar padrões complexos de maneira eficaz pode levar a melhorias significativas na análise de séries temporais e tarefas de previsão em vários domínios, como finanças, previsão do tempo e aplicações industriais.
Sistemas de Aprendizagem e Controle por Reforço: O potencial do xLSTM em sistemas de aprendizado e controle por reforço é promissor, pois seus recursos aprimorados de memória e habilidades de rastreamento de estado podem permitir tomada de decisões e controle mais inteligentes em ambientes complexos.

Otimizações de arquitetura e ajuste de hiperparâmetros

Embora os resultados atuais sejam promissores, ainda há espaço para otimizar a arquitetura xLSTM e ajustar seus hiperparâmetros. Os pesquisadores poderiam explorar diferentes combinações de blocos sLSTM e mLSTM, variando as proporções e posicionamentos dentro da arquitetura geral. Além disso, uma pesquisa sistemática de hiperparâmetros poderia levar a melhorias adicionais de desempenho, especialmente para modelos maiores.

Otimizações com reconhecimento de hardware: Para aproveitar totalmente a paralelização do xLSTM, especialmente a variante mLSTM, os pesquisadores poderiam investigar otimizações com reconhecimento de hardware adaptadas para arquiteturas de GPU específicas ou outros aceleradores. Isso poderia envolver a otimização dos kernels CUDA, estratégias de gerenciamento de memória e o aproveitamento de instruções ou bibliotecas especializadas para operações eficientes de matrizes.

Integração com outros componentes da rede neural: Explorar a integração do xLSTM com outros componentes da rede neural, como mecanismos de atenção, convoluções ou técnicas de aprendizagem autossupervisionadas, pode levar a arquiteturas híbridas que combinem os pontos fortes de diferentes abordagens. Estes modelos híbridos poderiam potencialmente desbloquear novas capacidades e melhorar o desempenho numa gama mais ampla de tarefas.

Aprendizagem por transferência e poucas tentativas: Explorar o uso de xLSTM em cenários de aprendizagem de transferência e de poucas tentativas pode ser um caminho interessante para pesquisas futuras. Ao aproveitar seus recursos aprimorados de memória e habilidades de rastreamento de estado, o xLSTM poderia potencialmente permitir uma transferência de conhecimento mais eficiente e uma rápida adaptação a novas tarefas ou domínios com dados de treinamento limitados.

Interpretabilidade e explicabilidade: Tal como acontece com muitos modelos de aprendizagem profunda, o funcionamento interno do xLSTM pode ser opaco e difícil de interpretar. O desenvolvimento de técnicas para interpretar e explicar as decisões tomadas pelo xLSTM poderia levar a modelos mais transparentes e confiáveis, facilitando a sua adoção em aplicações críticas e promovendo a responsabilização.

Estratégias de treinamento eficientes e escaláveis: À medida que os modelos continuam a crescer em tamanho e complexidade, estratégias de treinamento eficientes e escaláveis tornam-se cada vez mais importantes. Os pesquisadores poderiam explorar técnicas como paralelismo de modelos, paralelismo de dados e abordagens de treinamento distribuído especificamente adaptadas para arquiteturas xLSTM, permitindo o treinamento de modelos ainda maiores e reduzindo potencialmente os custos computacionais.

Estas são algumas possíveis direções de pesquisa futura e áreas para exploração adicional com xLSTM.

Conclusão

A introdução do xLSTM marca um marco significativo na busca por modelagem de linguagem e arquiteturas de processamento de sequência mais poderosas e eficientes. Ao abordar as limitações dos LSTMs tradicionais e aproveitar novas técnicas, como portas exponenciais e estruturas de memória matricial, o xLSTM demonstrou um desempenho notável em uma ampla gama de tarefas e benchmarks.

No entanto, a jornada não termina aqui. Como acontece com qualquer tecnologia inovadora, o xLSTM apresenta oportunidades interessantes para maior exploração, refinamento e aplicação em cenários do mundo real. À medida que os investigadores continuam a ultrapassar os limites do que é possível, podemos esperar testemunhar avanços ainda mais impressionantes no campo do processamento de linguagem natural e da inteligência artificial.

Tópicos relacionados:Modelos de linguagem grandes LSTM RNN xLSTM

A seguir

Reddit faz parceria com OpenAI para trazer recursos baseados em IA

Não Perca

A IA pode interpretar sonhos?

Aayush Mittal

Passei os últimos cinco anos mergulhando no fascinante mundo do Machine Learning e Deep Learning. Minha paixão e experiência me levaram a contribuir para mais de 50 projetos diversos de engenharia de software, com foco particular em AI/ML. Minha curiosidade contínua também me atraiu para o Processamento de Linguagem Natural, um campo que estou ansioso para explorar mais.