Inteligência artificial

Mamba: Redefinindo Modelagem de Sequências e Superando a Arquitetura dos Transformers

Publicado em 18 de dezembro de 2023

Atualizado em 22 de maio de 2026

Por

Aayush Mittal Mittal

Neste artigo sobre Mamba, exploraremos como esse modelo de espaço de estado inovador (SSM) revoluciona a modelagem de sequências. Desenvolvido por Albert Gu e Tri Dao, Mamba é distinguido por sua eficiência no processamento de sequências complexas em campos como processamento de linguagem, genômica e análise de áudio. Sua modelagem de sequências em tempo linear com espaços de estado seletivos garante um desempenho excepcional em diversas modalidades.

Vamos mergulhar na capacidade do Mamba de superar os desafios computacionais enfrentados pelos Transformers tradicionais, especialmente com sequências longas. Sua abordagem seletiva em modelos de espaço de estado permite uma inferência mais rápida e uma escalabilidade linear com o comprimento da sequência, melhorando significativamente o desempenho.

A singularidade do Mamba reside em sua capacidade de processamento rápido, camada SSM seletiva e design inspirado em FlashAttention. Esses recursos permitem que o Mamba supere muitos modelos existentes, incluindo aqueles baseados na abordagem de Transformers, tornando-o um avanço notável na aprendizagem de máquina.

Transformers vs Mamba

Transformers, como o GPT-4, estabeleceram padrões em processamento de linguagem natural. No entanto, sua eficiência diminui com sequências mais longas. É aqui que o Mamba se destaca, com sua capacidade de processar sequências longas de forma mais eficiente e sua arquitetura única que simplifica todo o processo.

Os Transformers são habilidosos em lidar com sequências de dados, como texto para modelos de linguagem. Ao contrário dos modelos anteriores que processavam os dados sequencialmente, os Transformers processam sequências inteiras simultaneamente, permitindo que eles capturem relacionamentos complexos dentro dos dados.

Eles usam um mecanismo de atenção, que permite que o modelo se concentre em diferentes partes da sequência ao fazer previsões.

Essa atenção é computada usando três conjuntos de pesos: consultas, chaves e valores, derivados dos dados de entrada. Cada elemento em uma sequência é comparado a todos os outros elementos, fornecendo um peso que sinaliza a importância, ou ‘atenção’, que cada elemento deve receber ao prever o próximo elemento na sequência.

Os Transformers mantêm dois blocos principais: o codificador, que processa os dados de entrada, e o decodificador, que gera a saída. O codificador consiste em várias camadas, cada uma contendo duas subcamadas: um mecanismo de autoatenção multi-cabeça e uma rede neural feed-forward simples e position-wise. Normalização e conexões residuais são usadas em cada subcamada para ajudar no treinamento de redes profundas.

O decodificador também tem camadas com duas subcamadas semelhantes ao codificador, mas adiciona uma terceira subcamada que executa atenção multi-cabeça sobre a saída do codificador. A natureza sequencial do decodificador garante que as previsões para uma posição possam considerar apenas posições anteriores, preservando a propriedade autoregressiva.

Em contraste com os Transformers, o modelo Mamba adota uma abordagem diferente. Enquanto os Transformers lidam com o problema de sequências longas usando mecanismos de atenção mais complexos, o Mamba usa espaços de estado seletivos, fornecendo uma abordagem mais computacionalmente eficiente.

Aqui está uma visão geral de alto nível de como um Transformer funciona:

Processamento de Entrada: Os Transformers primeiro codificam os dados de entrada em um formato que o modelo possa entender, frequentemente usando embeddings que também incorporam a posição de cada elemento na sequência.
Mecanismo de Atenção: No seu núcleo, o mecanismo de atenção computa uma pontuação que representa quanto foco colocar em outras partes da sequência de entrada ao entender um elemento atual.
Arquitetura Codificador-Decodificador: O modelo Transformer é composto por um codificador para processar a entrada e um decodificador para gerar a saída. Cada um consiste em várias camadas que refinam a compreensão do modelo da entrada.
Atenção Multi-Cabeça: Dentro do codificador e do decodificador, a atenção multi-cabeça permite que o modelo atenda simultaneamente a diferentes partes da sequência de diferentes espaços de representação, melhorando sua capacidade de aprender de contextos diversos.
Redes Neurais Feed-Forward Position-Wise: Após a atenção, uma rede neural simples processa a saída de cada posição separadamente e de forma idêntica. Isso é combinado com a entrada por meio de uma conexão residual e seguido de normalização de camada.
Geração de Saída: O decodificador então prevê uma sequência de saída, influenciada pelo contexto do codificador e pelo que foi gerado até o momento.

A capacidade do Transformer de lidar com sequências em paralelo e seu robusto mecanismo de atenção o tornam poderoso para tarefas como tradução e geração de texto.

Em contraste, o modelo Mamba opera de forma diferente, usando espaços de estado seletivos para processar sequências. Essa abordagem aborda a ineficiência computacional nos Transformers ao lidar com sequências longas. O design do Mamba permite uma inferência mais rápida e escala linearmente com o comprimento da sequência, estabelecendo um novo paradigma para a modelagem de sequências que pode ser mais eficiente, especialmente à medida que as sequências se tornam cada vez mais longas.

Mamba

O que torna o Mamba verdadeiramente único é sua divergência das tradicionais blocos de atenção e MLP. Essa simplificação leva a um modelo mais leve e rápido que escala linearmente com o comprimento da sequência – uma proeza inigualada por seus antecessores.

Os principais recursos do Mamba incluem:

SSMs Seletivos: Esses permitem que o Mamba filtre informações irrelevantes e se concentre em dados relevantes, melhorando sua capacidade de lidar com sequências. Essa seletividade é crucial para o raciocínio baseado em conteúdo eficiente.
Algoritmo Consciente de Hardware: O Mamba usa um algoritmo paralelo otimizado para hardware moderno, especialmente GPUs. Esse design permite computação mais rápida e reduz os requisitos de memória em comparação com modelos tradicionais.
Arquitetura Simplificada: Ao integrar SSMs seletivos e eliminar blocos de atenção e MLP, o Mamba oferece uma estrutura mais simples e homogênea. Isso leva a uma melhor escalabilidade e desempenho.

O Mamba demonstrou um desempenho superior em vários domínios, incluindo linguagem, áudio e genômica, destacando-se tanto em pré-treinamento quanto em tarefas específicas de domínio. Por exemplo, em modelagem de linguagem, o Mamba iguala ou supera o desempenho de modelos Transformers maiores.

O código e os modelos pré-treinados do Mamba estão disponíveis para uso da comunidade no GitHub.

Tarefas de cópia padrão são simples para modelos lineares. Cópia seletiva e cabeçalhos de indução requerem memória dinâmica e consciente de conteúdo para LLMs.

Modelos de Espaço de Estado Estruturados (S4) surgiram recentemente como uma classe promissora de modelos de sequência, abrangendo características de RNNs, CNNs e modelos de espaço de estado clássicos. Os modelos S4 derivam inspiração de sistemas contínuos, especificamente um tipo de sistema que mapeia funções unidimensionais ou sequências por meio de um estado latente implícito. No contexto da aprendizagem de máquina, eles representam uma inovação significativa, fornecendo uma nova metodologia para o design de modelos de sequência que são eficientes e altamente adaptáveis.

A Dinâmica dos Modelos S4

SSM (S4) Este é o modelo de espaço de estado estruturado básico. Ele recebe uma sequência x e produz uma saída y usando parâmetros aprendidos A, B, C e um parâmetro de atraso Δ. A transformação envolve a discretização dos parâmetros (transformando funções contínuas em discretas) e a aplicação da operação SSM, que é invariante no tempo – significando que não muda ao longo de diferentes etapas de tempo.

A Importância da Discretização

A discretização é um processo fundamental que transforma os parâmetros contínuos em discretos por meio de fórmulas fixas, permitindo que os modelos S4 mantenham uma conexão com sistemas de tempo contínuo. Isso confere aos modelos propriedades adicionais, como invariância de resolução, e garante uma normalização adequada, melhorando a estabilidade e o desempenho do modelo. A discretização também traça paralelos com os mecanismos de porta encontrados em RNNs, que são críticos para gerenciar o fluxo de informações ao longo da dimensão da sequência.

Invariância Linear no Tempo (LTI)

Uma característica central dos modelos S4 é sua invariância linear no tempo. Essa propriedade implica que a dinâmica do modelo permanece consistente ao longo do tempo, com os parâmetros fixos para todos os passos de tempo. A LTI é uma pedra angular da recorrência e das convoluções, oferecendo um quadro simplificado, mas poderoso, para a construção de modelos de sequência.

Superando Limitações Fundamentais

A estrutura S4 foi tradicionalmente limitada por sua natureza LTI, que apresenta desafios na modelagem de dados que exigem dinâmicas adaptativas. O artigo de pesquisa recente apresenta uma abordagem que supera essas limitações, introduzindo parâmetros que variam com o tempo, removendo assim a restrição da LTI. Isso permite que os modelos S4 lidem com um conjunto mais diversificado de sequências e tarefas, expandindo significativamente sua aplicabilidade.

O termo ‘modelo de espaço de estado’ abrange qualquer processo recorrente que envolva um estado latente e tem sido usado para descrever vários conceitos em diferentes disciplinas. No contexto da aprendizagem de máquina, os modelos S4, ou espaços de estado estruturados, se referem a uma classe específica de modelos que foram otimizados para computação eficiente, mantendo a capacidade de modelar sequências complexas.

Os modelos S4 podem ser integrados a arquiteturas de redes neurais de ponta a ponta, funcionando como transformações de sequência autônomas. Eles podem ser vistos como análogos a camadas de convolução em CNNs, fornecendo a espinha dorsal para a modelagem de sequência em uma variedade de arquiteturas de redes neurais.

SSM vs SSM + Seleção

Motivação para Seletividade na Modelagem de Sequências

SSMs Estruturados

O artigo argumenta que um aspecto fundamental da modelagem de sequências é a compressão do contexto em um estado gerenciável. Modelos que podem se concentrar seletivamente ou filtrar entradas fornecem uma forma mais eficaz de manter esse estado comprimido, levando a modelos de sequência mais eficientes e poderosos. Essa seletividade é vital para que os modelos controlem adaptativamente como as informações fluem ao longo da dimensão da sequência, uma capacidade essencial para lidar com tarefas complexas em modelagem de linguagem e além.

Os SSMs seletivos aprimoram os SSMs convencionais, permitindo que seus parâmetros sejam dependentes da entrada, introduzindo um grau de adaptabilidade anteriormente inatingível com modelos de tempo invariante. Isso resulta em SSMs que variam com o tempo, que não podem mais usar convoluções para computação eficiente, mas dependem de um mecanismo de recorrência linear, uma desviação significativa dos modelos tradicionais.

SSM + Seleção (S6) Esta variante inclui um mecanismo de seleção, adicionando dependência de entrada aos parâmetros B e C, e um parâmetro de atraso Δ. Isso permite que o modelo se concentre seletivamente em certas partes da sequência de entrada x. Os parâmetros são discretizados, considerando a seleção, e a operação SSM é aplicada de forma que varia com o tempo, usando uma operação de varredura, que processa elementos sequencialmente, ajustando o foco dinamicamente ao longo do tempo.

Destaque de Desempenho do Mamba

Mamba é a melhor classe em todos os resultados de avaliação

Em termos de desempenho, o Mamba se destaca tanto em velocidade de inferência quanto em precisão. Seu design permite uma melhor utilização de contextos mais longos, demonstrado tanto na modelagem de DNA quanto na modelagem de áudio, superando modelos anteriores em tarefas complexas que exigem dependências de longo alcance. Sua versatilidade também é destacada em avaliações zero-shot em várias tarefas, estabelecendo um novo padrão para esses modelos em termos de eficiência e escalabilidade.

Como Começar com o Mamba

Para aqueles interessados em aproveitar o Mamba, os requisitos técnicos incluem um sistema operacional Linux, uma GPU NVIDIA, PyTorch 1.12+ e CUDA 11.6+. A instalação envolve comandos pip simples para instalar os pacotes necessários do repositório do Mamba. Se surgirem problemas de compatibilidade com versões do PyTorch, usar a flag –no-build-isolation com o pip pode ajudar. Esses modelos, treinados em conjuntos de dados extensos como o Pile e o SlimPajama, são projetados para atender a várias necessidades computacionais e padrões de desempenho.

O Mamba oferece diferentes níveis de interface, desde a camada SSM seletiva até o bloco Mamba e estruturas de modelo de linguagem completas. O bloco Mamba, que é o módulo principal da arquitetura, utiliza uma camada Conv1d causal e pode ser facilmente integrado a designs de redes neurais. O exemplo de uso fornecido em Python demonstra a instância de um modelo Mamba e o processamento de dados por meio dele, destacando a simplicidade e a flexibilidade do sistema.

Modelos pré-treinados do Mamba estão disponíveis no Hugging Face, com tamanhos variando de 130M a 2,8B parâmetros, treinados no conjunto de dados Pile e no conjunto de dados SlimPajama. Esses modelos são projetados para atender a necessidades computacionais e de desempenho diversificadas, seguindo os padrões dimensionais do GPT-3. Os usuários podem esperar um alto throughput e precisão desses modelos, tornando o Mamba uma escolha competitiva para várias aplicações, incluindo, mas não limitado a, modelagem de linguagem.

Impacto do Mamba

O Mamba representa um salto para a modelagem de sequências, oferecendo uma alternativa poderosa às arquiteturas de Transformers para o processamento de dados densos em informações. Seu design está alinhado com as demandas do hardware moderno, otimizando tanto o uso de memória quanto as capacidades de processamento paralelo. A disponibilidade de código aberto e modelos pré-treinados do Mamba o torna uma ferramenta acessível e robusta para pesquisadores e desenvolvedores no campo da IA e da aprendizagem de máquina.

Aayush Mittal, Mittal

Eu passei os últimos cinco anos me imergindo no fascinante mundo de Aprendizado de Máquina e Aprendizado Profundo. Minha paixão e expertise me levaram a contribuir para mais de 50 projetos de engenharia de software diversificados, com um foco particular em IA/ML. Minha curiosidade contínua também me levou em direção ao Processamento de Linguagem Natural, um campo que estou ansioso para explorar mais.