Inteligência artificial

MoE-LLaVA: Mistura de Especialistas para Grandes Modelos de Visão e Linguagem

Publicado em 1 de abril de 2024

Atualizado em 22 de maio de 2026

Por

Kunal Kejriwal

MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

Os avanços recentes nos Grandes Modelos de Visão e Linguagem (GVLMs) mostraram que a escalabilidade desses quadros melhora significativamente o desempenho em uma variedade de tarefas downstream. Os GVLMs, incluindo MiniGPT, LLaMA e outros, alcançaram capacidades notáveis incorporando camadas de projeção visual e um codificador de imagem em sua arquitetura. Ao implementar esses componentes, os GVLMs melhoram as capacidades de percepção visual dos Grandes Modelos de Linguagem (GMLs). O desempenho pode ser ainda melhorado aumentando o tamanho do modelo e o número de parâmetros, bem como expandindo a escala do conjunto de dados.

Modelos como o InternVL expandiram seu codificador de imagem para mais de 6 bilhões de parâmetros, enquanto outros expandiram a parte traseira dos GVLMs para 13 bilhões de parâmetros, alcançando um desempenho superior em uma ampla gama de tarefas. O IDEFICS treinou um GVLM com mais de 80 bilhões de parâmetros. Esses métodos de escalabilidade igualaram ou superaram o desempenho dos GMLs pré-treinados com mais de 34, 70 ou até 100 bilhões de parâmetros. No entanto, a escalabilidade tem um lado negativo: aumenta significativamente os custos de treinamento e inferência. Isso ocorre porque exige que todos os parâmetros sejam ativos para cada token em cálculo, levando a altas necessidades computacionais e, consequentemente, a custos mais altos.

Este artigo discute o MoE-LLaVA, uma arquitetura de modelo de visão e linguagem grande (GVLM) baseada em mistura de especialistas (MoE) que emprega uma estratégia de treinamento eficaz, o MoE-Tuning, para GVLMs. O MoE-Tuning aborda inovadoramente a degradação de desempenho no aprendizado de esparsidade multi-modal, resultando em um modelo com um grande número de parâmetros, mas com custos de treinamento e inferência consistentes. A arquitetura do MoE-LLaVA é projetada para ativar apenas os principais especialistas durante a implantação, mantendo os demais especialistas inativos.

Vamos explorar o quadro do MoE-LLaVA, examinando seu mecanismo, metodologia, arquitetura e como se compara com os principais quadros de geração de imagens e vídeos.

MoE-LLaVA: Escalando Grandes Modelos de Visão e Linguagem de Forma Acessível

Além de aproveitar as camadas de projeção visual e os codificadores de imagem, os Grandes Modelos de Visão e Linguagem também escalonam o tamanho do modelo aumentando o número de parâmetros para melhorar o desempenho do modelo. Alguns exemplos notáveis de Grandes Modelos de Visão e Linguagem que seguiram essa abordagem para melhorar seu desempenho são o MiniGPT-4, o InternGPT, o InternVL e outros. Em aplicações do mundo real, escalonar um Grande Modelo de Linguagem ou um Grande Modelo de Visão e Linguagem com dados de treinamento de alta qualidade muitas vezes se torna uma necessidade para melhorar o desempenho do modelo. Embora escalonar o tamanho do modelo melhore o desempenho, também aumenta os custos computacionais de treinamento e implantação do modelo e aumenta ainda mais as complicações e a eficiência de implantação do modelo em dispositivos paralelos simultaneamente. Uma razão importante por trás dos aumentos nos custos de treinamento e inferência, juntamente com as necessidades computacionais, é que cada token no quadro exige cálculo com todos os parâmetros dentro do modelo, conhecido como modelo denso.

Por outro lado, os modelos esparçosos de mistura de especialistas (MoE) demonstraram uma escalabilidade eficaz dos quadros processando dados com a ajuda de parâmetros ativados fixos, uma abordagem que foi amplamente adotada no campo do Processamento de Linguagem Natural. No entanto, usar a mistura de especialistas para treinar diretamente os Grandes Modelos de Visão e Linguagem esparçosos é desafiador, pois converter os GMLs em GVLMs e esparsificar o modelo simultaneamente resulta em uma degradação significativa do desempenho. Para implementar a mistura de modelos para escalonar os GMLs e os GVLMs, é essencial inicializar primeiro o GVLM para a esparsificação. Para alcançar isso, o quadro do MoE-LLaVA introduz o MoE-Tuning, uma estratégia de treinamento de três fases simples, mas eficaz.

Como mostrado na figura acima, o processo de MoE-Tuning primeiro treina uma MLP (Multilayer Perceptron) que adapta os tokens visuais a um Grande Modelo de Linguagem na primeira etapa. O quadro então treina todos os parâmetros do GML para pré-empoderar o Grande Modelo de Visão e Linguagem com capacidades de compreensão multi-modal geral. Finalmente, na terceira etapa, o quadro replica a Rede Neural Feed Forward (FFN) como os pesos de inicialização para os especialistas e treina apenas as camadas de mistura de especialistas. No geral, o processo de treinamento ajuda na transição gradual do modelo esparso de uma inicialização de GVLM para uma mistura de especialistas esparçosos.

Com o processo de treinamento coberto, vamos iluminar o MoE-LLaVA, uma linha de base para Grandes Modelos de Visão e Linguagem com modelos de mistura de especialistas que incorporam roteadores aprendíveis e modelos de MoE. No núcleo, o modelo MoE-LLaVA consiste em múltiplas trajetórias esparçosas, e o quadro usa essas trajetórias para enviar cada token para diferentes especialistas por meio do roteador aprendível. Os tokens são então processados coletivamente pelos especialistas ativados, enquanto os caminhos inativos são mantidos silenciosos. O quadro então empilha as camadas de codificador de mistura de especialistas iterativamente para fornecer um caminho esparso em direção a um GVLM maior e mais poderoso.

Graças à abordagem implementada pelo quadro do MoE-LLaVA, ele consegue superar modelos com um número semelhante de parâmetros ativados e superá-los por uma grande diferença no benchmark de alucinação de objeto POPE, apesar de ter apenas 2,2 bilhões de parâmetros. Além disso, o quadro do MoE-LLaVA com 2,2 bilhões de parâmetros consegue alcançar um desempenho comparável ao do quadro InternVL-Chat-19B com quase 8 vezes o número de parâmetros ativados.

Modelos de Linguagem Grandes poderosos com capacidades de generalização e seguimento de instruções fortes foram implementados para os Grandes Modelos de Visão e Linguagem. Os primeiros GMLs, como o BLIP, codificaram sinais visuais em uma sequência de tokens visuais, permitindo que eles adaptem a visão aos GMLs com sucesso usando múltiplas camadas de projeção. Ao mesmo tempo, trabalhos recentes se concentram em melhorar o desempenho do modelo implementando métodos como a expansão do conjunto de dados de ajuste de instruções, o aumento da resolução da imagem, a otimização das estratégias de treinamento, o alinhamento da entrada, a melhoria dos codificadores de imagem e muito mais. Essas abordagens ajudaram a empoderar os GVLMs com capacidades de compreensão visual poderosas, expandindo o conjunto de dados de ajuste de instruções visuais e a escala do modelo. Além disso, alguns GVLMs também possuem capacidades de compreensão de imagem de granulação fina, como compreensão de região e compreensão de multi-região, juntamente com capacidades de fundamentação de pixel. No entanto, o custo computacional acompanhado da escalabilidade de dados visuais densos e modelos é frequentemente muito alto, o que torna difícil usá-los. Por outro lado, o quadro do MoE-LLaVA visa tornar a pesquisa de GVLMs mais acessível, aproveitando as capacidades dos modelos de MoE.

MoE-LLaVA: Método e Arquitetura

No núcleo, o quadro do MoE-LLaVA consiste em uma camada de projeção visual (Multilayer Perceptron), um codificador de visão, blocos de MoE, múltiplos blocos de GML empilhados e uma camada de incorporação de palavras.

Arquitetura

A tabela a seguir resume as configurações detalhadas do quadro do MoE-LLaVA.

Para uma imagem RGB dada, o codificador de visão processa as imagens para obter uma sequência de tokens visuais com uma camada de projeção visual mapeando a sequência de tokens visuais para as imagens de entrada. As entradas de texto são processadas pela camada de incorporação de palavras que as projeta para obter a sequência de tokens. Ao mesmo tempo, o quadro do MoE-LLaVA liga os tokens de texto e visuais juntos e os alimenta ao GML. No entanto, o quadro apenas treina a camada de projeção visual com o GML, que consiste em FFN ou Camadas de Atenção Auto-Multi-Cabeça. Finalmente, o quadro aplica conexões residuais e normalização de camada a cada bloco.

Continuando, o quadro do MoE-LLaVA replica as FFN ou Redes Neurais Feed Forward da segunda etapa para formar um conjunto de especialistas como o passo de inicialização. O roteador, sendo uma camada linear, prevê a probabilidade de cada token ser atribuído a cada especialista. Cada token é processado pelos principais especialistas com a soma ponderada calculada com base no resultado softmax das probabilidades. Uma vez que os principais especialistas são ativados, o modelo desativa os especialistas restantes, uma abordagem que equipa o quadro do MoE-LLaVA com caminhos esparçosos infinitamente possíveis, equipando o modelo com uma ampla gama de capacidades.

MoE-Tuning

O MoE-Tuning é uma estratégia de treinamento de três fases simples, mas eficaz, que primeiro treina uma MLP ou Multilayer Perceptron que adapta os tokens visuais a um Grande Modelo de Linguagem na primeira etapa. O quadro então treina todos os parâmetros do GML para pré-empoderar o Grande Modelo de Visão e Linguagem com capacidades de compreensão multi-modal geral. Finalmente, na terceira etapa, o quadro replica a FFN ou Rede Neural Feed Forward como os pesos de inicialização para os especialistas e treina apenas as camadas de mistura de especialistas.

Etapa 1

Na primeira etapa, o objetivo principal é adaptar os tokens de imagem ao grande modelo de linguagem, permitindo que o GML compreenda as instâncias na imagem. O quadro do MoE-LLaVA emprega uma Multilayer Perceptron para projetar os tokens de imagem no domínio de entrada do grande modelo de linguagem e trata os patches de imagem como tokens de texto pseudo. Nessa etapa, o quadro do MoE-LLaVA treina o GML para descrever as imagens e não aplica as camadas de MoE ao GML durante essa etapa.

Etapa 2

Na segunda etapa, o MoE-LLaVA tenta melhorar as capacidades e a controlabilidade do quadro ajustando o modelo com dados de instruções multi-modais. O MoE-LLaVA alcança isso ajustando o GML para se tornar um GVLM com capacidades de compreensão multi-modal. O quadro emprega instruções mais complexas, incluindo tarefas de reconhecimento de texto e raciocínio lógico de imagem que exigem que o modelo possua capacidades multi-modais mais fortes. Tradicionalmente, o processo de treinamento para modelos densos é considerado completo por essa etapa. No entanto, o MoE-LLaVA encontrou desafios para transformar o GML em um GVLM simultaneamente com a esparsificação do GVLM. Para contrariar esse desafio, o quadro utiliza os pesos da etapa como inicialização para a próxima etapa, tentando aliviar a dificuldade de aprendizado do modelo esparso.

Etapa 3

Na terceira etapa, o modelo replica a Rede Neural Feed Forward várias vezes para inicializar os especialistas como um procedimento de inicialização. O quadro então alimenta os tokens de texto e imagem às camadas de mistura de especialistas, após o que o roteador calcula os pesos de correspondência entre especialistas e cada token. Cada token é então processado pelos principais especialistas com a saída agregada calculada por soma ponderada com base nos pesos do roteador. Uma vez que os principais especialistas são ativados, o modelo desativa os especialistas restantes, uma abordagem que equipa o MoE-LLaVA com caminhos esparçosos infinitamente possíveis, equipando o modelo com uma ampla gama de capacidades.

MoE-LLaVA: Resultados e Experimentos

O quadro do MoE-LLaVA adota o CLIP-Large como o codificador de visão, com a Multilayer Perceptron consistindo em duas camadas com uma camada de ativação GELU separando as duas. Por padrão, o quadro emprega uma substituição alternada das Redes Neurais Feed Forward com as camadas de mistura de especialistas, significando que as camadas de mistura de especialistas compõem 50% do número total de camadas. A tabela a seguir contém os diferentes conjuntos de dados, juntamente com o tamanho da amostra usada para treinar e avaliar o quadro do MoE-LLaVA.

Resposta de Pergunta de Imagem Zero-Shot

A figura a seguir demonstra que o MoE-LLaVA é um modelo esparso com um roteador suave baseado no GVLM. O quadro é avaliado em 5 benchmarks de resposta de pergunta de imagem, e como pode ser observado, o MoE-LLaVA demonstra capacidades notáveis de compreensão de imagem e entrega um desempenho comparável ao do quadro LLaVA 1.5 de ponta em cinco benchmarks diferentes.

Avaliação de Alucinação de Objeto

Para avaliar a alucinação de objeto, o quadro do MoE-LLaVA adota o pipeline de avaliação POPE, um método de consulta baseado em votação, e os resultados são demonstrados na tabela a seguir. Como pode ser observado, de todos os quadros, o MoE-LLaVA entrega os resultados mais fortes, indicando a capacidade do quadro de gerar objetos consistentes com a imagem de entrada. Além disso, é digno de nota que o MoE-LLaVA equilibra a razão de sim bem, indicando a capacidade do modelo esparso de fornecer feedback preciso para a pergunta dada.

A imagem a seguir contém a distribuição de cargas de especialistas, onde as linhas descontínuas representam uma distribuição bem equilibrada de tokens entre as modalidades ou especialistas. A primeira figura ilustra a carga de trabalho dentro dos especialistas, enquanto as imagens restantes demonstram o desempenho dos especialistas em relação a diferentes modalidades.

Além disso, a figura a seguir demonstra a distribuição de modalidades em diferentes especialistas.

Pensamentos Finais

Neste artigo, discutimos o MoE-LLaVA, uma linha de base para Grandes Modelos de Visão e Linguagem com modelos de mistura de especialistas que incorporam roteadores aprendíveis e modelos de MoE. No núcleo, o modelo MoE-LLaVA consiste em múltiplas trajetórias esparçosas, e o quadro usa essas trajetórias para enviar cada token para diferentes especialistas por meio do roteador aprendível. Os tokens são então processados coletivamente pelos especialistas ativados, enquanto os caminhos inativos são mantidos silenciosos. O quadro então empilha as camadas de codificador de mistura de especialistas iterativamente para fornecer um caminho esparso em direção a um GVLM maior e mais poderoso. A estratégia de MoE-Tuning aborda a degradação de desempenho no aprendizado de esparsidade multi-modal de forma inovadora, construindo um modelo com um número significativamente grande de parâmetros, mas com custos de treinamento e inferência consistentes. A arquitetura do MoE-LLaVA foi projetada para ativar apenas os principais especialistas durante a implantação, mantendo os especialistas restantes inativos.

Kunal Kejriwal

Um engenheiro por profissão, um escritor por coração. Kunal é um escritor técnico com um amor e compreensão profundos de AI e ML, dedicado a simplificar conceitos complexos nestes campos por meio de sua documentação envolvente e informativa.