toco MiniGPT-5: geração intercalada de visão e linguagem por meio de Vokens generativos - Unite.AI
Entre em contato

Inteligência artificial

MiniGPT-5: geração intercalada de visão e linguagem por meio de Vokens generativos

mm
Atualização do on

Nos últimos anos, os Grandes Modelos de Linguagem (LLMs) têm atraído a atenção de desenvolvedores de IA em todo o mundo devido aos avanços no Processamento de Linguagem Natural (PNL). Esses modelos estabeleceram novos padrões de referência na geração e compreensão de texto. No entanto, apesar do progresso na geração de textos, produzir imagens que correspondam de forma coerente às narrativas textuais ainda é um desafio. Para resolver isso, os desenvolvedores introduziram uma visão inovadora e uma abordagem de geração de linguagem baseada em “vokens generativos”, preenchendo a lacuna para resultados harmonizados de texto-imagem.

A base por trás do MiniGPT-5 é uma estratégia de treinamento em duas etapas que se concentra fortemente na geração de dados multimodais sem descrição, onde os dados de treinamento não requerem descrições de imagem abrangentes. Além disso, para aumentar a integridade do modelo, o modelo incorpora um sistema de orientação sem classificador que aumenta a eficácia de um voken para geração de imagens. Na fase inicial, a estrutura MiniGPT-5 demonstrou um desempenho poderoso e uma melhoria substancial em relação ao modelo Divter de linha de base que é treinado no conjunto de dados MMDialog, e demonstrou constantemente sua capacidade de fornecer resultados multimodais comparáveis ​​e até superiores nas avaliações humanas realizadas. no conjunto de dados VIST que destaca ainda mais seu desempenho e eficiência em vários benchmarks. 

MiniGPT5: uma introdução

Com o desenvolvimentos recentes das estruturas LLM, e aplicativos baseados nessas estruturas LLM, a integração de recursos multimídia é um campo que testemunhou um aumento em sua popularidade, pois também prova ser um avanço vital que alimenta uma ampla gama de aplicativos, desde ferramentas de criação de conteúdo de última geração a um agente de diálogo multimodal de última geração. Com pesquisa e desenvolvimento contínuos, os modelos de linguagem e visão estão no ponto em que o trabalho está em andamento para facilitar a geração de dados textuais e visuais de maneira integrada. O capacidade do LLM de gerar dados multimodais perfeitamente ajudará a melhorar as interações em diferentes domínios, incluindo comércio eletrônico, mídia e realidade virtual. 

Em última análise, o objectivo é permitir que os modelos sintetizem, reconheçam e respondam de uma forma consistente e lógica utilizando modalidades textuais e visuais, desempenhando assim um papel crucial na harmonização do fluxo de informação e na criação de narrativas lógicas e consistentes. A necessidade de alcançar uma mistura de modalidades textuais e visuais é alimentada principalmente pela necessidade de interações multimodais mais fluidas, integradas e interativas em LLMs e, em última análise, alcançar a geração alternada de linguagem e visão. No entanto, alcançar interações multimodais integradas e interativas em LLMs é uma tarefa complicada, repleta de inúmeros desafios, incluindo

  1. Embora os LLM atuais sejam extremamente eficientes e capazes quando se trata de geração de texto e processamento de pares texto-imagem, eles não oferecem desempenho satisfatório quando se trata de geração de imagens. 
  2. O desenvolvimento destes modelos de visão e linguagem depende fortemente de dados focados em tópicos, o que torna um desafio para os modelos alinhar o texto gerado com as imagens correspondentes. 
  3. Finalmente, há uma necessidade de criar estratégias mais eficazes, pois com o aumento das suas capacidades, os requisitos de memória dos LLMs também aumentam, especialmente ao executar tarefas a jusante. 

A estrutura MiniGPT-5, uma técnica de algoritmo de geração de linguagem e visão intercalada que introduz o conceito de “vokens generativos” na tentativa de enfrentar os desafios mencionados acima. A estrutura MiniGPT-5 propõe uma nova abordagem para geração de dados multimodais, combinando grandes modelos de linguagem com técnicas de difusão estável usando tokens visuais especiais. O método de treinamento proposto em dois estágios usado pela estrutura MiniGPT-5 destaca a importância de um estágio fundamental livre de descrições e de preparar o modelo para fornecer desempenho eficiente mesmo em cenários com dados limitados. 

Mas o que separa o modelo MiniGPT-5 das estruturas atuais existentes é que os estágios genéricos da estrutura MiniGPT-5 não consistem em anotações específicas de domínio. Além disso, para garantir que o texto gerado e suas imagens correspondentes estejam em harmonia entre si, a estrutura MiniGPT-5 implanta uma estratégia de perda dupla que aprimora ainda mais a abordagem do MiniGPT-5 de usar orientação livre de classificador e vokens generativos. A estrutura MiniGPT-5 otimiza a eficiência do treinamento e aborda as restrições de memória graças à sua estratégia eficiente em termos de parâmetros para ajustar o modelo. 

Para fornecer um resumo rápido, a estrutura MiniGPT-5

  1. Propõe um método que usa codificadores multimodais que representam um método novo e genérico que historicamente provou ser mais eficaz do que LLMs tradicionais e usa tokens generativos combinados com técnicas de difusão estável para gerar linguagem intercalada e resultados visuais. 
  2. Propõe uma estratégia de treinamento em dois estágios para geração de resultados multimodais sem descrição e a inclusão de orientação sem classificador durante o treinamento para refinar ainda mais a qualidade dos dados gerados. 

O modelo MiniGPT-5 é fortemente inspirado em pesquisas e trabalhos anteriores realizados nas áreas de 

  • Geração de texto para imagem: Facilitar a transformação de descrições textuais em suas respectivas representações visuais e de modelos de texto em imagem. 
  • MLLMs ou modelos multimodais de grandes linguagens: Usando modelos LLM pré-treinados para explorar suas aplicações e eficácia em gerando dados multimodais
  • Geração Multimodal com Grandes Modelos de Linguagem: Aumentar os recursos de um LLM para integrar perfeitamente a geração de linguagem e dados visuais. 

MiniGPT-5: Método, Arquitetura e Estrutura

Para facilitar grandes modelos de linguagem com capacidades de geração de dados multimodais, o modelo MiniGPT-5 introduz uma estrutura que visa integrar modelos de geração de texto a imagem e modelos multimodais pré-treinados de grande linguagem. A estrutura MiniGPT-5 introduz ainda os “vokens generativos”, tokens visuais especiais que permitem aos desenvolvedores resolver as discrepâncias que aparecem em diferentes domínios, sendo capazes de treinar diretamente em imagens brutas. Para melhorar ainda mais a qualidade dos dados multimodais gerados pelos LLMs, a estrutura MiniGPT-5 introduz uma estratégia sem classificador juntamente com um método avançado de treinamento em duas etapas. Vamos dar uma olhada detalhada na estrutura MiniGPT-5. 

Estágio de entrada multimodal

Os desenvolvimentos de LLMs no passado recente trouxeram à luz as habilidades de compreensão multimodal dos LLMs, permitindo o processamento de imagens como uma entrada sequencial. A estrutura MiniGPT-5 faz uso de vokens generativos especialmente projetados para gerar recursos visuais na tentativa de expandir as habilidades de compreensão multimodal do LLM para geração de dados multimodais. Além disso, a estrutura MiniGPT-5 faz uso de técnicas de ajuste fino de última geração e eficientes em parâmetros para aprendizado de saída multimodal com a estrutura LLM. 

Codificação Multimodal

O codificador visual pré-treinado na estrutura MiniGPT-5 transforma cada imagem de entrada em um recurso, e cada token de texto é incorporado como um vetor, e os recursos de prompt de entrada são gerados quando essas incorporações são concatenadas entre si. 

Adicionando Vokens em Modelos de Linguagem Grande

Tradicionalmente, o vocabulário do Large Language Model consiste apenas em tokens textuais, razão pela qual os desenvolvedores que trabalham na estrutura MiniGPT-5 tiveram que preencher a lacuna entre os LLMs generativos e tradicionais. A estrutura MiniGPT-5 introduz um conjunto de tokens especiais como tokens generativos no vocabulário do LLM. A estrutura então aproveita o estado de saída oculto do LLM para esses vokens especiais para geração subsequente de imagens, e a inserção de imagens intercaladas é representada pela posição dos vokens. 

PEFT ou ajuste fino eficiente de parâmetros

PEFT ou Parameter Efficient Fine Tuning é um conceito crucial usado para treinar LLMs e, ainda assim, as aplicações do PEFT em ambientes multimodais ainda são inexploradas em grande medida. A estrutura MiniGPT-5 usa o ajuste fino eficiente de parâmetros sobre o codificador da estrutura MiniGPT-4 para treinar o modelo para entender melhor os prompts ou instruções e até mesmo melhorar o desempenho geral do modelo em ambientes zero-shot ou novos . 

Geração de resultados multimodais

Para alinhar com precisão o modelo generativo com os tokens generativos, a estrutura MiniGPT-5 formula um módulo de mapeamento compacto para combinar as dimensões e incorporar perdas de supervisão, incluindo perda de modelo de difusão latente e perda de espaço de texto. A perda de supervisão de difusão latente alinha os recursos visuais apropriados diretamente com os tokens, enquanto a perda de espaço de texto ajuda o modelo a aprender as posições corretas dos tokens. Como os vokens generativos na estrutura MiniGPT-5 são guiados diretamente pelas imagens, a estrutura MiniGPT-5 não exige que as imagens tenham uma descrição abrangente, resultando em um aprendizado livre de descrição. 

 Geração de espaço de texto

A estrutura MiniGPT-5 segue o método de modelagem de linguagem casual para gerar vokens e textos no espaço de texto em conjunto e, durante a fase de treinamento, os desenvolvedores anexam os vokens à posição das imagens verdadeiras e treinam o modelo para prever vokens dentro da geração de texto. 

Mapeando recursos Voken para geração de imagens

Depois de gerar o espaço de texto, a estrutura alinha o estado de saída oculto com o espaço de recurso condicional de texto do modelo de geração de texto para imagem. A estrutura também suporta um módulo mapeador de recursos que inclui um modelo MLP de camada dupla, uma sequência de recursos de decodificador que pode ser aprendida e um modelo de transformador codificador-decodificador de quatro camadas. 

Geração de imagens com LDM ou modelo de difusão latente

Para gerar as imagens necessárias no processo de remoção de ruído, a estrutura usa os recursos de mapeamento como entrada condicional. A estrutura também emprega um LDM ou Modelo de Difusão Latente para orientação, pois durante a fase de treinamento, a imagem real é primeiro convertida em um recurso latente usando um VAE pré-treinado, após o qual os desenvolvedores obtêm o recurso de ruído latente adicionando algum ruído . 

A abordagem abrangente implementada pela estrutura MiniGPT-5 permite que os desenvolvedores tenham uma compreensão coerente e geração de elementos visuais e textuais, usando tokens especializados, aproveitando os recursos de modelos pré-treinados e usando técnicas de treinamento inovadoras. 

MiniGPT-5: Treinamento e Resultados

Ao trabalhar na estrutura MiniGPT-5, os desenvolvedores observaram que o treinamento direto em um conjunto limitado de dados de texto e imagem intercalados pode resultar em imagens com qualidade diminuída e desalinhamento, dada a mudança significativa de domínio entre os domínios de imagem e texto. Para mitigar esse problema, os desenvolvedores adotaram duas estratégias de treinamento distintas, 

  1. Abrangendo a incorporação de técnicas de orientação sem classificador que aumentam a eficácia dos tokens generativos durante o processo de difusão. 
  2. A segunda estratégia é ainda dividida em duas etapas
    1. Um estágio inicial de pré-treinamento que se concentra principalmente no alinhamento de recursos grosseiros. 
    2. Um estágio de ajuste fino que facilita o aprendizado de recursos. 

CFG ou Orientação Gratuita do Classificador

A ideia de primeiro aproveitar o CFG para geração multimodal surgiu como resultado de uma tentativa de melhorar a consistência e a lógica entre as imagens e os textos gerados, e o CFG é introduzido durante o processo de difusão de texto para imagem. Este método observa que, ao treinar tanto a geração incondicional quanto a condicional com abandono de condicionamento, o modelo generativo pode alcançar resultados condicionais aprimorados.

Estratégia de treinamento em duas etapas

Dada a mudança significativa de domínio observada entre a geração de imagem de texto e a geração de texto puro, a estrutura MiniGPT-5 usa uma estratégia de dois estágios para treinamento

  1. Estágio de Alinhamento Unimodal ou UAS,
  2. Estágio de aprendizagem multimodal ou MLS. 

Inicialmente, a estrutura alinha os recursos de geração de imagem com o recurso voken em conjuntos de dados de pares texto-imagem únicos, onde cada amostra de dados contém apenas um texto e apenas uma imagem, e o texto geralmente é a legenda da imagem. Nesta fase, a estrutura permite que o LLM gere vokens utilizando legendas como entradas do LLM. 

Depois que o UAS for executado com sucesso, o modelo pode gerar imagens para descrições de texto único, mas tem dificuldades com a linguagem intercalada e a geração de visão, incluindo pares de texto-imagem, e é necessário um raciocínio complicado para a geração de imagem e texto. Para enfrentar esse obstáculo, os desenvolvedores ajustaram ainda mais a estrutura MiniGPT-5 usando parâmetros PEFT por meio de conjuntos de dados de visão e linguagem intercalados como o VIST. Durante esta fase, a estrutura constrói três tarefas diferentes a partir do conjunto de dados

  1. Geração Somente Texto: Gera o texto relacionado a partir da próxima imagem. 
  2. Geração somente de imagem: gera a imagem relacionada a partir do próximo texto. 
  3. Geração Multimodal: Gera pares de imagens de texto usando o contexto fornecido. 

MiniGPT-5: benchmarks e resultados

Para avaliar seu desempenho na geração multimodal de forma abrangente, a equipe de desenvolvimento do MiniGPT-5 compara seu desempenho com outros modelos de linha de base proeminentes, incluindo Divter, GILL e o modelo de geração unimodal ajustado, e a comparação é demonstrada na tabela abaixo. 

A estrutura MiniGPT-5 entende que a saída multimodal pode ser significativa de acordo com o contexto, mas pode diferir da realidade terrestre, que é a principal razão pela qual a estrutura MiniGPT-5 também incorpora contribuições humanas para avaliar e avaliar o desempenho do modelo . No geral, a eficácia da estrutura MiniGPT-5 para tarefas multimodais é medida através de três perspectivas. 

  1. Continuidade da linguagem: avaliar se o conteúdo gerado se alinha perfeitamente com o contexto fornecido. 
  2. Qualidade da imagem : avaliar ou avaliar a relevância e clareza da imagem gerada. 
  3. Coerência Multimodal: para determinar se a saída da imagem de texto combinada está sincronizada com o contexto inicial. 

Avaliação da etapa final do VIST

Na primeira etapa de experimentos, o framework MiniGPT-5 tem como objetivo gerar as imagens correspondentes, e a tabela abaixo resume os resultados obtidos nesta configuração. 

Como pode ser visto, a estrutura MiniGPT-5 em todas as três configurações pode superar a estrutura SD2 ajustada, destacando assim a eficácia do pipeline MiniGPT-5. 

A figura acima compara o desempenho da estrutura MiniGPT-5 com o ajuste fino Estrutura MiniGPT-4 nas métricas de desempenho S-BERT, Rouge-L e Meteor. Os resultados indicam que o uso de vokens generativos não afeta negativamente o desempenho do framework ao realizar tarefas de compreensão multimodal. Os resultados também demonstram que a estrutura MiniGPT-5 é capaz de utilizar prompts de entrada multimodais horizontais longos em uma ampla gama de dados para gerar imagens coerentes e de alta qualidade sem comprometer a capacidade do modelo original para compreensão multimodal. 

A tabela acima compara o desempenho de três frameworks em 5,000 amostras para geração multimodal nos aspectos de Coerência Multimodal, Qualidade de Imagem e Continuidade de Linguagem. Como pode ser observado, a estrutura MiniGPT-5 supera os outros dois modelos básicos em mais de 70% dos casos. Por outro lado, a tabela abaixo demonstra o desempenho do framework MiniGPT-5 no conjunto de dados de validação CC3M para a geração de imagens únicas. Graças às limitações de dados, os desenvolvedores encontraram uma lacuna no alinhamento voken quando usado com Difusão Estável. Apesar desta limitação, a estrutura MiniGPT-5 supera a atual estrutura GILL de base de última geração em todas as métricas. 

Conclusão

Neste artigo, falamos sobre MiniGPT-5, uma técnica de algoritmo de geração de linguagem e visão intercalada que introduz o conceito de “vokens generativos” em uma tentativa de aproveitar as capacidades dos LLMs para gerar dados multimodais e alinhando o modelo de linguagem grande com um modelo de geração de texto para imagem pré-treinado. Falamos sobre os componentes essenciais e a arquitetura geral da estrutura MiniGPT-5, juntamente com os resultados que indicam melhorias substanciais no desempenho e na eficiência quando comparados com a linha de base atual e os modelos de última geração. O MiniGPT-5 aspira estabelecer uma nova referência no domínio de conteúdo multimodal e geração de dados e visa resolver os desafios enfrentados pelos modelos anteriores ao tentar resolver o mesmo problema.

"Engenheiro de profissão, escritor de coração". Kunal é um escritor técnico com profundo amor e compreensão de IA e ML, dedicado a simplificar conceitos complexos nesses campos por meio de sua documentação envolvente e informativa.