toco Mini-Gemini: Explorando o potencial de modelos de linguagem de visão multimodal - Unite.AI
Entre em contato

Inteligência artificial

Mini-Gemini: Explorando o potencial de modelos de linguagem de visão multimodal

mm

Publicado

 on

Mini-Gemini: Explorando o potencial de modelos de linguagem de visão multimodal

Os avanços em grandes modelos de linguagem aceleraram significativamente o desenvolvimento de processamento de linguagem naturalou PNL. A introdução da estrutura transformadora provou ser um marco, facilitando o desenvolvimento de uma nova onda de modelos linguísticos, incluindo OPT e BERT, que apresentam uma compreensão linguística profunda. Além disso, o início dos modelos GPT, ou Generative Pre-trained Transformer, introduziu um novo paradigma com modelagem autorregressiva e estabeleceu um método robusto para previsão e geração de linguagem. O advento de modelos de linguagem como GPT-4, ChatGPT, Mixtral, LLaMA e outros impulsionou ainda mais a rápida evolução, com cada modelo demonstrando desempenho aprimorado em tarefas que envolvem processamento de linguagem complexo. Entre os métodos existentes, o ajuste de instruções emergiu como uma técnica chave para refinar a saída de grandes modelos de linguagem pré-treinados, e a integração desses modelos com ferramentas específicas para tarefas visuais destacou sua adaptabilidade e abriu portas para aplicações futuras. Estes vão muito além do processamento tradicional baseado em texto dos LLMs para incluir interações multimodais.

Além disso, a convergência de modelos de processamento de linguagem natural e de visão computacional deu origem a VLMs, ou Modelos de Linguagem de Visão, que combinam modelos linguísticos e de visão para alcançar capacidades de compreensão e raciocínio intermodais. A integração e o advento de modelos visuais e linguísticos têm desempenhado um papel crucial no avanço de tarefas que requerem processamento de linguagem e compreensão visual. O surgimento de modelos revolucionários como o CLIP preencheu ainda mais a lacuna entre as tarefas de visão e os modelos de linguagem, demonstrando a viabilidade e praticidade das aplicações intermodais. Estruturas mais recentes, como LLaMA e BLIP, aproveitam dados de instrução personalizados para desenvolver estratégias eficientes que demonstrem as potentes capacidades do modelo. Além disso, a combinação de grandes modelos de linguagem com saídas de imagens é o foco da pesquisa multimodal recente, com métodos recentes sendo capazes de contornar a geração direta, utilizando a abordagem de recuperação de imagens para produzir saídas de imagens e textos intercalados.

Dito isto, e apesar dos rápidos avanços nos modelos de linguagem de visão que facilitam o raciocínio básico e o diálogo visual, ainda existe uma lacuna significativa de desempenho entre modelos avançados como GPT-4 e modelos de linguagem de visão. Mini-Gemini é uma tentativa de diminuir a lacuna que existe entre modelos de linguagem de visão e modelos mais avançados, explorando o potencial dos VLMs para melhor desempenho a partir de três aspectos: geração guiada por VLM, dados de alta qualidade e tokens visuais de alta resolução. Para aprimorar os tokens visuais, a estrutura Mini-Gemini propõe a utilização de um codificador visual adicional para refinamento de alta resolução sem aumentar a contagem de tokens visuais. A estrutura Mini-Gemini constrói ainda um conjunto de dados de alta qualidade na tentativa de promover a compreensão precisa de imagens e a geração baseada no raciocínio. No geral, a estrutura Mini-Gemini tenta explorar o potencial dos modelos de linguagem de visão e visa capacitar as estruturas existentes com raciocínio de imagem, compreensão e capacidades generativas simultaneamente. Este artigo tem como objetivo cobrir em profundidade o framework Mini-Gemini e explorar o mecanismo, a metodologia, a arquitetura do framework juntamente com sua comparação com frameworks do estado da arte. Então vamos começar. 

Mini-Gemini: Acelerando VLMs Multimodalidades

Ao longo dos anos, grandes modelos de linguagem evoluíram e agora possuem notáveis ​​capacidades multimodais, tornando-se uma parte essencial dos atuais modelos de linguagem de visão. No entanto, existe uma lacuna entre o desempenho multimodal de grandes modelos de linguagem e modelos de linguagem de visão, com pesquisas recentes procurando maneiras de combinar visão com grandes modelos de linguagem usando imagens e vídeos. Para as tarefas de visão em si, a resolução da imagem é um elemento crucial para explicar explicitamente o ambiente circundante com o mínimo de alucinações visuais. Para colmatar esta lacuna, os investigadores estão a desenvolver modelos para melhorar a compreensão visual nos actuais modelos de linguagem de visão, e duas das abordagens mais comuns são: aumentar a resolução e aumentar o número de tokens visuais. Embora o aumento do número de tokens visuais com imagens de resolução mais alta melhore a compreensão visual, o aumento é frequentemente acompanhado de maiores requisitos computacionais e custos associados, especialmente ao processar múltiplas imagens. Além disso, as capacidades dos modelos existentes, a qualidade dos dados existentes e a aplicabilidade continuam inadequadas para um processo de desenvolvimento acelerado, deixando os investigadores com a questão: “como acelerar o desenvolvimento de modelos de linguagem de visão com custos aceitáveis"?

A estrutura Mini-Gemini é uma tentativa de responder à pergunta ao tentar explorar o potencial dos modelos de linguagem de visão a partir de três aspectos: geração guiada por VLM ou aplicações expandidas, dados de alta qualidade e tokens visuais de alta resolução. Primeiro, a estrutura Mini-Gemini implementa uma arquitetura ConvNet para gerar candidatos de alta resolução de forma eficiente, aprimorando os detalhes visuais enquanto mantém a contagem de tokens visuais para o modelo de linguagem grande. A estrutura Mini-Gemini une conjuntos de dados de alta qualidade disponíveis publicamente na tentativa de melhorar a qualidade dos dados e integra essas melhorias com modelos de linguagem grandes e generativos de última geração, na tentativa de melhorar o desempenho dos VLMs e melhorar a experiência do usuário. A estratégia multifacetada implementada pela estrutura Mini-Gemini permite explorar capacidades ocultas dos modelos de linguagem de visão e alcança avanços significativos com evidentes restrições de recursos. 

Em geral, a estrutura Mini-Gemini emprega qualquer paradigma, uma vez que é capaz de lidar com texto e imagens como entrada e saída. Em particular, a estrutura Mini-Gemini introduz um pipeline eficiente para aprimorar tokens visuais para imagens de entrada e apresenta um sistema de codificador duplo composto por codificadores gêmeos: o primeiro codificador é para imagens de alta resolução, enquanto o segundo codificador é para imagens de baixa resolução. incorporação visual de qualidade. Durante a inferência, os codificadores funcionam em um mecanismo de atenção, onde o codificador de baixa resolução gera consultas visuais, enquanto o codificador de alta resolução fornece chaves e valores para referência. Para aumentar a qualidade dos dados, a estrutura Mini-Gemini coleta e produz mais dados com base em recursos públicos, incluindo instruções orientadas a tarefas, dados relacionados à geração e respostas de alta resolução, com o aumento da quantidade e a qualidade aprimorada melhorando o desempenho geral e capacidades do modelo. Além disso, a estrutura Mini-Gemini suporta a geração simultânea de texto e imagem como resultado da integração do modelo de linguagem de visão com modelos generativos avançados. 

Mini-Gêmeos: Metodologia e Arquitetura

Na sua essência, a estrutura Mini-Gemini é conceitualmente simples e compreende três componentes. 

  1. A estrutura emprega codificadores de visão dupla para fornecer incorporações visuais de baixa resolução e candidatos de alta resolução. 
  2. A estrutura propõe implementar a mineração de informações de patch para conduzir a mineração em nível de patch entre consultas visuais de baixa resolução e regiões de alta resolução. 
  3. A estrutura Mini-Gemini utiliza um grande modelo de linguagem para casar texto com imagens para geração e compreensão simultaneamente. 

Codificadores de visão dupla

A estrutura Mini-Gemini pode processar entradas de texto e imagem, com a opção de lidar com elas individualmente ou em combinação. Conforme demonstrado na imagem a seguir, a estrutura Mini-Gemini inicia o processo empregando interpolação bilinear para gerar uma imagem de baixa resolução a partir de sua imagem correspondente de alta resolução. 

A estrutura então processa essas imagens e as codifica em uma incorporação visual multigrade em dois fluxos de imagens paralelos. Mais especificamente, a estrutura Mini-Gemini mantém o pipeline tradicional para fluxos de baixa resolução e emprega um Transformador Visual pré-treinado por CLIP para codificar os embeddings visuais, facilitando o modelo a preservar a relação de longo alcance entre patches visuais para interações subsequentes em linguagem grande. modelos. Para os fluxos de alta resolução, a estrutura Mini-Gemini adota o codificador baseado em CNN ou Redes Neurais de Convolução para processamento de imagens de alta resolução adaptativo e eficiente. 

Mineração de informações de patch

Com os codificadores de visão dupla gerando os embeddings LR e os recursos HR, a estrutura Mini-Gemini propõe implementar a mineração de informações de patch com o objetivo de estender o potencial dos modelos de linguagem de visão com tokens visuais aprimorados. A fim de manter o número de tokens visuais para eficiência em grandes modelos de linguagem, a estrutura Mini-Gemini toma os embeddings visuais de baixa resolução como consulta e visa recuperar dicas visuais relevantes dos candidatos a recursos de RH, com a estrutura tomando o Mapa de recursos de RH como chave e valor.

Conforme demonstrado na imagem acima, a fórmula encapsula o processo de refinamento e síntese de pistas visuais, o que leva à geração de tokens visuais avançados para o subsequente processamento do grande modelo de linguagem. O processo garante que a estrutura seja capaz de confinar a mineração de cada consulta à sua sub-região correspondente no mapa de recursos de RH com a contagem de recursos em pixels, resultando em maior eficiência. Devido a este design, a estrutura Mini-Gemini é capaz de extrair os detalhes dos recursos de RH sem melhorar a contagem de tokens visuais e mantém um equilíbrio entre viabilidade computacional e riqueza de detalhes. 

Geração de texto e imagem

A estrutura Mini-Gemini concatena os tokens visuais e os tokens de texto de entrada como entrada para os grandes modelos de linguagem para geração auto-regressiva. Ao contrário dos modelos tradicionais de linguagem de visão, a estrutura Mini-Gemini suporta apenas texto, bem como geração de imagem de texto como entrada e saída, ou seja, qualquer inferência, e é o resultado desta excelente compreensão de imagem-texto e capacidades de raciocínio, o O Mini-Gemini é capaz de gerar imagens de alta qualidade. Ao contrário de trabalhos recentes que se concentram na lacuna de domínio entre incorporações de texto dos modelos de geração e grandes modelos de linguagem, a estrutura Mini-Gemini tenta otimizar a lacuna no domínio dos prompts de linguagem, traduzindo as instruções do usuário em prompts de alta qualidade que produzem imagens relevantes ao contexto. em modelos de difusão latente. Além disso, para uma melhor compreensão do ajuste fino das instruções e do alinhamento entre modalidades, a estrutura Mini-Gemini coleta amostras de conjuntos de dados de alta qualidade disponíveis publicamente e usa a estrutura turbo GPT-4 para construir ainda mais uma instrução de 13K seguindo o conjunto de dados para suportar a geração de imagens. 

Mini-Gêmeos: Experimentos e Resultados

Para avaliar seu desempenho, a estrutura Mini-Gemini é instanciada com a estrutura ConvNext-L pré-treinada para o codificador de visão de RH e com um codificador de visão CLIP pré-treinado. Transformador de Visão para o codificador de visão LR. Para garantir a eficiência do treinamento, a estrutura Mini-Gemini mantém os dois codificadores de visão fixos e otimiza os projetores de mineração de informações de patch em todos os estágios e otimiza o modelo de linguagem grande durante o próprio estágio de ajuste de instrução. 

A tabela a seguir compara o desempenho da estrutura Mini-Gemini com modelos de última geração em diferentes ambientes e também leva em consideração modelos privados. Como pode ser observado, o Mini-Gemini supera as estruturas existentes em uma ampla gama de LLMs de forma consistente em resolução normal e demonstra desempenho superior quando configurado com o Gemma-2B na categoria de modelos eficientes. Além disso, quando modelos de linguagem maiores são empregados, a escalabilidade da estrutura Mini-Gemini é evidente. 

Para avaliar seu desempenho em tokens visuais estendidos e de alta resolução, os experimentos são realizados com um tamanho de entrada de 672 para o codificador de visão LR e 1536 para o codificador visual. Conforme mencionado anteriormente, o principal objetivo do codificador visual de RH é oferecer informações de candidatos em alta resolução. Como pode ser observado, a estrutura Mini-Gemini oferece desempenho superior quando comparada com estruturas de última geração. 

Além disso, para avaliar a capacidade de compreensão visual da estrutura Mini-Gemini em ambientes do mundo real, os desenvolvedores aplicam o modelo a uma variedade de tarefas de raciocínio e compreensão, conforme demonstrado na imagem a seguir. Como pode ser observado, a estrutura Mini-Gemini é capaz de resolver uma ampla gama de tarefas complexas graças à implementação de mineração de informações de patches e dados de alta qualidade. Mas o que é mais impressionante é o fato de que a estrutura do Mini-Gemini demonstra uma adição perspicaz de detalhes que vai além da mera capacidade de reconhecimento e descreve intrincadamente elementos intrincados. 

A figura a seguir fornece uma avaliação abrangente das habilidades generativas da estrutura Mini-Gemini. 

Quando comparado com modelos recentes como ChatIllusion e AnyGPT, a estrutura Mini-Gemini demonstra habilidades de compreensão multimodal mais fortes, permitindo gerar texto para imagem legendas que se alinham melhor com as instruções de entrada e resultam em respostas de imagem para texto com maior semelhança conceitual. O que é mais impressionante é o fato de que a estrutura Mini-Gemini demonstra notável proficiência na geração de conteúdo de alta qualidade usando instruções humanas multimodelos apenas com dados de treinamento de texto, uma capacidade que ilustra a interpretação semântica robusta e as habilidades de alinhamento imagem-texto do Mini-Gemini. 

Considerações Finais

Neste artigo falamos sobre o Mini-Gemini, uma estrutura potente e simplificada para modelos de linguagem de visão multimodal. O objetivo principal da estrutura Mini-Gemini é aproveitar as capacidades latentes dos modelos de linguagem de visão usando dados de alta qualidade, design estratégico da estrutura e um escopo funcional expandido. Mini-Gemini é uma tentativa de diminuir a lacuna que existe entre modelos de linguagem de visão e modelos mais avançados, explorando o potencial dos VLMs para melhor desempenho a partir de três aspectos: geração guiada por VLM, dados de alta qualidade e tokens visuais de alta resolução. Para aprimorar os tokens visuais, a estrutura Mini-Gemini propõe a utilização de um codificador visual adicional para refinamento de alta resolução sem aumentar a contagem de tokens visuais. A estrutura Mini-Gemini constrói ainda um conjunto de dados de alta qualidade na tentativa de promover a compreensão precisa de imagens e a geração baseada no raciocínio. No geral, a estrutura Mini-Gemini tenta explorar o potencial dos modelos de linguagem de visão e visa capacitar as estruturas existentes com raciocínio de imagem, compreensão e capacidades generativas simultaneamente.

"Engenheiro de profissão, escritor de coração". Kunal é um escritor técnico com profundo amor e compreensão de IA e ML, dedicado a simplificar conceitos complexos nesses campos por meio de sua documentação envolvente e informativa.