Inteligência artificial
Osprey: Ajuste de Instrução Visual para Compreensão em Nível de Pixel com Tuning

Com a recente melhoria dos métodos de ajuste de instrução visual, os Modelos de Linguagem Multimodal em Grande Escala (MLLMs) demonstraram capacidades notáveis de visão-linguagem de propósito geral. Essas capacidades os tornam blocos de construção fundamentais para assistentes visuais modernos de propósito geral. Modelos recentes, incluindo MiniGPT-4, LLaVA, InstructBLIP e outros, exibem habilidades impressionantes de raciocínio visual e capacidade de seguir instruções. Embora a maioria deles dependa de pares de imagem-texto para alinhamento de visão-linguagem em nível de imagem, eles performam bem nesse domínio. No entanto, sua dependência do entendimento em nível de caixa e imagem é a principal razão pela qual os MLLMs não conseguem replicar seu desempenho em tarefas de alinhamento de visão-linguagem de granulação fina em nível de pixel. Além disso, a limitada disponibilidade de dados de instrução baseados em máscara para treinamento apresenta desafios para melhorar ainda mais os MLLMs.
Osprey é um método de treinamento de instrução de texto-máscara com o objetivo principal de estender as capacidades dos MLLMs. Ele incorpora regiões mascaradas de granulação fina em instruções de linguagem para alcançar compreensão visual-linguística em nível de pixel. Para alcançar isso, o framework Osprey cria um conjunto de dados de região-texto baseado em máscara com mais de 700 mil amostras. Ele injeta representação em nível de pixel em Modelos de Linguagem Grande (LLMs) para projetar um modelo de visão-linguagem. Notavelmente, o framework Osprey adota um modelo de CLIP baseado em convolução como seu codificador de visão e integra um extrator visual ciente de máscara em sua arquitetura. Isso permite a extração precisa de recursos visuais de máscara de alta resolução.
Neste artigo, discutiremos o framework Osprey e mergulharemos mais profundamente em sua arquitetura. Também exploraremos o conjunto de dados de região-texto curado com mais de 700 mil amostras e compararemos seu desempenho em várias tarefas de compreensão de região. Então, vamos começar.
Osprey: Compreensão de Pixel com Ajuste de Instrução Visual
Modelos de Linguagem Multimodal em Grande Escala, como MiniGPT-4, Otter, Qwen-LV, InstructBLIP e outros, são os principais candidatos ao desenvolvimento de assistentes visuais de propósito geral, e são renomados por suas capacidades multimodais e gerativas de visão excepcionais. No entanto, os Modelos de Linguagem Multimodal em Grande Escala sofrem de um grande desafio, pois entregam resultados insatisfatórios em tarefas de compreensão de imagem de granulação fina, como legendagem, classificação de região e raciocínio. Uma das principais razões para o desempenho abaixo do esperado em tarefas de compreensão de imagem de granulação fina é a falta de alinhamento em nível de região.
Embora a abordagem para habilitar a compreensão em nível de região possa melhorar o desempenho, empregar caixas delimitadoras esparas como a região de entrada de referência diretamente pode introduzir recursos de fundo irrelevantes, levando a um alinhamento de par de região-texto impreciso para o ajuste de instrução visual em modelos de linguagem grande. Durante o processo de inferência, a entrada de referência em nível de caixa pode não ser capaz de detectar e representar o objeto com precisão, o que pode resultar em desvio semântico, como demonstrado na imagem a seguir.

Em comparação, usar máscaras de granulação fina em vez de caixas delimitadoras grosseiras como a região de entrada de referência pode representar objetos com mais precisão. Recentemente, o modelo SAM ou Segment Anything Model, treinado em bilhões de máscaras de alta qualidade, demonstra uma qualidade de segmentação notável em objetos zero-shot e suporta o uso de pontos ou caixas delimitadoras simples como prompts. No entanto, o framework SAM não pode gerar rótulos semânticos primários, nem pode fornecer legendas semânticas detalhadas e atributos. Como resultado, os modelos existentes carecem de informações multimodais de granulação fina inerentes e têm uma compreensão limitada de cenas no mundo real.
Para enfrentar os desafios enfrentados pelos MLLMs existentes, o Osprey, um método de treinamento de instrução de texto-máscara, visa estender as capacidades dos Modelos de Linguagem Multimodal em Grande Escala para compreensão de granulação fina em nível de pixel. O framework Osprey introduz um extrator visual ciente de máscara que captura recursos visuais de máscara com granularidade variada com precisão. O framework, em seguida, intercala os recursos visuais com instruções de linguagem para gerar a sequência de entrada para o modelo de linguagem grande e aproveita a arquitetura de CLIP baseada em convolução para facilitar o uso de entrada de alta resolução. Devido ao seu design e arquitetura, o framework Osprey é capaz de alcançar compreensão semântica de granulação fina para regiões de nível de objeto e parte, e fornece atributos de objeto detalhados, juntamente com a categoria de objeto primária e descrições aprimoradas de cenas complexas.
Aproveitando as capacidades do ajuste de instrução visual, o framework Osprey habilita novas capacidades além da compreensão em nível de imagem e caixa, pois o framework Osprey pode gerar semântica de granulação fina usando máscaras de classe-agnóstica de SAMs prontos para uso. Além disso, o Osprey também demonstra capacidades notáveis em tarefas de classificação de objeto de referência, reconhecimento de vocabulário aberto, legendagem em nível de região e descrição de região detalhada.
Osprey: Metodologia e Arquitetura
A figura a seguir demonstra a visão geral da arquitetura do framework Osprey, consistindo em um modelo de linguagem grande, um extrator visual ciente de máscara em nível de pixel e um codificador de visão em nível de imagem.

Para uma imagem dada, a linguagem de entrada e as regiões de máscara de referência, o framework realiza a conversão e a tokenização para gerar embeddings antes de enviar as sequências de embeddings de linguagem e recursos de máscara intercalados para o modelo de linguagem grande para obter compreensões semânticas de granulação fina.
Codificador de Visão de CLIP Baseado em Convolução
O codificador de visão implantado na maioria dos Modelos de Linguagem Multimodal em Grande Escala é exemplificado usando um modelo de CLIP baseado em ViT. Como resultado, o framework adota uma resolução de imagem de 224×224 pixels ou 336 x 336 pixels. No entanto, o uso do modelo de CLIP baseado em ViT torna difícil para o modelo alcançar compreensão de imagem de granulação fina de representações em nível de pixel, um problema amplificado ainda mais em regiões pequenas. Além disso, a sobrecarga computacional associada à arquitetura de ViT impede a possibilidade de aumentar a resolução da imagem de entrada.
Para enfrentar o desafio, o framework Osprey implementa um modelo de CLIP baseado em convolução como o codificador de visão em sua arquitetura. Tradicionalmente, os modelos de CLIP baseados em Redes Neurais Convolucionais demonstraram capacidades de generalização notáveis em diferentes resoluções de entrada em comparação com os modelos de CLIP baseados em transformadores de visão. A implementação de um modelo de CLIP baseado em CNN torna possível a inferência rápida e o treinamento eficiente sem comprometer o desempenho do modelo. Além disso, um modelo de CLIP baseado em CNN é capaz de gerar mapas de recursos multiescala que o framework usa diretamente para extração de recursos em cada região de objeto subsequente.
Extrator Visual Ciente de Máscara
Em contraste com os modelos baseados em região existentes que usam caixas delimitadoras esparas como a região de entrada de referência, o framework Osprey usa regiões de máscara detalhadas para implementar representações baseadas em objeto. O modelo Osprey emprega um componente de extrator visual ciente de máscara para capturar recursos visuais em nível de pixel dentro de cada região de objeto. O componente de extrator visual ciente de máscara codifica recursos visuais em nível de máscara e, além disso, coleta informações de posição espacial de cada região.
Para implementar isso, o Osprey primeiro usa os recursos de imagem de múltiplos níveis gerados pelo codificador de visão para adotar a operação de pooling de máscara, e para cada recurso de nível único, o framework pooliza todos os recursos que se encontram dentro da região de máscara. O modelo, em seguida, codifica os recursos em diferentes camadas, passando cada recurso por uma camada de projeção linear que gera embeddings de nível de região, e funde recursos multiescala realizando a soma. O modelo, em seguida, usa uma camada de MLP para produzir o token de máscara visual. Além disso, o Osprey preserva a geometria espacial da região de objeto, codificando a relação de posição em nível de pixel, implementando uma máscara binária para cada região de objeto. No final, o Osprey inclui o token de máscara visual e seus tokens espaciais respectivos para cada embedding de região de máscara.
Tokenização de LLM
Como mencionado anteriormente, o modelo extrai os embeddings de nível de imagem de uma imagem, alimentando-a em um codificador de visão pré-treinado baseado em CNN. Para informações textuais, o modelo primeiro usa tokenizadores de LLM pré-treinados para tokenizar sequências de texto e, em seguida, projeta essas sequências de texto tokenizadas em embeddings de texto. Para regiões baseadas em máscara, o modelo define um token especial como um espaço reservado e, em seguida, substitui-o por um token espacial junto com um token de máscara. Quando o modelo se refere a uma região de objeto na entrada de texto, ele anexa o espaço reservado após o nome da região, o que permite que as regiões de máscara se misturem com textos bem, resultando em frases completas sem o espaço de tokenização. Além disso, além das instruções do usuário, o modelo também inclui um prompt de prefixo, um token especial que serve como um espaço reservado, que é então substituído pelos embeddings de nível de imagem do codificador de visão. Finalmente, o framework intercala os tokens visuais de nível de região e nível de imagem junto com os tokens de texto e os alimenta no modelo de linguagem grande para compreender as instruções do usuário e a imagem com diferentes regiões no objeto.
Osprey: Processo de Treinamento de Três Etapas
O framework Osprey implanta um processo de treinamento de três etapas, no qual cada uma das fases de treinamento é supervisionada, minimizando a perda de previsão de token subsequente.
Etapa 1: Treinamento de Alinhamento de Imagem-Texto
Na primeira etapa, o framework Osprey implanta o codificador de visão baseado em CNN para treinar os recursos de nível de imagem e o conector de linguagem para treinar o modelo para alinhamento de recursos de imagem-texto. Na primeira etapa, o framework emprega três componentes: um modelo de linguagem grande pré-treinado, um codificador de visão pré-treinado e um projetor de nível de imagem. O framework também adota uma camada de MLP para servir como o conector de visão-linguagem, que ajuda a melhorar as capacidades gerativas multimodais do Osprey.
Etapa 2: Pré-Treinamento de Alinhamento de Máscara-Texto
Na segunda etapa, o Osprey carrega os pesos treinados na primeira etapa e emprega seu componente de extrator visual ciente de máscara para capturar recursos de região em nível de pixel. Na segunda etapa, o framework apenas treina o extrator visual ciente de máscara para alinhar embeddings de linguagem com recursos de região baseados em máscara. Além disso, o modelo coleta pares de máscara de pixel e textos curtos de conjuntos de dados de nível de parte e nível de objeto públicos e os converte em dados de instrução para seguir, a fim de treinar ainda mais o modelo.
Etapa 3: Ajuste Fino de Ponta a Ponta
Na terceira e última etapa, o modelo fixa os pesos do codificador de visão e ajusta finamente o modelo de linguagem grande, o extrator de recursos de região baseados em máscara e os componentes do projetor de nível de imagem em sua arquitetura. O objetivo principal do treinamento na terceira etapa é estender a capacidade do modelo de seguir instruções do usuário com precisão e realizar tarefas de compreensão de região em nível de pixel de forma eficiente.
Depois de implementar as três etapas de treinamento, o framework Osprey é capaz de compreender cenários complexos definidos por instruções do usuário e com base em regiões de máscara em nível de pixel.
Osprey: Resultados Experimentais
Para avaliar seu desempenho, os desenvolvedores do Osprey realizam uma ampla gama de experimentos para demonstrar as capacidades do modelo em classificação, reconhecimento de região em nível de pixel e descrições complexas.

Segmentação de Vocabulário Aberto
O objetivo principal da segmentação de vocabulário aberto é gerar reconhecimento de região baseado em máscara e sua categoria correspondente explicitamente. Para alcançar a segmentação de vocabulário aberto, o Osprey primeiro usa um prompt de texto de entrada, seguido do modelo que adota regiões de máscara de verdade para interferência do modelo para avaliar o desempenho do modelo em tarefas de reconhecimento de vocabulário aberto. Com base na resposta de sentença gerada pelo modelo de linguagem multimodal, o Osprey calcula a semelhança semântica entre a lista de vocabulário e a saída de cada conjunto de dados. A figura a seguir compara o Osprey contra os modelos de linguagem multimodal em grande escala atuais.

Como pode ser observado, o framework Osprey supera os métodos existentes por uma margem considerável em ambos os conjuntos de dados Cityscapes e ADE20K-150. Os resultados indicam a capacidade do Osprey de superar as abordagens existentes e alcançar compreensão robusta e reconhecimento em regiões de objeto de granulação fina.
Classificação de Objeto de Referência
Na tarefa de classificação de objeto de referência, o modelo é necessário para classificar o objeto dentro de uma região específica de uma imagem. Para avaliar suas capacidades de classificação, o framework Osprey usa duas métricas de relevância semântica, incluindo IoU Semântico (S-IoU) e Semelhança Semântica (SS). O IoU Semântico representa a sobreposição de palavras entre as etiquetas de verdade e as etiquetas de previsão, enquanto a Semelhança Semântica mede a semelhança entre as etiquetas de previsão e as etiquetas de verdade em um espaço semântico. A imagem a seguir demonstra o desempenho do Osprey na tarefa de classificação de objeto de referência quando comparado a modelos que empregam abordagens de nível de caixa e nível de imagem.

Descrição de Região Detalhada
Na tarefa de descrição de região detalhada, o modelo avalia seu desempenho em capacidades de descrição detalhada de instrução, juntamente com outras abordagens de nível de região. O modelo seleciona aleatoriamente um prompt de inferência de entrada de uma lista de prompts pré-definidos e aproveita o framework de LLM GPT-4 para medir a qualidade da resposta gerada pelo modelo contra as regiões de referência de entrada de forma abrangente. Usando o pipeline de geração de instruções, o modelo gera perguntas e busca respostas do GPT-4, após o que o LLM avalia a correção da semântica e a precisão da compreensão de referência. A tabela a seguir demonstra o desempenho do Osprey contra os modelos atuais em tarefas de descrição de região detalhada.

Legendagem de Nível de Região
O framework Osprey também supera as abordagens atuais em tarefas de legendagem de nível de região, com os resultados contidos na imagem a seguir.

Pensamentos Finais
Neste artigo, discutimos o Osprey, um método de treinamento de instrução de texto-máscara com o objetivo principal de estender os Modelos de Linguagem Multimodal em Grande Escala, incorporando regiões mascaradas de granulação fina em instruções de linguagem para alcançar compreensão visual-linguística em nível de pixel. Para alcançar seu objetivo, o framework Osprey cria um conjunto de dados de região-texto baseado em máscara com mais de 700 mil amostras e injeta representação em nível de pixel em Modelos de Linguagem Grande para projetar um modelo de visão-linguagem. O framework Osprey visa melhorar os Modelos de Linguagem Multimodal em Grande Escala para compreensão visual de granulação fina de forma significativa, e ao implementar um modelo de CLIP baseado em CNN e um extrator visual ciente de máscara, o Osprey alcança a capacidade de compreender imagens em regiões de nível de parte e objeto.












