Inteligência artificial

Instrução Visual de Afinamento para Compreensão em Nível de Pixel com Osprey

Published January 25, 2024

Updated April 4, 2026

Kunal Kejriwal

Com o recente aprimoramento dos métodos de afinamento de instruções visuais, os Modelos de Linguagem Grande Multimodal (MLLMs) demonstraram notáveis capacidades gerais de visão-linguagem. Essas capacidades os tornam blocos de construção fundamentais para assistentes visuais gerais modernos. Modelos recentes, incluindo MiniGPT-4, LLaVA, InstructBLIP e outros, exibem impressionantes habilidades de raciocínio visual e capacidades de seguir instruções. Embora a maioria deles dependa de pares de imagem-texto para alinhamento de visão-linguagem em nível de imagem, eles performam bem nesse domínio. No entanto, sua dependência do entendimento em nível de caixa e imagem é a principal razão pela qual os MLLMs não conseguem replicar seu desempenho em tarefas de alinhamento de visão-linguagem em nível de pixel. Além disso, a limitada disponibilidade de dados de instrução baseados em máscara para treinamento apresenta desafios para melhorar ainda mais os MLLMs.

O Osprey é um método de treinamento de instrução de texto-máscara com o objetivo principal de estender os MLLMs. Ele incorpora regiões mascaradas de granulação fina em instruções de linguagem para alcançar compreensão visual-linguística em nível de pixel. Para realizar isso, o framework Osprey cria um conjunto de dados de região-texto baseado em máscara com mais de 700 mil amostras. Ele injeta representação em nível de pixel em Modelos de Linguagem Grande (LLMs) para projetar um modelo de visão-linguagem. Notavelmente, o framework Osprey adota um modelo CLIP convolucional como seu codificador de visão e integra um extrator visual ciente de máscara em sua arquitetura. Isso permite a extração precisa de recursos visuais de máscara de entrada de alta resolução.

Neste artigo, discutiremos o framework Osprey e mergulharemos mais fundo em sua arquitetura. Também exploraremos o conjunto de dados de região-texto curado com mais de 700 mil amostras e compararemos seu desempenho em várias tarefas de compreensão de região. Então, vamos começar.

Osprey: Compreensão de Pixel com Afinamento de Instrução Visual

Modelos de Linguagem Grande Multimodal como MiniGPT-4, Otter, Qwen-LV, InstructBLIP e outros são os líderes no desenvolvimento de assistentes visuais gerais, e são renomados por suas excepcionais capacidades multimodais e gerativas de visão. No entanto, os Modelos de Linguagem Grande Multimodal sofrem de um grande desafio, pois entregam resultados insatisfatórios em tarefas de compreensão de imagem em nível fino, como legendas, classificação de região e raciocínio. Uma razão principal para o desempenho abaixo do esperado em tarefas de compreensão de imagem em nível fino é a falta de alinhamento em nível de região. Recentemente, MLLMs como GPT4RoI, Shikra e outros visam habilitar a compreensão em nível de região em modelos de visão-linguagem processando regiões especificadas por caixas delimitadoras e aproveitando o afinamento de instruções visuais com recursos espaciais em nível de objeto.

Embora a abordagem para habilitar a compreensão em nível de região possa melhorar o desempenho, empregar caixas delimitadoras esparsas como a região de entrada referenciada diretamente pode introduzir recursos de fundo irrelevantes, levando a um alinhamento incorreto de pares de região-texto para o afinamento de instruções visuais em modelos de linguagem grande. Durante o processo de inferência, a entrada de nível de caixa pode não ser capaz de detectar e representar o objeto com precisão; isso pode resultar em desvio semântico, como demonstrado na imagem a seguir.

Em comparação, usar máscaras de granulação fina em vez de caixas delimitadoras grosseiras como a entrada referenciada pode representar objetos com mais precisão. Recentemente, o modelo SAM ou Segment Anything Model, treinado em bilhões de máscaras de alta qualidade, demonstra notável qualidade de segmentação em objetos zero-shot e suporta o uso de pontos ou caixas delimitadoras simples como prompts. No entanto, o framework SAM não pode gerar rótulos semânticos primários, nem pode fornecer legendas semânticas detalhadas e atributos. Como resultado, os modelos existentes carecem de informações multimodais de granulação fina inerentes e têm uma compreensão limitada de cenas no mundo real.

Para enfrentar os desafios enfrentados pelos MLLMs existentes, o Osprey, um novo método de treinamento de instrução de texto-máscara, visa estender as capacidades dos modelos de linguagem grande multimodal para a compreensão visual em nível fino. O framework Osprey introduz um extrator visual ciente de máscara que captura recursos visuais de máscara em nível de pixel com granulação variada. O framework então entrelaça os recursos visuais com instruções de linguagem para gerar a sequência de entrada para o modelo de linguagem grande e aproveita a arquitetura CLIP convolucional para facilitar o uso de entrada de alta resolução. Devido ao seu design e arquitetura, o framework Osprey é capaz de alcançar compreensão semântica de granulação fina para regiões de nível de objeto e parte, e fornece atributos de objeto detalhados, juntamente com a categoria de objeto primária e descrições aprimoradas de cenas complexas.

Aproveitando as capacidades do afinamento de instruções visuais, o framework Osprey habilita novas capacidades além da compreensão em nível de imagem e caixa das cenas, pois o framework Osprey pode gerar semântica de granulação fina usando máscaras class-agnosticas de fontes SAM. Além disso, o Osprey também demonstra notáveis capacidades em tarefas de classificação de objeto referenciado, reconhecimento de vocabulário aberto, legendas de nível de região e descrições de região detalhadas.

Osprey: Metodologia e Arquitetura

A figura a seguir demonstra a visão geral da arquitetura do framework Osprey, consistindo em um modelo de linguagem grande, um extrator visual ciente de máscara em nível de pixel e um codificador de visão em nível de imagem.

Para uma imagem dada, a linguagem de entrada e as regiões de máscara referenciadas, o framework realiza a conversão e a tokenização para gerar embeddings antes de enviar as sequências de embeddings de linguagem e recursos de máscara entrelaçados para o modelo de linguagem grande para obter compreensões semânticas de granulação fina.

Codificador de Visão CLIP Convolucional

O codificador de visão implantado na maioria dos modelos de linguagem grande multimodal é exemplificado usando um modelo CLIP baseado em ViT. Como resultado, o framework adota uma resolução de imagem de 224×224 pixels ou 336 x 336 pixels. No entanto, o uso do modelo CLIP baseado em ViT torna difícil para o modelo alcançar a compreensão de imagem em nível fino de representações em nível de pixel, um problema amplificado ainda mais em regiões pequenas. Além disso, a sobrecarga computacional associada à arquitetura ViT impede a possibilidade de aumentar a resolução da imagem de entrada.

Para enfrentar o desafio, o framework Osprey implementa um modelo CLIP convolucional como o codificador de visão em sua arquitetura. Tradicionalmente, os modelos CLIP baseados em Redes Neurais Convolucionais demonstraram notáveis capacidades de generalização em diferentes resoluções de entrada quando comparados a modelos CLIP baseados em transformadores de visão. A implementação de um modelo CLIP baseado em CNN torna espaço para inferência rápida e treinamento eficiente sem comprometer o desempenho do modelo. Além disso, um modelo CLIP baseado em CNN é capaz de gerar mapas de recursos multi-escala que o framework então usa diretamente para extração de recursos em cada região de objeto subsequente.

Extrator Visual Ciente de Máscara

Em contraste com os modelos de região existentes que usam caixas delimitadoras esparsas como a entrada referenciada, o framework Osprey usa regiões de máscara detalhadas para implementar representações baseadas em objeto. O modelo Osprey emprega um componente de extrator visual ciente de máscara para capturar recursos visuais em nível de pixel dentro de cada região de objeto. O componente de extrator visual ciente de máscara codifica recursos visuais de máscara em nível de pixel e, além disso, reúne a informação de posição espacial de cada região.

Para implementar isso, o Osprey primeiro usa os recursos de imagem de multi-nível gerados pelo codificador de visão para adotar a operação de pool de máscara, e para cada recurso de nível único, o framework reúne todos os recursos que se encontram dentro da região de máscara. O modelo então codifica os recursos em diferentes camadas passando cada recurso por uma camada de projeção linear que gera embeddings de nível de região e funde recursos multi-nível realizando a soma. O modelo então usa uma camada MLP para produzir o token de máscara visual. Além disso, o Osprey preserva a geometria espacial da região de objeto codificando a relação de posição em nível de pixel por meio da implementação de uma máscara binária para cada região de objeto. No final, o Osprey inclui o token de máscara visual e seus tokens espaciais respectivos para cada embedding de região de máscara.

Tokenização de LLM

Como mencionado anteriormente, o modelo extrai os embeddings de nível de imagem de uma imagem alimentando-a em um codificador de visão pré-treinado baseado em CNN. Para informações textuais, o modelo primeiro usa tokenizadores de LLM pré-treinados para tokenizar sequências de texto e, em seguida, projeta essas sequências de texto tokenizadas em embeddings de texto. Para regiões baseadas em máscara, o modelo define um token especial como um espaço reservado e, em seguida, o substitui por um token espacial junto com um token de máscara. Quando o modelo se refere a uma região de objeto na entrada de texto, ele anexa o espaço reservado após o nome da região, o que permite que as regiões de máscara se misturem com textos bem, resultando em frases completas sem o espaço de tokenização. Além disso, além das instruções do usuário, o modelo também inclui um prompt de prefixo, um token especial que serve como um espaço reservado, que é então substituído pelos embeddings de nível de imagem do codificador de visão. Finalmente, o framework entrelaça os tokens visuais de nível de região e nível de imagem junto com tokens de texto e os alimenta no modelo de linguagem grande para compreender as instruções do usuário e a imagem com diferentes regiões no objeto.

Osprey: Processo de Treinamento em Três Etapas

O framework Osprey implanta um processo de treinamento em três etapas, no qual cada uma das fases de treinamento é supervisionada minimizando a perda de previsão de token subsequente.

Etapa 1: Treinamento de Alinhamento de Imagem-Texto

Na primeira etapa, o framework Osprey implanta o codificador de visão CLIP baseado em CNN para treinar os recursos de nível de imagem e o conector de linguagem para treinar o modelo para o alinhamento de recursos de imagem-texto. Na primeira etapa, o framework emprega três componentes: um modelo de linguagem grande pré-treinado, um codificador de visão pré-treinado e um projetor de nível de imagem. O framework também adota uma camada MLP para servir como o conector visão-linguagem que ajuda a melhorar as capacidades gerativas multimodais do Osprey.

Etapa 2: Pré-Treinamento de Alinhamento de Máscara-Texto

Na segunda etapa, o Osprey carrega os pesos treinados na primeira etapa e emprega seu componente de extrator visual ciente de máscara para capturar recursos de região em nível de pixel. Na segunda etapa, o framework apenas treina o extrator visual ciente de máscara para alinhar embeddings de linguagem com recursos de região baseados em máscara. Além disso, o modelo coleta pares de máscara de pixel e textos curtos de conjuntos de dados de nível de parte e objeto publicamente disponíveis e os converte em dados de instrução para seguir para treinar o modelo.

Etapa 3: Ajuste Fino de Ponta a Ponta

Na terceira e última etapa, o modelo fixa os pesos do codificador de visão e ajusta finamente o modelo de linguagem grande, o extrator de recursos de região baseados em máscara e os componentes do projetor de nível de imagem em sua arquitetura. O objetivo principal do treinamento na terceira etapa é estender a capacidade do modelo de seguir instruções do usuário com precisão e realizar tarefas de compreensão de região em nível de pixel de forma eficiente.

Após implementar as três etapas de treinamento, o framework Osprey é capaz de entender cenários complexos definidos por instruções do usuário e com base em regiões de máscara em nível de pixel.

Osprey: Resultados Experimentais

Para avaliar seu desempenho, os desenvolvedores do Osprey realizam uma ampla variedade de experimentos para demonstrar as capacidades do modelo em classificação, reconhecimento de região em nível de pixel e descrições complexas.

Segmentação de Vocabulário Aberto

O objetivo principal da segmentação de vocabulário aberto é gerar reconhecimento de região baseada em máscara e sua categoria respectiva explicitamente. Para alcançar a segmentação de vocabulário aberto, o Osprey primeiro usa um prompt de texto de entrada, seguido pelo uso de regiões de máscara de ground-truth para modelar a inferência para avaliar o desempenho do modelo em tarefas de reconhecimento de vocabulário aberto. Com base na resposta de sentença gerada pelo modelo de linguagem grande multimodal, o Osprey calcula a similaridade semântica entre a lista de vocabulário e a saída de cada conjunto de dados. A figura a seguir compara o Osprey contra modelos de linguagem grande multimodal de estado da arte.

Como pode ser observado, o framework Osprey supera os métodos existentes por uma margem considerável em ambos os conjuntos de dados Cityscapes e ADE20K-150. Os resultados indicam a capacidade do Osprey de superar as abordagens existentes e alcançar compreensão e reconhecimento robustos de regiões de objeto em nível fino.

Classificação de Objeto Referenciado

Na tarefa de Classificação de Objeto Referenciado, o modelo é necessário para classificar o objeto dentro de uma região específica de uma imagem. Para avaliar suas capacidades de classificação, o framework Osprey usa duas métricas de relevância semântica, incluindo IoU Semântico (S-IoU) e Semelhança Semântica (SS). O IoU Semântico representa a sobreposição de palavras entre as etiquetas de ground-truth e as etiquetas de previsão, enquanto a Semelhança Semântica mede a semelhança entre as etiquetas de previsão e/ou de ground-truth em um espaço semântico. A imagem a seguir demonstra o desempenho do Osprey na tarefa de Classificação de Objeto Referenciado quando comparado a modelos que empregam abordagens de nível de caixa e imagem.

Descrição de Região Detalhada

Na tarefa de Descrição de Região Detalhada, o modelo avalia seu desempenho em capacidades de descrição detalhada de instrução para seguir, juntamente com outras abordagens de nível de região. O modelo seleciona aleatoriamente um prompt de inferência de entrada de uma lista de prompts pré-definidos e aproveita o framework LLM GPT-4 para medir a qualidade da resposta gerada pelo modelo contra as regiões de referência de forma abrangente. Usando o pipeline de geração de instruções, o modelo gera perguntas e busca respostas do GPT-4, após o que o LLM avalia a correção da semântica e a precisão da compreensão de referência. A tabela a seguir demonstra o desempenho do Osprey contra modelos de estado da arte em tarefas de Descrição de Região Detalhada.

Legendagem de Nível de Região

O framework Osprey também supera as abordagens atuais em tarefas de Legendagem de Nível de Região, com os resultados contidos na imagem a seguir.

Pensamentos Finais

Neste artigo, discutimos o Osprey, um método de treinamento de instrução de texto-máscara com o objetivo principal de estender os MLLMs incorporando regiões mascaradas de granulação fina em instruções de linguagem para alcançar compreensão visual-linguística em nível de pixel. Para alcançar seu objetivo, o framework Osprey cria um conjunto de dados de região-texto baseado em máscara com mais de 700 mil amostras e injeta representação em nível de pixel em LLM para projetar um modelo de visão-linguagem. O framework Osprey visa melhorar significativamente os MLLMs para a compreensão visual em nível fino, e implementando um modelo CLIP convolucional e um extrator visual ciente de máscara, o Osprey alcança a capacidade de entender imagens em níveis de região de objeto e parte.