Inteligência artificial
Ferret: consulte e aterre em qualquer granularidade

Permitir a compreensão espacial em modelos de aprendizagem de linguagem visual continua a ser um desafio central de investigação. Esta compreensão sustenta duas capacidades cruciais: fundamentação e referência. A referência permite que o modelo interprete com precisão a semântica de regiões específicas, enquanto a fundamentação envolve o uso de descrições semânticas para localizar essas regiões.
Os desenvolvedores introduziram o Ferret, um modelo multimodal de linguagem grande (MLLM), capaz de compreender referências espaciais em qualquer granularidade ou forma em uma imagem e fundamentar com precisão as descrições de vocabulário aberto. Ferret usa uma nova representação híbrida combinando recursos contínuos e coordenadas discretas para representar regiões da imagem. Seu amostrador visual com reconhecimento espacial lida com a dispersão variada de formas, permitindo processar diversas entradas de regiões, como formas de forma livre, caixas delimitadoras e pontos.
A abordagem da Ferret permite que ela se destaque em tarefas clássicas de aterramento e referência, além de superar outros MLLMs em comunicação multimodal com alta demanda de localização e baseada em região. Este artigo analisa a arquitetura e a metodologia da Ferret, destacando seu desempenho impressionante em diversas tarefas de linguagem multimodal. Vamos explorar isso mais a fundo.
Ferret: Desempenho Superior em Tarefas de Referência e Aterramento
A referência em um modelo é uma capacidade que permite ao modelo compreender com precisão a semântica de determinadas regiões específicas, enquanto a fundamentação torna essencial que o modelo use as descrições semânticas fornecidas para localizar as regiões. Embora possam diferir em suas respectivas tarefas, tanto a referência quanto a fundamentação têm o mesmo conceito fundamental: alinhamento da semântica espacial e da informação. No entanto, apesar de partilharem o mesmo conceito, os modelos existentes aprendem a fundamentar-se e a referir-se individualmente. Embora o método funcione, ele representa um obstáculo para alcançar capacidades semelhantes às humanas, uma vez que os humanos podem aprender com uma tarefa e aplicar os aprendizados a outras tarefas perfeitamente, e são capazes de integrar facilmente capacidades de fundamentação/referência com raciocínio e diálogo diário. A estrutura Ferret inspira-se na lacuna acima mencionada nas estruturas MLLM existentes e estuda três questões principais:
- Como unificar as capacidades de fundamentação e referência na estrutura e como a uníssono delas beneficiará uma à outra?
- Os humanos usam tipos versáteis de regiões como caixa, ponto, rabisco e formas de forma livre para referência? Como representar essas regiões versáteis?
- Como tornar o acompanhamento de instruções fundamentado e referenciado robusto e de vocabulário aberto, que são essenciais para suas aplicações práticas e em tempo real?
A estrutura Ferret é um novo modelo multimodal de linguagem grande que tenta abordar essas questões. A estrutura Ferret escolhe um Modelo Multimodal de Grande Linguagem como base devido à sua notável visão global e capacidades de compreensão linguística. Além disso, para unificar as capacidades de fundamentação e referência, a estrutura Ferret representa as coordenadas das regiões em forma numérica de linguagem natural. No entanto, na prática, é ineficiente usar coordenadas de caixa ou mesmo pontos únicos para representar formas versáteis de regiões, como rabiscos, traços ou polígonos complexos, pois essas formas são críticas para maior precisão e interação mais universal entre o modelo humano. Para resolver esse problema, a estrutura Ferret emprega um amostrador visual com reconhecimento espacial que adquire as regiões visuais para regiões independentemente da forma, negociando assim com esparsidade variável nessas formas. A estrutura então combina os recursos visuais contínuos com coordenadas discretas para representar as regiões visuais na entrada, resultando na criação de uma representação de região híbrida em Ferret.
A estrutura Ferret implanta os métodos acima para resolver entradas que misturam texto de formato livre com regiões referidas e é capaz de gerar perfeitamente as coordenadas para cada objeto aterrado com a geração de texto para ancorar os objetos mencionados na saída. Ao fazer isso, Ferret é a primeira estrutura a processar regiões de entrada de formação livre em modelos multimodais de grandes linguagens. Além disso, a estrutura Ferret absorve notáveis capacidades de vocabulário aberto de localização e compreensão espacial, permitindo que a estrutura alcance um desempenho superior quando avaliada em tarefas convencionais de aterramento e referência.
Seguindo em frente, a estrutura Ferret busca inspiração em três estruturas de IA existentes, incluindo Modelos Multimodais de Grandes Linguagens, MLLMs para Referência e Aterramento e Unificação de Aterramento e Compreensão de VL.
A introdução de grandes modelos de linguagem, incluindo GPT, DALL-E, PaLM, LLaMA e BLOOM, mudou o cenário na pesquisa de PNL, resultando em avanços significativos de modelos de linguagem multimodais. Os modelos de linguagem multimodais anteriores focavam principalmente na geração de imagem-texto em grande escala, com alguns exemplos notáveis sendo PaLI, SimVLM, GIT, BLIP-2, FLAMINGO, CM3 e PaLI-X. No entanto, uma vez que a estrutura Flamingo alcançou integração eficiente de LLMs com um codificador de imagem CLIP pré-treinado através de blocos de atenção cruzados, resultando em notáveis capacidades de aprendizagem multimodais de poucos disparos. A pesquisa atual está procurando maneiras de utilizar modelos de linguagem grandes pré-treinados para ajuste de instrução visual, com exemplos notáveis sendo miniGPT-4, Lontra, InstructBLIP e muito mais. Além do mais, modelos recentes como Emu e GILL mostraram um sucesso notável no uso de MLLMs para geração e recuperação de imagens. A estrutura Ferret também se refere a pesquisas anteriores que se concentram na unificação de texto e saída de caixa delimitadora para modelos Vision Language.
Furão: Metodologia e Arquitetura
Representações de regiões híbridas
Formas de ponto, caixa e formato livre são os três formatos dominantes que um modelo de linguagem usa ao se referir a regiões específicas. Por um lado, o formato do ponto e da caixa pode ser representado com precisão por coordenadas, o mapeamento de formas livres é um pouco desafiador, pois as formas livres são versáteis. Sendo versáteis, as formas de formato livre podem abranger uma ampla variedade de regiões, incluindo máscaras, polígonos e rabiscos. Usar coordenadas para representar formas livres é uma tarefa complexa que dificulta a capacidade do modelo de aprender a estabelecer uma correlação entre as regiões e as coordenadas correspondentes. Além disso, o uso de coordenadas para formas livres é computacionalmente caro e obscuro.
Para resolver este problema e generalizar para todos os três formatos, a estrutura Ferret propõe uma representação de região híbrida que sinergiza recursos visuais contínuos com coordenadas discretas para se referir a uma região específica.

Para recursos visuais contínuos, para uma determinada região, a estrutura Ferret primeiro constrói uma máscara binária 2D do mesmo tamanho da imagem e marca um valor 1 dentro da região alvo enquanto atribui um valor 0 fora da região. O modelo então extrai a máscara binária junto com o mapa de recursos da imagem extraído e, em seguida, envia-o para o amostrador visual com reconhecimento espacial.
Plataforma
A arquitetura do modelo Ferret compreende três componentes principais
- Um codificador de imagem para extrair embeddings de imagens.
- Amostras visuais com reconhecimento espacial para extrair recursos regionais contínuos.
- Um modelo de linguagem grande para modelar recursos de texto, imagem e região em conjunto.

A imagem é primeiro alimentada no codificador visual pré-treinado para extrair os embeddings da imagem. Para entradas de texto, a estrutura primeiro usa um tokenizer LLM pré-treinado para tokenizar a sequência de texto e, em seguida, projeta esses tokens em incorporações de texto. Para regiões referidas, Ferret anexa um token especial e as coordenadas como espaço reservado para feições contínuas após o nome da região. Se o nome da região for desconhecido ou complexo de descrever como resultado da inclusão de vários objetos, a estrutura utiliza apenas o nome da área ou região.
Um dos grandes desafios ao lidar com as referidas regiões é que a sua forma pode ser bastante variada, o que significa que podem ter formatos diferentes, e não se limitam apenas a caixas retangulares ou pontos. As regiões referidas com formas irregulares não podem ser processadas com métodos tradicionais, como processamento baseado em grade, incluindo atenção de patch ou técnicas de convolução. Para resolver esse problema, a estrutura Ferret propõe um amostrador visual com reconhecimento espacial. Para um determinado mapa de características extraído com uma máscara de região binária, o modelo Ferret primeiro amostra aleatoriamente N número de pontos dentro da máscara de região binária.
Para cada ponto individual, o modelo obtém sua característica realizando interpolação bilinear. Os N pontos são então alimentados em uma cascata de blocos, cada um deles passando por três estágios diferentes: amostragem, coleta e agrupamento. Na fase de Amostragem, um número fixo de pontos é amostrado a partir de N pontos disponíveis usando o algoritmo FPS ou Farthest Point Sampling que garante uma cobertura adequada. Na segunda etapa, para cada ponto amostral, a estrutura procura seus k vizinhos mais próximos no conjunto de N pontos disponíveis. Para cada grupo, o modelo funde as características de um ponto amostral com seus pontos vizinhos. Na etapa final, a estrutura Ferret conduz um agrupamento máximo para fundir k recursos vizinhos em um recurso para atuar como representação do ponto amostrado. Ao realizar essas três etapas, a estrutura Ferret fica com menos pontos, mas apresenta um espaço com maior densidade porque não apenas incorpora as características dos vizinhos locais, mas também suas posições relativas.
Geração de dados visuais assistida por GPT
Os dados de ajuste de instrução de diálogo são de importância crítica para o Multimodal Modelos de linguagem grandes eles não apenas ajudam na conversão do conjunto de dados existente por modelos, mas também ajudam o modelo a compreender a intenção humana e a gerar uma resposta apropriada. A maioria dos MLLMs usa um método de prompt de poucos disparos para obter dados de ajuste de instruções visuais, onde o modelo fornece descrição textual de cenas na imagem junto com diálogos anotados por humanos como demonstrações de poucos disparos. No entanto, os métodos de ajuste de instrução existentes concentram-se principalmente na descrição de toda a imagem, sem especificar explicitamente informações relacionadas ao espaço. A estrutura Ferret enfatiza o conhecimento baseado na região para coletar dados de ajuste de instruções de referência e de base em três etapas.
- Além de usar legendas e objetos globais, a estrutura fornece uma descrição simbólica da cena que descreve a relação física entre as legendas e os objetos da região, ao mesmo tempo que fornece suas coordenadas.
- Para diálogos anotados por humanos, a estrutura adiciona coordenadas após objetos ou regiões fundamentáveis, seja na entrada ou na saída, ou ambos, com os diálogos focando principalmente em regiões específicas, o que ajuda a fazer com que o modelo de linguagem siga implicitamente os padrões semelhantes para a nova geração de diálogo.
- Pode ser possível que o diálogo gerado pela estrutura não siga as regras e padrões conforme instruídos por exemplos rápidos e pelos prompts do sistema. Para resolver esta questão, a estrutura utiliza novamente um modelo de linguagem para refinar os diálogos gerados inicialmente pelo modelo.
Mineração Espacial Negativa
Pesquisas anteriores demonstraram que modelos multimodais de grandes linguagens têm uma alta probabilidade de alucinar ao responder a perguntas de Sim ou Não. Para garantir que o modelo Ferret não tenha alucinações em condições semelhantes, a estrutura emprega a abordagem de Mineração Negativa Espacial com Localização de Categoria Condicionada por Imagem e Localização de Categoria Condicionada por Semântica. Ambos os métodos pedem ao modelo para localizar categorias específicas de objetos que permitem ao modelo reconhecer a ausência de certos objetos na imagem.
Furão: Resultados e Experimentação
Para analisar seu desempenho, a estrutura Ferret é avaliada em bases convencionais e referências de referência, após o que a estrutura é avaliada em uma tarefa de bate-papo multimodal mais complexa e testando suas capacidades de referência e aterramento.

A capacidade do modelo de compreender a referência é avaliada pela precisão com que um modelo pode compreender a semântica da região referida, dada uma região referida na imagem ou na pergunta. Para medir a precisão do modelo, os objetos, a semântica mais básica são considerados primeiro, pois não são apenas fundamentais, mas também fáceis de definir. Para imitar a versatilidade do nível humano, a estrutura substitui a localização do objeto na imagem por uma forma livre, uma caixa e um ponto. Para uma forma de forma livre, o modelo gera traços aleatoriamente dentro do objeto Ground Truth para simulação. Para caixa, a estrutura Ferret usa a caixa delimitadora da verdade fornecida pelo componente LVIS. Finalmente, para o ponto, o modelo amostra aleatoriamente um ponto dentro do objeto de verdade básica que também está próximo ao limite do objeto de verdade básica. Os resultados nos três tipos de referência são demonstrados na imagem a seguir.

A estrutura Ferret demonstra desempenho notável em tarefas de diálogo referencial, abrindo espaço para integração com diferentes tarefas de aprendizagem visual, especialmente aquelas com resultados de base. Para avaliar a sua capacidade de aterramento, a estrutura Ferret primeiro se submete a avaliar tarefas de aterramento visual com um paradigma generativo. A estrutura então avalia sua capacidade em tarefas de legendagem fundamentadas para medir o alinhamento entre as regiões e as palavras.
Em tarefas de fundamentação visual, a estrutura visa fundamentar consultas de linguagem em regiões alinhadas da imagem e, como pode ser visto na imagem a seguir, a estrutura Ferret demonstra um desempenho notável em todos os benchmarks, e o desempenho é comparável ao alcançado por métodos especializados de ajuste fino.

Para tarefas de legenda fundamentada, o modelo precisa gerar uma legenda e, em seguida, vincular os sintagmas nominais gerados às regiões da imagem. A previsão final feita pelo modelo consiste em três componentes: regiões visuais como caixas, legendas de texto e alinhamentos de base entre caixas e palavras. Os resultados são demonstrados na imagem a seguir e, como pode ser observado, a estrutura oferece desempenho comparável aos métodos do estado da arte.

Finalmente, o bate-papo multimodal é um dos recursos mais desejados dentro de um MLLM, e os MLLMs existentes avaliam principalmente descrições detalhadas, conversação e raciocínio complexo com o modelo de linguagem como juiz. No entanto, como nenhum conjunto de dados avalia o bate-papo multimodal com ações obrigatórias de referência ou fundamentação, isso deixa uma lacuna. Para colmatar esta lacuna, o quadro Ferret cobre três questões baseadas na região para avaliar as suas capacidades de referência e de base em tarefas de conversação multimodais. Os resultados são demonstrados na imagem a seguir.

Finalmente, a estrutura Ferret é comparada diretamente com a estrutura GPT de última geração, e os resultados são demonstrados abaixo.

Considerações Finais
Neste artigo, falamos sobre Ferret, um modelo multimodal de linguagem grande que demonstra notáveis capacidades de fundamentação e referência. A estrutura Ferret pode referir-se a regiões de imagem independentemente de sua forma e pode estabelecer automaticamente a base para o texto previsto pelo modelo. Ferret emprega um amostrador visual com reconhecimento espacial capaz de lidar com a dispersão variada exibida por diferentes formas para extrair as características contínuas de regiões versáteis. Como resultado, a estrutura Ferret pode inserir diversas entradas de região, incluindo modeladores de formato livre, caixas delimitadoras e pontos.












