Inteligência artificial
YOLO-World: Detecção de Objetos em Tempo Real com Vocabulário Aberto
A detecção de objetos tem sido um desafio fundamental na indústria de visão computacional, com aplicações em robótica, compreensão de imagens, veículos autônomos e reconhecimento de imagens. Nos últimos anos, trabalhos inovadores em IA, particularmente por meio de redes neurais profundas, avançaram significativamente a detecção de objetos. No entanto, esses modelos têm um vocabulário fixo, limitado à detecção de objetos dentro das 80 categorias do conjunto de dados COCO. Essa limitação decorre do processo de treinamento, onde os detectores de objetos são treinados para reconhecer apenas categorias específicas, limitando assim sua aplicabilidade.
Para superar isso, introduzimos o YOLO-World, uma abordagem inovadora destinada a melhorar o framework YOLO (You Only Look Once) com capacidades de detecção de vocabulário aberto. Isso é alcançado por meio do pré-treinamento do framework em conjuntos de dados em larga escala e implementação de uma abordagem de modelagem de visão-linguagem. Especificamente, o YOLO-World emprega uma Rede de Agregação de Caminho de Visão-Linguagem Re-parametrizável (RepVL-PAN) e perda contrastiva de região-texto para fomentar a interação entre informações linguísticas e visuais. Por meio da RepVL-PAN e da perda contrastiva de região-texto, o YOLO-World pode detectar com precisão uma ampla gama de objetos em um ambiente de zero-shot, mostrando um desempenho notável em tarefas de segmentação e detecção de objetos de vocabulário aberto.
Este artigo visa fornecer uma compreensão aprofundada dos fundamentos técnicos do YOLO-World, arquitetura do modelo, processo de treinamento e cenários de aplicação. Vamos mergulhar nisso.
YOLO-World: Detecção de Objetos em Tempo Real com Vocabulário Aberto
YOLO ou You Only Look Once é um dos métodos mais populares para detecção de objetos moderna na indústria de visão computacional. Renomado por sua incrível velocidade e eficiência, o advento do mecanismo YOLO revolucionou a forma como as máquinas interpretam e detectam objetos específicos dentro de imagens e vídeos em tempo real. Os frameworks tradicionais de detecção de objetos implementam uma abordagem de detecção de objetos em dois passos: no primeiro passo, o framework propõe regiões que podem conter o objeto, e o framework classifica o objeto no próximo passo. O framework YOLO, por outro lado, integra esses dois passos em um único modelo de rede neural, uma abordagem que permite que o framework olhe para a imagem apenas uma vez para prever o objeto e sua localização dentro da imagem, e, portanto, o nome YOLO ou You Only Look Once.
Além disso, o framework YOLO trata a detecção de objetos como um problema de regressão, e prevê as probabilidades de classe e caixas delimitadoras diretamente da imagem completa em um único olhar. A implementação desse método não apenas aumenta a velocidade do processo de detecção, mas também melhora a capacidade do modelo de generalizar dados complexos e diversificados, tornando-o uma escolha adequada para aplicações que operam em tempo real, como direção autônoma, detecção de velocidade ou reconhecimento de placas de licença. Além disso, o avanço significativo das redes neurais profundas nos últimos anos também contribuiu significativamente para o desenvolvimento de frameworks de detecção de objetos, mas o sucesso dos frameworks de detecção de objetos ainda é limitado, pois eles são capazes de detectar objetos apenas com um vocabulário limitado. Isso ocorre principalmente porque, uma vez que as categorias de objetos são definidas e rotuladas no conjunto de dados, os detectores treinados no framework são capazes de reconhecer apenas essas categorias específicas, limitando assim a aplicabilidade e a capacidade de implantar modelos de detecção de objetos em tempo real e em cenários abertos.
Em seguida, modelos de visão-linguagem recentemente desenvolvidos empregam conhecimento de vocabulário destilado de codificadores de linguagem para abordar a detecção de vocabulário aberto. Embora esses frameworks performem melhor do que os modelos tradicionais de detecção de objetos na detecção de vocabulário aberto, eles ainda têm uma aplicabilidade limitada devido à escassez de dados de treinamento com diversidade de vocabulário limitada. Além disso, frameworks selecionados treinam detectores de objetos de vocabulário aberto em larga escala e categorizam os detectores de objetos de treinamento como pré-treinamento de visão-linguagem em nível de região. No entanto, a abordagem ainda luta para detectar objetos em tempo real devido a duas razões principais: processo de implantação complexo para dispositivos de borda e requisitos computacionais pesados. Por outro lado, esses frameworks demonstraram resultados positivos a partir do pré-treinamento de grandes detectores para empregá-los com capacidades de reconhecimento aberto.
O framework YOLO-World visa alcançar uma detecção de objetos de vocabulário aberto altamente eficiente e explorar a possibilidade de abordagens de pré-treinamento em larga escala para aumentar a eficiência dos detectores YOLO tradicionais para a detecção de objetos de vocabulário aberto. Contrariamente aos trabalhos anteriores em detecção de objetos, o framework YOLO-World demonstra uma eficiência notável com velocidades de inferência altas e pode ser implantado em aplicações downstream com facilidade. O modelo YOLO-World segue a arquitetura YOLO tradicional e codifica textos de entrada aproveitando as capacidades de um codificador de texto CLIP pré-treinado. Além disso, o framework YOLO-World inclui um componente de Rede de Agregação de Caminho de Visão-Linguagem Re-parametrizável (RepVL-PAN) em sua arquitetura para conectar recursos de imagem e texto para representações visuais-semânticas aprimoradas. Durante a fase de inferência, o framework remove o codificador de texto e re-parametriza as embeddings de texto em pesos RepVL-PAN, resultando em uma implantação eficiente. O framework também inclui aprendizado contrastivo de região-texto em sua estrutura para estudar métodos de pré-treinamento de vocabulário aberto para os modelos YOLO tradicionais. O método de aprendizado contrastivo de região-texto unifica dados de imagem-texto, dados de ancoragem e dados de detecção em pares de região-texto. Com base nisso, o framework YOLO-World pré-treinado em pares de região-texto demonstra capacidades notáveis para detecção de vocabulário grande e aberto. Além disso, o framework YOLO-World também explora um paradigma de prompt-then-detect com o objetivo de melhorar a eficiência da detecção de objetos de vocabulário aberto em tempo real e em cenários do mundo real.
Como pode ser visto na imagem a seguir, os detectores de objetos tradicionais se concentram em um conjunto fechado de detecção de vocabulário fixo com categorias pré-definidas, enquanto os detectores de vocabulário aberto detectam objetos codificando prompts de usuário com codificadores de texto para vocabulário aberto. Em comparação, a abordagem prompt-then-detect do YOLO-World primeiro constrói um vocabulário offline (vocabulário variado para necessidades variadas) codificando os prompts do usuário, permitindo que os detectores interpretem o vocabulário offline em tempo real sem precisar recodificar os prompts.

YOLO-World: Método e Arquitetura
Pares de Região-Texto
Tradionalmente, os frameworks de detecção de objetos, incluindo a família de detectores de objetos YOLO, são treinados usando anotações de instância que contêm rótulos de categoria e caixas delimitadoras. Em contraste, o framework YOLO-World reformula as anotações de instância como pares de região-texto, onde o texto pode ser a descrição do objeto, frases nominais ou nome de categoria. É importante notar que o framework YOLO-World adota tanto textos quanto imagens como entrada e produz caixas preditas com embeddings de objeto correspondentes.
Arquitetura do Modelo
Em seu núcleo, o modelo YOLO-World consiste em um Codificador de Texto, um detector YOLO e o componente de Rede de Agregação de Caminho de Visão-Linguagem Re-parametrizável (RepVL-PAN), como ilustrado na imagem a seguir.

Para um texto de entrada, o componente de codificador de texto codifica o texto em embeddings de texto, seguido da extração de recursos multi-escala da imagem de entrada pelo detector de imagem no componente do detector YOLO. O componente de Rede de Agregação de Caminho de Visão-Linguagem Re-parametrizável (RepVL-PAN) então explora a fusão cross-modal entre os embeddings de texto e recursos para melhorar as representações de texto e imagem.
Detector YOLO
O modelo YOLO-World é construído sobre o framework YOLOv8 existente, que contém um componente de backbone Darknet como codificador de imagem, uma cabeça para embeddings de objeto e regressão de caixa delimitadora e uma Rede de Agregação de Caminho (PAN) para pirâmides de recursos multi-escala.
Codificador de Texto
Para um texto dado, o modelo YOLO-World extrai os embeddings de texto correspondentes adotando um codificador de texto CLIP Transformer pré-treinado com um número específico de substantivos e dimensão de embedding. A razão principal pela qual o framework YOLO-World adota um codificador de texto CLIP é que ele oferece um melhor desempenho visual-semântico para conectar textos com objetos visuais, superando significativamente os codificadores de linguagem tradicionais apenas de texto. No entanto, se o texto de entrada for uma legenda ou uma expressão de referência, o modelo YOLO-World opta por um algoritmo de n-grama mais simples para extrair as frases. Essas frases são então alimentadas ao codificador de texto.
Cabeça de Contraste de Texto
A cabeça decoupled é um componente utilizado por modelos de detecção de objetos anteriores, e o framework YOLO-World adota uma cabeça decoupled com convoluções duais 3×3 para regressar embeddings de objeto e caixas delimitadoras para um número fixo de objetos. O framework YOLO-World emprega uma cabeça de contraste de texto para obter a similaridade objeto-texto usando a abordagem de normalização L2 e embeddings de texto. Além disso, o modelo YOLO-World também emprega a abordagem de transformação afim com um fator de deslocamento e um fator de escala aprendível, com a normalização L2 e a transformação afim aprimorando a estabilidade do modelo durante o treinamento de região-texto.
Treinamento de Vocabulário Online
Durante a fase de treinamento, o modelo YOLO-World constrói um vocabulário online para cada amostra de mosaico, consistindo em 4 imagens cada. O modelo amostra todos os substantivos positivos incluídos nas imagens de mosaico e amostra alguns substantivos negativos aleatoriamente a partir do conjunto de dados correspondente. O vocabulário para cada amostra consiste em um máximo de n substantivos, com o valor padrão sendo 80.
Inferência de Vocabulário Offline
Durante a inferência, o modelo YOLO-World apresenta uma estratégia de prompt-then-detect com vocabulário offline para melhorar ainda mais a eficiência do modelo. O usuário primeiro define uma série de prompts personalizados que podem incluir categorias ou até legendas. O modelo YOLO-World então obtém embeddings de vocabulário offline utilizando o codificador de texto para codificar esses prompts. Como resultado, o vocabulário offline para inferência ajuda o modelo a evitar cálculos para cada entrada e também permite que o modelo ajuste o vocabulário de forma flexível de acordo com as necessidades.
Rede de Agregação de Caminho de Visão-Linguagem Re-parametrizável (RepVL-PAN)
A figura a seguir ilustra a estrutura da proposta de Rede de Agregação de Caminho de Visão-Linguagem Re-parametrizável, que segue os caminhos de cima para baixo e de baixo para cima para estabelecer a pirâmide de recursos com imagens de recursos multi-escala.

Para melhorar a interação entre recursos de texto e imagem, o modelo YOLO-World propõe uma atenção de pooling de imagem e uma camada de CSPLayer (Cross-Stage Partial Layers) orientada por texto, com o objetivo final de melhorar as representações visuais-semânticas para capacidades de vocabulário aberto. Durante a inferência, o modelo YOLO-World re-parametriza os embeddings de vocabulário offline nos pesos das camadas lineares ou convolucionais para uma implantação eficaz.
Como pode ser visto na figura acima, o modelo YOLO-World utiliza a camada CSPLayer após a fusão de cima para baixo ou de baixo para cima, e incorpora orientação de texto em recursos de imagem multi-escala, formando a camada CSPLayer orientada por texto, estendendo assim a camada CSPLayer. Para qualquer imagem de recurso e seu embedding de texto correspondente, o modelo adota a atenção max-sigmoid após o último bloco de garrafa para agregar recursos de texto em recursos de imagem. O recurso de imagem atualizado é então concatenado com os recursos de estágio cruzado e é apresentado como saída.
Em seguida, o modelo YOLO-World agrega recursos de imagem para atualizar o embedding de texto, introduzindo a camada de atenção de pooling de imagem para melhorar os embeddings de texto com informações de imagem. Em vez de usar a atenção cruzada diretamente nos recursos de imagem, o modelo aproveita o pooling máximo em recursos multi-escala para obter regiões 3×3, resultando em 27 tokens de patch, com o modelo atualizando os embeddings de texto na próxima etapa.
Esquemas de Pré-Treinamento
O modelo YOLO-World segue dois esquemas de pré-treinamento principais: Aprendizado a partir da Perda Contrastiva de Região-Texto e Rotulagem Pseudo com Dados de Imagem-Texto. Para o esquema de pré-treinamento principal, o modelo produz previsões de objeto juntamente com anotações para um texto e amostras de mosaico dados. O framework YOLO-World combina as previsões com anotações de verdadeiro com base na atribuição de rótulo de tarefa e atribui previsões positivas individuais com um índice de texto que serve como rótulo de classificação. Por outro lado, o esquema de pré-treinamento de Rotulagem Pseudo com Dados de Imagem-Texto propõe usar uma abordagem de rotulagem automática em vez de usar pares de imagem-texto para gerar pares de região-texto. A abordagem de rotulagem proposta consiste em três etapas: extração de frases nominais, rotulagem pseudo e filtragem. A primeira etapa utiliza o algoritmo de n-grama para extrair frases nominais do texto de entrada, a segunda etapa adota um detector de vocabulário aberto pré-treinado para gerar caixas pseudo para a frase nominal dada para imagens individuais, enquanto a terceira e última etapa emprega um framework CLIP pré-treinado para avaliar a relevância dos pares de região-texto e texto-imagem, após o que o modelo filtra imagens e anotações de baixa relevância.
YOLO-World: Resultados
Uma vez que o modelo YOLO-World tenha sido pré-treinado, ele é avaliado diretamente no conjunto de dados LVIS em um ambiente de zero-shot, com o conjunto de dados LVIS consistindo em mais de 1200 categorias, significativamente mais do que os conjuntos de dados de pré-treinamento usados por frameworks existentes para testar seu desempenho na detecção de vocabulário grande. A figura a seguir demonstra o desempenho do framework YOLO-World com alguns dos frameworks de detecção de objetos de estado da arte existentes no conjunto de dados LVIS em um ambiente de zero-shot.

Como pode ser observado, o framework YOLO-World supera a maioria dos frameworks existentes em termos de velocidade de inferência e desempenho de zero-shot, mesmo com frameworks como Grounding DINO, GLIP e GLIPv2 que incorporam mais dados. Em geral, os resultados demonstram que modelos de detecção de objetos pequenos, como o YOLO-World-S com apenas 13 milhões de parâmetros, podem ser utilizados para pré-treinamento em tarefas de visão-linguagem com capacidades de vocabulário aberto notáveis.
Pensamentos Finais
Neste artigo, falamos sobre o YOLO-World, uma abordagem inovadora que visa melhorar as capacidades do framework YOLO ou You Only Look Once com capacidades de detecção de vocabulário aberto, pré-treinando o framework em conjuntos de dados em larga escala e implementando a abordagem de modelagem de visão-linguagem. Para ser mais específico, o framework YOLO-World propõe implementar uma Rede de Agregação de Caminho de Visão-Linguagem Re-parametrizável (RepVL-PAN) juntamente com perda contrastiva de região-texto para facilitar a interação entre as informações linguísticas e visuais. Ao implementar a RepVL-PAN e a perda contrastiva de região-texto, o framework YOLO-World é capaz de detectar com precisão e eficácia uma ampla gama de objetos em um ambiente de zero-shot.












