Connect with us

Inteligencia artificial

Ajuste de instrucciones visuales para comprensión a nivel de píxel con Osprey

mm

Con el reciente perfeccionamiento de los métodos de ajuste de instrucciones visuales, los Modelos de Lenguaje Grande Multimodales (MLLMs) han demostrado capacidades visuales y lingüísticas generales notables. Estas capacidades los convierten en bloques de construcción clave para asistentes visuales generales modernos. Los modelos recientes, incluidos MiniGPT-4, LLaVA, InstructBLIP y otros, exhiben impresionantes capacidades de razonamiento visual y seguimiento de instrucciones. Aunque la mayoría de ellos dependen de pares de imagen-texto para la alineación visión-lenguaje a nivel de imagen, funcionan bien en este dominio. Sin embargo, su dependencia de la comprensión a nivel de caja y de imagen es la razón principal por la que los MLLMs no logran replicar su rendimiento en tareas de alineación visión-lenguaje a nivel de píxel. Además, la disponibilidad limitada de datos de instrucción basados en máscaras para el entrenamiento plantea desafíos para mejorar aún más los MLLMs.

Osprey es un método de entrenamiento de instrucciones de texto-máscara con el objetivo principal de ampliar los MLLMs. Incorpora regiones enmascaradas de grano fino en las instrucciones lingüísticas para lograr una comprensión visión-lenguaje a nivel de píxel. Para lograr esto, el marco de Osprey cura un conjunto de datos de región-texto basado en máscaras con más de 700 mil muestras. Inyecta representaciones a nivel de píxel en Modelos de Lenguaje Grande (LLMs) para diseñar un modelo de visión-lenguaje. Notablemente, el marco de Osprey adopta un modelo CLIP convolucional como codificador de visión y integra un extractor visual consciente de máscaras en su arquitectura. Esto permite la extracción precisa de características visuales de máscaras de entrada de alta resolución.

En este artículo, discutiremos el marco de Osprey y profundizaremos en su arquitectura. También exploraremos el conjunto de datos de región-texto curado con más de 700 mil muestras y compararemos su rendimiento en varias tareas de comprensión de región. Así que comencemos.

Osprey: Comprensión de píxeles con ajuste de instrucciones visuales

Los Modelos de Lenguaje Grande Multimodales como MiniGPT-4, Otter, Qwen-LV, InstructBLIP y otros son los precursores en el desarrollo de asistentes visuales generales, y son conocidos por sus capacidades multimodales y generativas visuales excepcionales. Sin embargo, los Modelos de Lenguaje Grande Multimodales sufren de un desafío importante, ya que entregan resultados insatisfactorios en tareas de comprensión de imagen de grano fino como la descripción de capturas, la clasificación de regiones y el razonamiento. Una razón importante para el rendimiento subpar en tareas de comprensión de imagen de grano fino es la falta de alineación a nivel de región. Los MLLMs recientes como GPT4RoI, Shikra y otros apuntan a habilitar la comprensión a nivel de región en modelos de visión-lenguaje procesando regiones especificadas por cajas delimitadoras y aprovechando el ajuste de instrucciones visuales con características espaciales a nivel de objeto.

Aunque el enfoque para habilitar la comprensión a nivel de región puede mejorar el rendimiento, emplear cajas delimitadoras esparsas como la región de entrada de referencia directamente puede introducir características de fondo irrelevantes que llevan a una alineación de pares de texto-región inexacta para el ajuste de instrucciones visuales en modelos de lenguaje grande. Durante el proceso de inferencia, la entrada de referencia a nivel de caja puede no ser capaz de detectar y representar el objeto con precisión; esto puede resultar en una desviación semántica, como se demuestra en la siguiente imagen.

En comparación, usar máscaras de grano fino en lugar de cajas delimitadoras gruesas como la región de entrada de referencia puede representar objetos con más precisión. El modelo de Segment Anything (SAM) recientemente desarrollado, que se entrena con miles de millones de máscaras de alta calidad, demuestra una calidad de segmentación notable en objetos de disparo cero y admite el uso de puntos o cajas delimitadoras simples como prompts. Sin embargo, el marco de SAM no puede generar etiquetas semánticas primarias, ni puede proporcionar descripciones de capturas detalladas y atributos. Como resultado, los modelos existentes carecen de información multimodal de grano fino inherente y tienen una comprensión limitada de escenas en el mundo real.

Para abordar los desafíos que enfrentan los MLLMs existentes, Osprey, un método de entrenamiento de instrucciones de texto-máscara novel, apunta a ampliar las capacidades de los modelos de lenguaje grande multimodales para la comprensión visual de grano fino a nivel de píxel. El marco de Osprey introduce un extractor visual consciente de máscaras que captura características visuales de máscaras con granularidad variable con precisión. El marco luego entrelaza las características visuales con instrucciones lingüísticas para generar la secuencia de entrada para el modelo de lenguaje grande y aprovecha la arquitectura CLIP convolucional para facilitar el uso de entrada de alta resolución. Debido a su diseño y arquitectura, el marco de Osprey puede lograr una comprensión semántica de grano fino para regiones de objeto y parte, y proporciona atributos de objeto detallados junto con la categoría de objeto principal y descripciones mejoradas de escenas complejas.

Al aprovechar las capacidades del ajuste de instrucciones visuales, el marco de Osprey habilita nuevas capacidades más allá de la comprensión a nivel de imagen y caja de las escenas, ya que el marco de Osprey puede generar semánticas de grano fino utilizando máscaras agnósticas de clase de SAM estándar. Además, Osprey muestra capacidades notables en tareas de clasificación de objeto de referencia, reconocimiento de vocabulario abierto, descripción de región a nivel de región y descripción detallada de región.

Osprey: Metodología y Arquitectura

La siguiente figura muestra la visión general de la arquitectura del marco de Osprey, que consiste en un modelo de lenguaje grande, un extractor visual consciente de máscaras a nivel de píxel y un codificador de visión a nivel de imagen.

Para una imagen dada, el lenguaje de entrada y las regiones de máscaras de referencia, el marco realiza la conversión y la tokenización para generar incrustaciones antes de enviar las secuencias de incrustaciones de lenguaje y las características de máscaras entrelazadas al modelo de lenguaje grande para obtener comprensiones semánticas de grano fino.

Codificador de visión CLIP convolucional

El codificador de visión desplegado en la mayoría de los modelos de lenguaje grande multimodales se ejemplifica mediante un modelo CLIP basado en ViT. Como resultado, el marco adopta una resolución de imagen de 224×224 píxeles o 336 x 336 píxeles. Sin embargo, el uso del modelo CLIP basado en ViT hace que sea difícil para el modelo lograr una comprensión de imagen de grano fino a nivel de píxel, un problema que se amplifica aún más en regiones pequeñas. Además, la sobrecarga computacional asociada con la arquitectura ViT obstaculiza la posibilidad de aumentar la resolución de la imagen de entrada.

Para abordar el desafío, el marco de Osprey implementa un modelo CLIP convolucional como codificador de visión en su arquitectura. Tradicionalmente, los modelos CLIP basados en Redes Neuronales Convolucionales han demostrado capacidades de generalización notables en diferentes resoluciones de entrada en comparación con los modelos CLIP basados en transformadores de visión. La implementación de un modelo CLIP basado en CNN hace espacio para una inferencia rápida y un entrenamiento eficiente sin comprometer el rendimiento del modelo. Además, un modelo CLIP basado en CNN es capaz de generar mapas de características multi-escalas que el marco utiliza directamente para la extracción de características en cada región de objeto posterior.

Extractor visual consciente de máscaras

En contraste con los modelos basados en regiones existentes que utilizan cajas delimitadoras esparsas como la región de entrada de referencia, el marco de Osprey utiliza regiones de máscaras detalladas para implementar representaciones basadas en objetos. El modelo de Osprey emplea un componente de extractor visual consciente de máscaras para capturar características visuales a nivel de píxel dentro de cada región de objeto. El componente de extractor visual consciente de máscaras codifica características visuales a nivel de máscara y, además, recopila la información de posición espacial de cada región.

Para implementar esto, Osprey utiliza primero las características de imagen multi-nivel generadas por el codificador de visión para adoptar la operación de agrupación de máscaras, y para cada característica de nivel único, el marco agrupa todas las características que se encuentran dentro de la región de la máscara. El modelo codifica las características a través de diferentes capas al pasar cada característica a través de una capa de proyección lineal que genera incrustaciones a nivel de región, y fusiona características multi-nivel al realizar una suma. El modelo utiliza entonces una capa MLP para producir el token de máscara visual. Además, Osprey conserva la geometría espacial del objeto al codificar la relación de posición a nivel de píxel al implementar una máscara binaria para cada región de objeto. Al final, Osprey incluye el token de máscara visual y sus tokens espaciales respectivos para cada incrustación de región de máscara.

Tokenización de LLM

Como se mencionó anteriormente, el modelo extrae las incrustaciones de imagen a nivel de imagen al alimentar la imagen a un codificador de visión pre-entrenado basado en CNN. Para la información textual, el modelo utiliza primero tokenizadores de LLM pre-entrenados para tokenizar secuencias de texto, y luego proyecta estas secuencias de texto tokenizadas en incrustaciones de texto. Para regiones basadas en máscaras, el modelo define un token especial como un marcador de posición y luego lo sustituye con un token espacial junto con un token de máscara. Cuando el modelo se refiere a una región de objeto en la entrada de texto, agrega el marcador de posición después del nombre de la región, lo que permite que las regiones de máscara se mezclen con textos para formar oraciones completas sin espacios de tokenización. Además, aparte de las instrucciones del usuario, el modelo también incluye un prefijo de prompt, un token especial que sirve como marcador de posición, que se reemplaza con las incrustaciones de imagen a nivel de imagen del codificador de visión. Finalmente, el marco entrelaza los tokens visuales a nivel de región y de imagen junto con los tokens de texto y los alimenta al modelo de lenguaje grande para comprender las instrucciones del usuario y la imagen con diferentes regiones en el objeto.

Osprey: Proceso de entrenamiento de tres etapas

El marco de Osprey despliega un proceso de entrenamiento de tres etapas en el que cada una de las fases de entrenamiento está supervisada minimizando una pérdida de predicción de token siguiente.

Etapa 1: Entrenamiento de alineación de imagen-texto

En la primera etapa, el marco de Osprey despliega el codificador de visión CLIP basado en CNN para entrenar las características de imagen a nivel de imagen y el conector de lenguaje para entrenar el modelo para la alineación de características de imagen-texto. En la primera etapa, el marco emplea tres componentes: un modelo de lenguaje grande pre-entrenado, un codificador de visión pre-entrenado y un proyector de imagen a nivel de imagen. El marco también adopta una capa MLP como conector de visión-lenguaje que ayuda a mejorar las capacidades generativas multimodales de Osprey.

Etapa 2: Pre-entrenamiento de alineación de máscara-texto

En la segunda etapa, Osprey carga los pesos entrenados en la primera etapa y emplea su componente de extractor visual consciente de máscaras para capturar características de región a nivel de píxel. En la segunda etapa, el marco solo entrena el extractor visual consciente de máscaras para alinear incrustaciones de lenguaje con características de región basadas en máscaras. Además, el modelo recopila pares de máscaras a nivel de píxel y textos cortos de conjuntos de datos de objeto a nivel de parte y públicamente disponibles, y los convierte en datos de seguimiento de instrucciones para entrenar aún más el modelo.

Etapa 3: Ajuste fino de extremo a extremo

En la tercera y última etapa, el modelo fija los pesos del codificador de visión y ajusta finamente el modelo de lenguaje grande, el extractor de características de región basadas en máscaras y los componentes del proyector de imagen a nivel de imagen en su arquitectura. El objetivo principal del entrenamiento en la tercera etapa es ampliar la capacidad del modelo para seguir instrucciones del usuario con precisión y realizar tareas de comprensión de región a nivel de píxel de manera eficiente.

Después de implementar las tres etapas de entrenamiento, el marco de Osprey es capaz de comprender escenarios complejos definidos por instrucciones del usuario y basados en regiones de máscaras a nivel de píxel.

Osprey: Resultados experimentales

Para evaluar su rendimiento, los desarrolladores de Osprey llevan a cabo una amplia variedad de experimentos para demostrar las capacidades del modelo en clasificación, reconocimiento de región a nivel de píxel y descripciones complejas.

Segmentación de vocabulario abierto

El objetivo principal de la segmentación de vocabulario abierto es generar reconocimiento de región basada en máscara y su categoría respectiva de manera explícita. Para lograr la segmentación de vocabulario abierto, Osprey utiliza primero un prompt de texto de entrada, seguido de lo cual el modelo adopta regiones de máscara de verdad de suelo para la interferencia del modelo para evaluar el rendimiento del modelo en tareas de reconocimiento de vocabulario abierto. En función de la respuesta de oración generada por el modelo de lenguaje grande multimodal, Osprey calcula la similitud semántica entre la lista de vocabulario y la salida de cada conjunto de datos. La siguiente figura compara Osprey con los modelos de lenguaje grande multimodal actuales.

Como se puede observar, el marco de Osprey supera a los métodos existentes por un margen considerable en ambos conjuntos de datos Cityscapes y ADE20K-150. Los resultados indican la capacidad de Osprey para superar los enfoques existentes y lograr una comprensión y reconocimiento robustos de regiones de objeto de grano fino.

Clasificación de objeto de referencia

En la tarea de clasificación de objeto de referencia, el modelo se requiere para clasificar el objeto dentro de una región específica de una imagen. Para evaluar sus capacidades de clasificación, el marco de Osprey utiliza dos métricas de relevancia semántica, incluyendo IoU semántico (S-IoU) y similitud semántica (SS). El IoU semántico representa la superposición de palabras entre las etiquetas de verdad de suelo y las etiquetas de predicción, mientras que la similitud semántica mide la similitud entre las etiquetas de predicción y/o de verdad de suelo en un espacio semántico. La siguiente imagen demuestra el rendimiento de Osprey en la tarea de clasificación de objeto de referencia cuando se compara con modelos que emplean enfoques a nivel de caja y de imagen.

Descripción detallada de región

En la tarea de descripción detallada de región, el modelo evalúa su rendimiento en capacidades de descripción detallada de seguimiento de instrucciones junto con otros enfoques a nivel de región. El modelo selecciona aleatoriamente un prompt de inferencia de entrada de una lista de prompts predefinidos y aprovecha el marco de LLM GPT-4 para medir la calidad de la respuesta generada por el modelo con respecto a las regiones de referencia de manera integral. Utilizando la tubería de generación de instrucciones, el modelo genera preguntas y busca las respuestas de GPT-4, tras lo cual el LLM evalúa la corrección de la semántica y la precisión de la comprensión de referencia. La siguiente tabla demuestra el rendimiento de Osprey contra los modelos actuales en tareas de descripción detallada de región.

Descripción de región a nivel de región

El marco de Osprey también supera a los enfoques actuales en tareas de descripción de región a nivel de región, con los resultados contenidos en la siguiente imagen.

Pensamientos finales

En este artículo, hemos hablado sobre Osprey, un método de entrenamiento de instrucciones de texto-máscara con el objetivo principal de ampliar los MLLMs incorporando regiones enmascaradas de grano fino en instrucciones lingüísticas para lograr una comprensión visión-lenguaje a nivel de píxel. Para lograr su objetivo, el marco de Osprey cura un conjunto de datos de región-texto basado en máscaras con más de 700 mil muestras e inyecta representaciones a nivel de píxel en LLM para diseñar un modelo de visión-lenguaje. El marco de Osprey apunta a mejorar significativamente los MLLMs para la comprensión visual de grano fino, y al implementar un modelo CLIP convolucional y un extractor visual consciente de máscaras, Osprey logra la capacidad de comprender imágenes a nivel de región de objeto y parte.

Un ingeniero por profesión, un escritor por corazón. Kunal es un escritor técnico con un profundo amor y comprensión de la IA y el ML, dedicado a simplificar conceptos complejos en estos campos a través de su documentación atractiva e informativa.