Inteligencia artificial

Ajuste de instrucciones visuales para comprensión a nivel de píxel con Osprey

mm

Con la reciente mejora de los métodos de ajuste de instrucciones visuales, los Modelos de Lenguaje Grande Multimodales (MLLMs) han demostrado capacidades de visión-lenguaje de propósito general notablemente impresionantes. Estas capacidades los convierten en componentes clave para los asistentes visuales de propósito general modernos. Los modelos recientes, incluidos MiniGPT-4, LLaVA, InstructBLIP y otros, exhiben habilidades de razonamiento visual y seguimiento de instrucciones impresionantes. Aunque la mayoría de ellos se basan en pares de imagen-texto para la alineación de visión-lenguaje a nivel de imagen, funcionan bien en este dominio. Sin embargo, su dependencia de la comprensión a nivel de caja y de imagen es la razón principal por la que los MLLMs no logran replicar su rendimiento en tareas de alineación de visión-lenguaje de grano fino a nivel de píxel. Además, la disponibilidad limitada de datos de instrucción basados en máscaras para el entrenamiento plantea desafíos para mejorar aún más los MLLMs.

Osprey es un método de entrenamiento de instrucciones de máscara-texto con el objetivo principal de ampliar las capacidades de los MLLMs. Incorpora regiones enmascaradas de grano fino en la instrucción del lenguaje para lograr una comprensión visual-lingüística a nivel de píxel. Para lograr esto, el marco de Osprey cura un conjunto de datos de región-texto basado en máscaras con más de 700 mil muestras. Inyecta representaciones a nivel de píxel en los Modelos de Lenguaje Grande (LLMs) para diseñar un modelo de visión-lenguaje. Notablemente, el marco de Osprey adopta un modelo de visión basado en convoluciones como codificador de visión y integra un extractor visual consciente de máscaras en su arquitectura. Esto permite la extracción precisa de características visuales de máscaras de alta resolución.

En este artículo, discutiremos el marco de Osprey y profundizaremos en su arquitectura. También exploraremos el conjunto de datos de región-texto curado con más de 700 mil muestras y compararemos su rendimiento en varias tareas de comprensión de región. Así que comencemos.

Osprey: Comprensión a nivel de píxel con ajuste de instrucciones visuales

Los Modelos de Lenguaje Grande Multimodales como MiniGPT-4, Otter, Qwen-LV, InstructBLIP y otros son los líderes en el desarrollo de asistentes visuales de propósito general, y son conocidos por sus capacidades multimodales y generativas de visión excepcionales. Sin embargo, los Modelos de Lenguaje Grande Multimodales sufren de un desafío importante, ya que entregan resultados insatisfactorios en tareas de comprensión de imagen de grano fino como la generación de subtítulos, la clasificación de región y el razonamiento. Una de las razones principales del rendimiento deficiente en tareas de comprensión de imagen de grano fino es la falta de alineación a nivel de región. Los MLLMs recientes como GPT4RoI, Shikra y otros apuntan a habilitar la comprensión a nivel de región en los modelos de visión-lenguaje procesando regiones especificadas por cajas delimitadoras y aprovechando el ajuste de instrucciones visuales con características espaciales a nivel de objeto.

Aunque el enfoque para habilitar la comprensión a nivel de región podría mejorar el rendimiento, emplear cajas delimitadoras esparsas como la región de entrada de referencia directamente podría introducir características de fondo irrelevantes que llevan a una alineación incorrecta de pares de región-texto para el ajuste de instrucciones visuales en los modelos de lenguaje grande. Durante el proceso de inferencia, la entrada de referencia a nivel de caja podría no ser capaz de detectar y representar el objeto con precisión; esto podría resultar en una desviación semántica, como se demuestra en la siguiente imagen.

En comparación, utilizar máscaras de grano fino en lugar de cajas delimitadoras gruesas como la región de entrada de referencia podría representar objetos con más precisión. El modelo de Segment Anything (SAM) recientemente desarrollado se entrena con miles de millones de máscaras de alta calidad, demuestra una calidad de segmentación notable en objetos de disparo cero y admite el uso de puntos o cajas delimitadoras simples como prompts. Sin embargo, el marco de SAM no puede generar etiquetas semánticas primarias, ni puede proporcionar subtítulos semánticos detallados y atributos. Como resultado, los modelos existentes carecen de información multimodal de grano fino inherente y tienen una comprensión limitada de escenas en el mundo real.

Para abordar los desafíos que enfrentan los MLLMs existentes, Osprey, un método de entrenamiento de instrucciones de máscara-texto, apunta a ampliar las capacidades de los Modelos de Lenguaje Grande Multimodales para la comprensión de grano fino a nivel de píxel. El marco de Osprey introduce un extractor visual consciente de máscaras que captura características visuales de máscaras con granularidad variable con precisión. El marco luego intercala las características visuales con instrucciones del lenguaje para generar la secuencia de entrada para el modelo de lenguaje grande y aprovecha la arquitectura de CLIP basada en convoluciones para facilitar el uso de entrada de alta resolución. Debido a su diseño y arquitectura, el marco de Osprey es capaz de lograr una comprensión semántica de grano fino para regiones a nivel de objeto y de parte, y proporciona atributos de objeto detallados junto con la categoría de objeto principal y descripciones mejoradas de escenas complejas.

Al aprovechar las capacidades del ajuste de instrucciones visuales, el marco de Osprey habilita nuevas capacidades más allá de la comprensión a nivel de imagen y de caja de las escenas, ya que el marco de Osprey puede generar semántica de grano fino utilizando máscaras agnósticas de clase de SAM estándar. Además, Osprey también muestra capacidades notables en tareas de clasificación de objeto de referencia, reconocimiento de vocabulario abierto, generación de subtítulos a nivel de región y descripción detallada de región.

Osprey: Metodología y Arquitectura

La siguiente figura muestra la visión general de la arquitectura del marco de Osprey, que consiste en un modelo de lenguaje grande, un extractor visual consciente de máscaras a nivel de píxel y un codificador de visión a nivel de imagen.

Para una imagen dada, el lenguaje de entrada y las regiones de máscara de referencia, el marco realiza la conversión y la tokenización para generar incrustaciones antes de enviar las secuencias de incrustaciones de lenguaje y las características de máscara intercaladas al modelo de lenguaje grande para obtener comprensiones semánticas de grano fino.

Codificador de visión CLIP basado en convoluciones

El codificador de visión desplegado en la mayoría de los Modelos de Lenguaje Grande Multimodales es ejemplificado mediante un modelo de CLIP basado en ViT. Como resultado, el marco adopta una resolución de imagen de 224×224 píxeles o 336 x 336 píxeles. Sin embargo, el uso del modelo de CLIP basado en ViT hace que sea difícil para el modelo lograr una comprensión de imagen de grano fino de representaciones a nivel de píxel, un problema que se ve amplificado aún más en regiones pequeñas. Además, la sobrecarga computacional asociada con la arquitectura de ViT obstaculiza la posibilidad de aumentar la resolución de la imagen de entrada.

Para abordar el desafío, el marco de Osprey implementa un modelo de CLIP basado en convoluciones como codificador de visión en su arquitectura. Tradicionalmente, los modelos de CLIP basados en Redes Neuronales Convolucionales han demostrado capacidades de generalización notables en diferentes resoluciones de entrada en comparación con los modelos de CLIP basados en transformadores de visión. La implementación de un modelo de CLIP basado en CNN hace posible una inferencia rápida y un entrenamiento eficiente sin comprometer el rendimiento del modelo. Además, un modelo de CLIP basado en CNN es capaz de generar mapas de características multiescala que el marco utiliza directamente para la extracción de características en cada región de objeto posterior.

Extractor visual consciente de máscaras

En contraste con los modelos basados en regiones existentes que utilizan cajas delimitadoras esparsas como la región de entrada de referencia, el marco de Osprey utiliza regiones de máscara detalladas para implementar representaciones basadas en objetos. El modelo de Osprey emplea un componente de extractor visual consciente de máscaras para capturar características visuales a nivel de píxel dentro de cada región de objeto. El componente de extractor visual consciente de máscaras codifica características visuales a nivel de máscara y, además, recopila la información de posición espacial de cada región.

Para implementar esto, Osprey primero utiliza las características de imagen multiescala generadas por el codificador de visión para adoptar la operación de agrupación de máscaras, y para cada característica de nivel único, el marco agrupa todas las características que se encuentran dentro de la región de máscara. El modelo luego codifica las características a través de diferentes capas al pasar cada característica a través de una capa de proyección lineal que genera incrustaciones a nivel de región, y fusiona características multiescala mediante la realización de una suma. El modelo luego utiliza una capa de MLP para producir el token de máscara visual. Además, Osprey preserva la geometría espacial de la región de objeto al codificar la relación de posición de píxel a píxel mediante la implementación de una máscara binaria para cada región de objeto. Al final, Osprey incluye el token de máscara visual y sus tokens espaciales respectivos para cada incrustación de región de máscara.

Tokenización de LLM

Como se mencionó anteriormente, el modelo extrae las incrustaciones de nivel de imagen de una imagen al alimentarla a un codificador de visión preentrenado basado en CNN. Para la información textual, el modelo primero utiliza tokenizadores de LLM preentrenados para tokenizar secuencias de texto, y luego proyecta estas secuencias de texto tokenizadas en incrustaciones de texto. Para regiones basadas en máscaras, el modelo define un token especial como un marcador de posición y luego lo sustituye con un token espacial junto con un token de máscara. Cuando el modelo se refiere a una región de objeto en la entrada de texto, agrega el marcador de posición después del nombre de la región, lo que permite que las regiones de máscara se mezclen con textos para formar oraciones completas sin espacios de tokenización. Además, aparte de las instrucciones del usuario, el modelo también incluye un prompt de prefijo, un token especial que sirve como un marcador de posición, que luego se reemplaza por las incrustaciones de nivel de imagen del codificador de visión. Finalmente, el marco intercala los tokens visuales de nivel de región y de imagen junto con los tokens de texto y los alimenta al modelo de lenguaje grande para comprender las instrucciones del usuario y la imagen con diferentes regiones en el objeto.

Osprey: Proceso de entrenamiento de tres etapas

El marco de Osprey despliega un proceso de entrenamiento de tres etapas en el que cada una de las etapas de entrenamiento está supervisada por la minimización de una pérdida de predicción de token siguiente.

Etapa 1: Entrenamiento de alineación de imagen-texto

En la primera etapa, el marco de Osprey despliega el codificador de visión basado en CNN para entrenar las características de nivel de imagen y el conector de lenguaje para entrenar el modelo para la alineación de características de imagen-texto. En la primera etapa, el marco emplea tres componentes: un modelo de lenguaje grande preentrenado, un codificador de visión preentrenado y un proyector de nivel de imagen. El marco también adopta una capa de MLP para servir como el conector de visión-lenguaje que ayuda a mejorar las capacidades generativas multimodales de Osprey.

Etapa 2: Preentrenamiento de alineación de máscara-texto

En la segunda etapa, Osprey carga los pesos entrenados en la primera etapa y emplea su componente de extractor visual consciente de máscaras para capturar características de región de píxel. En la segunda etapa, el marco solo entrena el extractor visual consciente de máscaras para alinear las incrustaciones del lenguaje con las características de región basadas en máscaras. Además, el modelo recopila pares de máscaras de píxel y textos cortos de conjuntos de datos de nivel de parte y de objeto públicamente disponibles, y los convierte en datos de seguimiento de instrucciones para entrenar aún más el modelo.

Etapa 3: Ajuste fino de extremo a extremo

En la tercera y última etapa, el modelo fija los pesos del codificador de visión y ajusta finamente el modelo de lenguaje grande, el extractor de características de región basadas en máscaras y los componentes del proyector de nivel de imagen en su arquitectura. El objetivo principal del entrenamiento en la tercera etapa es ampliar la capacidad del modelo para seguir instrucciones del usuario con precisión y realizar tareas de comprensión de región de píxel de manera eficiente.

Después de implementar las tres etapas de entrenamiento, el marco de Osprey es capaz de comprender escenarios complejos definidos por instrucciones del usuario y basados en regiones de máscara de píxel.

Osprey: Resultados experimentales

Para evaluar su rendimiento, los desarrolladores de Osprey realizan una amplia variedad de experimentos para demostrar las capacidades del modelo en clasificación, reconocimiento de región de píxel y descripciones complejas.

Segmentación de vocabulario abierto

El objetivo principal de la segmentación de vocabulario abierto es generar reconocimiento de región de máscara y su categoría correspondiente de manera explícita. Para lograr la segmentación de vocabulario abierto, Osprey primero utiliza un prompt de texto de entrada, seguido de que el modelo adopta regiones de máscara de verdad de referencia para la interferencia del modelo para evaluar el rendimiento del modelo en tareas de reconocimiento de vocabulario abierto. En base a la respuesta de oración generada por el modelo de lenguaje multimodal grande, Osprey calcula la similitud semántica entre la lista de vocabulario y la salida de cada conjunto de datos. La siguiente figura compara a Osprey con los modelos de lenguaje grande multimodal actuales.

Como se puede observar, el marco de Osprey supera a los métodos existentes por un margen considerable en ambos conjuntos de datos Cityscapes y ADE20K-150. Los resultados indican la capacidad de Osprey para superar a los enfoques existentes y lograr una comprensión y reconocimiento robustos de regiones de objeto de grano fino.

Clasificación de objeto de referencia

En la tarea de clasificación de objeto de referencia, el modelo se requiere para clasificar el objeto dentro de una región específica de una imagen. Para evaluar sus capacidades de clasificación, el marco de Osprey utiliza dos métricas de relevancia semántica, incluyendo la IoU semántica (S-IoU) y la similitud semántica (SS). La IoU semántica representa la superposición de palabras entre las etiquetas de predicción y las etiquetas de verdad de referencia, mientras que la similitud semántica mide la similitud entre las etiquetas de predicción y las etiquetas de verdad de referencia en un espacio semántico. La siguiente imagen demuestra el rendimiento de Osprey en la tarea de clasificación de objeto de referencia en comparación con los modelos que emplean enfoques de nivel de caja y de imagen.

Descripción detallada de región

En la tarea de descripción detallada de región, el modelo evalúa su rendimiento en capacidades de descripción detallada de seguimiento de instrucciones junto con otros enfoques de nivel de región. El modelo selecciona aleatoriamente un prompt de inferencia de entrada de una lista de prompts predefinidos y aprovecha el marco de LLM GPT-4 para medir la calidad de la respuesta generada por el modelo en relación con las regiones de referencia de entrada de manera integral. Utilizando la tubería de generación de instrucciones, el modelo genera preguntas y busca las respuestas de GPT-4, tras lo cual el LLM evalúa la corrección de la semántica y la precisión de la comprensión de referencia. La siguiente tabla demuestra el rendimiento de Osprey en comparación con los modelos actuales en tareas de descripción detallada de región.

Generación de subtítulos a nivel de región

El marco de Osprey también supera a los enfoques actuales en tareas de generación de subtítulos a nivel de región, con los resultados contenidos en la siguiente imagen.

Pensamientos finales

En este artículo, hemos hablado sobre Osprey, un método de entrenamiento de instrucciones de máscara-texto con el objetivo principal de ampliar las capacidades de los Modelos de Lenguaje Grande Multimodales incorporando regiones enmascaradas de grano fino en la instrucción del lenguaje para lograr una comprensión visual-lingüística a nivel de píxel. Para lograr su objetivo, el marco de Osprey cura un conjunto de datos de región-texto basado en máscaras con más de 700 mil muestras e inyecta representaciones a nivel de píxel en los Modelos de Lenguaje Grande para diseñar un modelo de visión-lenguaje. El marco de Osprey apunta a mejorar significativamente las capacidades de los Modelos de Lenguaje Grande Multimodales para la comprensión visual de grano fino, y al implementar un modelo de CLIP basado en CNN y un extractor visual consciente de máscaras, Osprey logra la capacidad de comprender imágenes en regiones a nivel de objeto y de parte.

Un ingeniero por profesión, un escritor por corazón. Kunal es un escritor técnico con un profundo amor y comprensión de la IA y el ML, dedicado a simplificar conceptos complejos en estos campos a través de su documentación atractiva e informativa.