Inteligencia artificial

Ajuste de instrucciones visuales para la comprensión a nivel de píxeles con Osprey

Actualizado on Enero 25, 2024

Con la reciente mejora de los métodos de ajuste de la instrucción visual, los modelos multimodales de lenguaje grande (MLLM) han demostrado capacidades notables de visión y lenguaje de propósito general. Estas capacidades los convierten en elementos clave para los asistentes visuales modernos de uso general. Los modelos recientes, incluidos MiniGPT-4, LLaVA, InstructBLIP y otros, exhiben impresionantes capacidades de razonamiento visual y seguimiento de instrucciones. Aunque la mayoría de ellos dependen de pares imagen-texto para la alineación visión-lenguaje a nivel de imagen, funcionan bien en este dominio. Sin embargo, su dependencia de la comprensión a nivel de cuadro y de imagen es la razón principal por la que los MLLM no logran replicar su desempeño en tareas detalladas de alineación visión-lenguaje a nivel de píxel. Además, la disponibilidad limitada de datos de instrucción basados en máscaras para la capacitación plantea desafíos para mejorar aún más los MLLM.

Osprey es un método de entrenamiento de instrucción de texto en máscara cuyo objetivo principal es ampliar los MLLM. Incorpora regiones enmascaradas detalladas en la enseñanza del lenguaje para lograr una comprensión del lenguaje visual a nivel de píxeles. Para lograr esto, el marco Osprey selecciona un conjunto de datos de texto regional basado en máscaras con más de 700 mil muestras. Inyecta representación a nivel de píxeles en modelos de lenguaje grandes (LLM) para diseñar un modelo de visión y lenguaje. En particular, el marco Osprey adopta un modelo CLIP convolucional como codificador de visión e integra un extractor visual con reconocimiento de máscara en su arquitectura. Esto permite la extracción precisa de características de máscara visual a partir de entradas de alta resolución.

En este artículo, analizaremos el marco de Osprey y profundizaremos en su arquitectura. También exploraremos el conjunto de datos de texto de región curado con más de 700 mil muestras y compararemos su desempeño en varias tareas de comprensión de región. Entonces empecemos.

Osprey: comprensión de píxeles con ajuste de instrucciones visuales

Los modelos multimodales de lenguaje grande como MiniGPT-4, Otter, Qwen-LV, InstructBLIP y otros son pioneros en el desarrollo de asistentes visuales de uso general y son reconocidos por sus excepcionales capacidades multimodales y de generación de visión. Sin embargo, los modelos multimodales de lenguaje grande enfrentan un desafío importante, ya que brindan resultados insatisfactorios en tareas de comprensión de imágenes detalladas como subtítulos, clasificación de regiones y razonamiento. Una de las principales razones del rendimiento deficiente en las tareas de comprensión de imágenes detalladas es la falta de alineación a nivel regional. Reciente MLLM Al igual que GPT4RoI, Shikra y otros tienen como objetivo permitir la comprensión a nivel de región en modelos de visión y lenguaje mediante el procesamiento de regiones específicas del cuadro delimitador y aprovechando el ajuste de instrucciones visuales con características espaciales a nivel de objeto.

Aunque el enfoque para permitir la comprensión a nivel de región podría mejorar el rendimiento, el empleo de cuadros delimitadores dispersos como región de entrada de referencia directamente podría introducir características de fondo irrelevantes que conduzcan a una alineación inexacta del par región-texto para el ajuste de instrucciones visuales en modelos de lenguaje grandes. Durante el proceso de inferencia, es posible que la entrada de referencia a nivel de cuadro no pueda detectar ni representar el objeto con precisión; eso podría resultar en una desviación semántica como se demuestra en la siguiente imagen.

En comparación, el uso de máscaras detalladas en lugar de cuadros delimitadores gruesos como entrada de referencia podría representar objetos con mayor precisión. SAM o Segment Anything Model, desarrollado recientemente, se entrena con miles de millones de máscaras de alta calidad, demuestra una calidad de segmentación notable en objetos de disparo cero y admite el uso de puntos o cuadros delimitadores simples como indicaciones. Sin embargo, el marco SAM no puede generar etiquetas semánticas primarias ni puede proporcionar títulos y atributos semánticos detallados. Como resultado, los modelos existentes carecen de información multimodal inherente y tienen una comprensión limitada de las escenas del mundo real.

Para abordar los desafíos que enfrentan los MLLM existentes, Osprey, un novedoso método de entrenamiento de instrucción de texto en máscara, tiene como objetivo ampliar las capacidades de los modelos de lenguaje multimodales de gran tamaño para una comprensión detallada a nivel de píxeles. El marco Osprey presenta un extractor visual con reconocimiento de máscara que captura con precisión las características de la máscara visual con granularidad variable. Luego, el marco entrelaza las características visuales con instrucciones del lenguaje para generar la secuencia de entrada para el modelo de lenguaje grande y aprovecha la arquitectura CLIP convolucional para facilitar el uso de entradas de alta resolución. Debido a su diseño y arquitectura, el marco Osprey es capaz de lograr una comprensión semántica detallada para regiones a nivel de objeto y a nivel de parte, y proporciona atributos de objeto detallados junto con la categoría de objeto principal y descripciones mejoradas de escenas complejas.

Al aprovechar las capacidades de ajuste de instrucciones visuales, el marco Osprey permite nuevas capacidades más allá de la comprensión de las escenas a nivel de imagen y de caja, ya que el marco Osprey puede generar una semántica detallada utilizando máscaras independientes de clase de SAM disponibles en el mercado. Además, Osprey también muestra capacidades notables en tareas de clasificación de objetos de referencia, reconocimiento de vocabulario abierto, subtítulos a nivel regional y descripción detallada de regiones.

Osprey: Metodología y Arquitectura

La siguiente figura muestra la descripción general de la arquitectura del marco Osprey que consta de un modelo de lenguaje grande, un extractor visual con reconocimiento de máscara a nivel de píxeles y un codificador de visión a nivel de imagen.

Para una imagen determinada, el lenguaje de entrada y las regiones de máscara de referencia, el marco realiza conversión y tokenización para generar incrustaciones antes de enviar las secuencias de incrustación del lenguaje y las características de máscara intercaladas al modelo de lenguaje grande para obtener una comprensión semántica detallada.

Codificador convolucional CLIP Vision

El codificador de visión implementado en la mayoría de los multimodales. grandes modelos de lenguaje se ejemplifica utilizando un modelo CLIP basado en ViT. Como resultado, el marco adopta una resolución de imagen de 224×224 píxeles o 336 x 336 píxeles. Sin embargo, el uso del modelo CLIP basado en ViT dificulta que el modelo logre una comprensión de imagen de grano fino de representaciones a nivel de píxeles, un problema que se amplifica aún más en regiones pequeñas. Además, la sobrecarga computacional asociada con la arquitectura ViT dificulta la posibilidad de aumentar la resolución de la imagen de entrada.

Para afrontar el desafío, el marco Osprey implementa un modelo CLIP convolucional como codificador de visión en su arquitectura. Tradicionalmente, los modelos CLIP basados en redes neuronales convolucionales han demostrado notables capacidades de generalización en diferentes resoluciones de entrada cuando se comparan con modelos CLIP basados en transformadores de visión. La implementación de un modelo CLIP basado en CNN deja espacio para una inferencia rápida y un entrenamiento eficiente sin comprometer el rendimiento del modelo. Además, un modelo CLIP basado en CNN es capaz de generar mapas de características de múltiples escalas que el marco luego usa directamente para la extracción de características en cada región de objeto posterior.

Extractor visual compatible con máscaras

A diferencia de los modelos existentes basados en regiones que utilizan cuadros delimitadores dispersos como entrada de referencia, el marco de Osprey utiliza regiones de máscara detalladas para implementar representaciones basadas en objetos. El modelo Osprey emplea un componente extractor visual con reconocimiento de máscara para capturar características a nivel de píxel dentro de cada región del objeto. El componente extractor visual de máscara codifica características visuales a nivel de máscara y, además, recopila la información de posición espacial de cada región.

Para implementar esto, Osprey primero utiliza las características de imagen de múltiples niveles generadas por el codificador de visión para adoptar la operación de agrupación de máscaras, y para cada característica de un solo nivel, el marco agrupa todas las características que se encuentran dentro de la región de la máscara. Luego, el modelo codifica las características en diferentes capas pasando cada característica a través de una capa de proyección lineal que genera incrustaciones a nivel de región y fusiona características de varios niveles mediante la realización de una suma. Luego, el modelo usa una capa MLP para producir el token de máscara visual. Además, Osprey preserva la geometría espacial de la región del objeto codificando la relación de posición a nivel de píxel implementando una máscara binaria para cada región del objeto. Al final, Osprey incluye el token de máscara visual y sus respectivos tokens espaciales para cada región de máscara incrustada.

Tokenización LLM

Como se mencionó anteriormente, el modelo extrae las incrustaciones a nivel de imagen de una imagen introduciéndola en un codificador visual previamente entrenado basado en CNN. Para información textual, el modelo primero utiliza tokenizadores LLM previamente entrenados para tokenizar secuencias de texto y luego proyecta estas secuencias de texto tokenizadas en incrustaciones de texto. Para las regiones basadas en máscaras, el modelo define un token especial como marcador de posición y luego lo sustituye por un token espacial junto con un token de máscara. Cuando el modelo hace referencia a una región de objeto en la entrada de texto, agrega el marcador de posición después del nombre de su región, lo que permite que las regiones de máscara se mezclen bien con los textos, lo que da como resultado oraciones completas sin el espacio de tokenización. Además, además de las instrucciones para el usuario, el modelo también incluye un mensaje de prefijo, un token especial que sirve como marcador de posición, que luego se reemplaza por las incrustaciones a nivel de imagen del codificador de visión. Finalmente, el marco entrelaza los tokens visuales a nivel de región y de imagen junto con tokens de texto y los introduce en el modelo de lenguaje grande para comprender las instrucciones del usuario y la imagen con diferentes regiones del objeto.

Osprey: proceso de entrenamiento en tres etapas

El marco Osprey implementa un proceso de entrenamiento de tres etapas en el que cada una de las fases de entrenamiento se supervisa minimizando la pérdida de predicción del siguiente token.

Etapa 1: Entrenamiento de alineación de imagen y texto

En la primera etapa, el marco Osprey implementa el codificador de visión CLIP basado en CNN para entrenar las características a nivel de imagen y el conector de lenguaje para entrenar el modelo para la alineación de características imagen-texto. En la primera etapa, el marco emplea tres componentes: un modelo de lenguaje grande previamente entrenado, un codificador de visión previamente entrenado y un proyector a nivel de imagen. El marco también adopta una capa MLP para servir como conector visión-lenguaje que ayuda a mejorar las capacidades generativas multimodales de Osprey.

Etapa 2: Entrenamiento previo a la alineación de máscara y texto

En la segunda etapa, Osprey carga el peso entrenado en la primera etapa y emplea su componente Mask-Aware Visual Extractor para capturar características de la región a nivel de píxeles. En la segunda etapa, el marco solo entrena al Extractor visual compatible con máscaras para alinear las incrustaciones de lenguaje con características de región basadas en máscaras. Además, el modelo recopila pares de máscaras a nivel de píxel y textos breves de conjuntos de datos a nivel de pieza y a nivel de objeto disponibles públicamente, y los convierte en datos de seguimiento de instrucciones para entrenar aún más el modelo.

Etapa 3: Ajuste fino de un extremo a otro

En la tercera y última etapa, el modelo fija los pesos del codificador de visión y ajusta el modelo de lenguaje grande, el extractor de características de región basado en máscara y los componentes del proyector a nivel de imagen en su arquitectura. El objetivo principal del entrenamiento en la tercera etapa es ampliar la capacidad del modelo para seguir las instrucciones del usuario con precisión y realizar de manera eficiente tareas de comprensión de regiones a nivel de píxeles.

Después de implementar las tres etapas de capacitación, el marco Osprey es capaz de comprender escenarios complejos definidos por instrucciones del usuario y basados en regiones de máscara a nivel de píxeles.

Águila pescadora: resultados experimentales

Para evaluar su rendimiento, los desarrolladores de Osprey llevan a cabo una amplia gama de experimentos para demostrar las capacidades del modelo en clasificación, reconocimiento basado en regiones a nivel de píxeles y descripciones complejas.

Segmentación de vocabulario abierto

El objetivo principal de la segmentación de vocabulario abierto es generar un reconocimiento de región basado en máscaras y su categoría respectiva de forma explícita. Para lograr la segmentación de vocabulario abierto, Osprey primero utiliza un mensaje de texto de entrada, después de lo cual el modelo adopta regiones de máscara de verdad sobre el terreno para la interferencia del modelo con el fin de evaluar el desempeño del modelo en tareas de reconocimiento de vocabulario abierto. Sobre la base de la respuesta de oración generada por el modelo de lenguaje grande multimodal, Osprey calcula la similitud semántica entre la lista de vocabulario y la salida de cada conjunto de datos. La siguiente figura compara Osprey con modelos de lenguajes grandes multimodales de última generación.

Como se puede observar, el marco Osprey supera a los métodos existentes por un margen considerable tanto en el conjunto de datos Cityscapes como en el ADE20K-150. Los resultados indican la capacidad de Osprey para superar los enfoques existentes y lograr una comprensión y un reconocimiento sólidos en regiones de objetos de grano fino.

Clasificación de objetos de referencia

En la tarea Clasificación de objetos de referencia, se requiere que el modelo clasifique el objeto dentro de una región específica de una imagen. Para evaluar sus capacidades de clasificación, el marco Osprey utiliza dos métricas de relevancia semántica, incluida Semantic IoU o S-IoU y Semantic Similarity o SS. Semantic IoU representa la superposición de palabras entre las etiquetas de verdad fundamental y de predicción, mientras que la similitud semántica mide la similitud predicha y/o las etiquetas de verdad fundamental en un espacio semántico. La siguiente imagen demuestra el desempeño de Osprey en la tarea de Clasificación de objetos de referencia cuando se compara con modelos que emplean enfoques a nivel de caja y a nivel de imagen.

Descripción detallada de la región

En la tarea de descripción detallada de la región, el modelo evalúa su desempeño en las capacidades de descripción detallada que siguen instrucciones junto con otros enfoques a nivel de región. El modelo selecciona aleatoriamente un mensaje de inferencia de entrada de una lista de mensajes predefinidos y aprovecha el marco GPT-4 LLM para medir de manera integral la calidad de la respuesta generada por el modelo en comparación con las regiones de referencia de entrada. Utilizando el proceso de generación de instrucciones, el modelo genera preguntas y busca las respuestas de GPT-4, tras lo cual el LLM evalúa la corrección de la semántica y la precisión de la comprensión de referencias. La siguiente tabla demuestra el rendimiento de Osprey frente a modelos de última generación en tareas de descripción detallada de la región.

Subtítulos a nivel de región

El marco Osprey también supera los enfoques actuales en tareas de subtítulos a nivel regional con los resultados contenidos en la siguiente imagen.

Consideraciones Finales:

En este artículo, hemos hablado de Osprey, un método de entrenamiento de instrucción de texto con máscara cuyo objetivo principal es ampliar los MLLM mediante la incorporación de regiones enmascaradas detalladas en la instrucción de idiomas para lograr una comprensión del lenguaje visual a nivel de píxeles. Para lograr su objetivo, el marco Osprey selecciona un conjunto de datos de texto regional basado en máscaras con más de 700 mil muestras e inyecta representación a nivel de píxeles en LLM para diseñar un modelo de visión y lenguaje. El marco de Osprey tiene como objetivo mejorar significativamente los MLLM para una comprensión visual detallada y, al implementar un modelo CLIP basado en CNN y un extractor visual con reconocimiento de máscara, Osprey logra la capacidad de comprender imágenes tanto a nivel de parte como a nivel de objeto.

Temas relacionados:CLIP visión MLLM Águila pescadora

Hasta la próxima

Desglosando el informe de tendencias tecnológicas de O'Reilly 2024

No Te Lo

AlphaGeometry: la IA de DeepMind domina los problemas de geometría en niveles de Olimpiada

Kunal Kejriwal

"Ingeniero de profesión, escritor de corazón". Kunal es un escritor técnico con un profundo amor y comprensión de AI y ML, dedicado a simplificar conceptos complejos en estos campos a través de su atractiva e informativa documentación.