Inteligencia artificial

Ajuste de instrucciones visuales para comprensión a nivel de píxel con Osprey

Published January 25, 2024

Updated April 4, 2026

Kunal Kejriwal

Con el reciente perfeccionamiento de los métodos de ajuste de instrucciones visuales, los Modelos de Lenguaje Grande Multimodales (MLLMs) han demostrado capacidades visuales y lingüísticas generales notables. Estas capacidades los convierten en bloques de construcción clave para asistentes visuales generales modernos. Los modelos recientes, incluidos MiniGPT-4, LLaVA, InstructBLIP y otros, exhiben impresionantes capacidades de razonamiento visual y seguimiento de instrucciones. Aunque la mayoría de ellos dependen de pares de imagen-texto para la alineación visión-lenguaje a nivel de imagen, funcionan bien en este dominio. Sin embargo, su dependencia de la comprensión a nivel de caja y de imagen es la razón principal por la que los MLLMs no logran replicar su rendimiento en tareas de alineación visión-lenguaje a nivel de píxel. Además, la disponibilidad limitada de datos de instrucción basados en máscaras para el entrenamiento plantea desafíos para mejorar aún más los MLLMs.

Osprey es un método de entrenamiento de instrucciones de texto-máscara con el objetivo principal de ampliar los MLLMs. Incorpora regiones enmascaradas de grano fino en las instrucciones lingüísticas para lograr una comprensión visión-lenguaje a nivel de píxel. Para lograr esto, el marco de Osprey cura un conjunto de datos de región-texto basado en máscaras con más de 700 mil muestras. Inyecta representaciones a nivel de píxel en Modelos de Lenguaje Grande (LLMs) para diseñar un modelo de visión-lenguaje. Notablemente, el marco de Osprey adopta un modelo CLIP convolucional como codificador de visión y integra un extractor visual consciente de máscaras en su arquitectura. Esto permite la extracción precisa de características visuales de máscaras de entrada de alta resolución.

En este artículo, discutiremos el marco de Osprey y profundizaremos en su arquitectura. También exploraremos el conjunto de datos de región-texto curado con más de 700 mil muestras y compararemos su rendimiento en varias tareas de comprensión de región. Así que comencemos.

Osprey: Comprensión de píxeles con ajuste de instrucciones visuales

Los Modelos de Lenguaje Grande Multimodales como MiniGPT-4, Otter, Qwen-LV, InstructBLIP y otros son los precursores en el desarrollo de asistentes visuales generales, y son conocidos por sus capacidades multimodales y generativas visuales excepcionales. Sin embargo, los Modelos de Lenguaje Grande Multimodales sufren de un desafío importante, ya que entregan resultados insatisfactorios en tareas de comprensión de imagen de grano fino como la descripción de capturas, la clasificación de regiones y el razonamiento. Una razón importante para el rendimiento subpar en tareas de comprensión de imagen de grano fino es la falta de alineación a nivel de región. Los MLLMs recientes como GPT4RoI, Shikra y otros apuntan a habilitar la comprensión a nivel de región en modelos de visión-lenguaje procesando regiones especificadas por cajas delimitadoras y aprovechando el ajuste de instrucciones visuales con características espaciales a nivel de objeto.

Aunque el enfoque para habilitar la comprensión a nivel de región puede mejorar el rendimiento, emplear cajas delimitadoras esparsas como la región de entrada de referencia directamente puede introducir características de fondo irrelevantes que llevan a una alineación de pares de texto-región inexacta para el ajuste de instrucciones visuales en modelos de lenguaje grande. Durante el proceso de inferencia, la entrada de referencia a nivel de caja puede no ser capaz de detectar y representar el objeto con precisión; esto puede resultar en una desviación semántica, como se demuestra en la siguiente imagen.

En comparación, usar máscaras de grano fino en lugar de cajas delimitadoras gruesas como la región de entrada de referencia puede representar objetos con más precisión. El modelo de Segment Anything (SAM) recientemente desarrollado, que se entrena con miles de millones de máscaras de alta calidad, demuestra una calidad de segmentación notable en objetos de disparo cero y admite el uso de puntos o cajas delimitadoras simples como prompts. Sin embargo, el marco de SAM no puede generar etiquetas semánticas primarias, ni puede proporcionar descripciones de capturas detalladas y atributos. Como resultado, los modelos existentes carecen de información multimodal de grano fino inherente y tienen una comprensión limitada de escenas en el mundo real.

Para abordar los desafíos que enfrentan los MLLMs existentes, Osprey, un método de entrenamiento de instrucciones de texto-máscara novel, apunta a ampliar las capacidades de los modelos de lenguaje grande multimodales para la comprensión visual de grano fino a nivel de píxel. El marco de Osprey introduce un extractor visual consciente de máscaras que captura características visuales de máscaras con granularidad variable con precisión. El marco luego entrelaza las características visuales con instrucciones lingüísticas para generar la secuencia de entrada para el modelo de lenguaje grande y aprovecha la arquitectura CLIP convolucional para facilitar el uso de entrada de alta resolución. Debido a su diseño y arquitectura, el marco de Osprey puede lograr una comprensión semántica de grano fino para regiones de objeto y parte, y proporciona atributos de objeto detallados junto con la categoría de objeto principal y descripciones mejoradas de escenas complejas.

Al aprovechar las capacidades del ajuste de instrucciones visuales, el marco de Osprey habilita nuevas capacidades más allá de la comprensión a nivel de imagen y caja de las escenas, ya que el marco de Osprey puede generar semánticas de grano fino utilizando máscaras agnósticas de clase de SAM estándar. Además, Osprey muestra capacidades notables en tareas de clasificación de objeto de referencia, reconocimiento de vocabulario abierto, descripción de región a nivel de región y descripción detallada de región.

Osprey: Metodología y Arquitectura

La siguiente figura muestra la visión general de la arquitectura del marco de Osprey, que consiste en un modelo de lenguaje grande, un extractor visual consciente de máscaras a nivel de píxel y un codificador de visión a nivel de imagen.

Para una imagen dada, el lenguaje de entrada y las regiones de máscaras de referencia, el marco realiza la conversión y la tokenización para generar incrustaciones antes de enviar las secuencias de incrustaciones de lenguaje y las características de máscaras entrelazadas al modelo de lenguaje grande para obtener comprensiones semánticas de grano fino.

Codificador de visión CLIP convolucional

El codificador de visión desplegado en la mayoría de los modelos de lenguaje grande multimodales se ejemplifica mediante un modelo CLIP basado en ViT. Como resultado, el marco adopta una resolución de imagen de 224×224 píxeles o 336 x 336 píxeles. Sin embargo, el uso del modelo CLIP basado en ViT hace que sea difícil para el modelo lograr una comprensión de imagen de grano fino a nivel de píxel, un problema que se amplifica aún más en regiones pequeñas. Además, la sobrecarga computacional asociada con la arquitectura ViT obstaculiza la posibilidad de aumentar la resolución de la imagen de entrada.

Para abordar el desafío, el marco de Osprey implementa un modelo CLIP convolucional como codificador de visión en su arquitectura. Tradicionalmente, los modelos CLIP basados en Redes Neuronales Convolucionales han demostrado capacidades de generalización notables en diferentes resoluciones de entrada en comparación con los modelos CLIP basados en transformadores de visión. La implementación de un modelo CLIP basado en CNN hace espacio para una inferencia rápida y un entrenamiento eficiente sin comprometer el rendimiento del modelo. Además, un modelo CLIP basado en CNN es capaz de generar mapas de características multi-escalas que el marco utiliza directamente para la extracción de características en cada región de objeto posterior.

Extractor visual consciente de máscaras

En contraste con los modelos basados en regiones existentes que utilizan cajas delimitadoras esparsas como la región de entrada de referencia, el marco de Osprey utiliza regiones de máscaras detalladas para implementar representaciones basadas en objetos. El modelo de Osprey emplea un componente de extractor visual consciente de máscaras para capturar características visuales a nivel de píxel dentro de cada región de objeto. El componente de extractor visual consciente de máscaras codifica características visuales a nivel de máscara y, además, recopila la información de posición espacial de cada región.

Para implementar esto, Osprey utiliza primero las características de imagen multi-nivel generadas por el codificador de visión para adoptar la operación de agrupación de máscaras, y para cada característica de nivel único, el marco agrupa todas las características que se encuentran dentro de la región de la máscara. El modelo codifica las características a través de diferentes capas al pasar cada característica a través de una capa de proyección lineal que genera incrustaciones a nivel de región, y fusiona características multi-nivel al realizar una suma. El modelo utiliza entonces una capa MLP para producir el token de máscara visual. Además, Osprey conserva la geometría espacial del objeto al codificar la relación de posición a nivel de píxel al implementar una máscara binaria para cada región de objeto. Al final, Osprey incluye el token de máscara visual y sus tokens espaciales respectivos para cada incrustación de región de máscara.

Tokenización de LLM

Como se mencionó anteriormente, el modelo extrae las incrustaciones de imagen a nivel de imagen al alimentar la imagen a un codificador de visión pre-entrenado basado en CNN. Para la información textual, el modelo utiliza primero tokenizadores de LLM pre-entrenados para tokenizar secuencias de texto, y luego proyecta estas secuencias de texto tokenizadas en incrustaciones de texto. Para regiones basadas en máscaras, el modelo define un token especial como un marcador de posición y luego lo sustituye con un token espacial junto con un token de máscara. Cuando el modelo se refiere a una región de objeto en la entrada de texto, agrega el marcador de posición después del nombre de la región, lo que permite que las regiones de máscara se mezclen con textos para formar oraciones completas sin espacios de tokenización. Además, aparte de las instrucciones del usuario, el modelo también incluye un prefijo de prompt, un token especial que sirve como marcador de posición, que se reemplaza con las incrustaciones de imagen a nivel de imagen del codificador de visión. Finalmente, el marco entrelaza los tokens visuales a nivel de región y de imagen junto con los tokens de texto y los alimenta al modelo de lenguaje grande para comprender las instrucciones del usuario y la imagen con diferentes regiones en el objeto.

Osprey: Proceso de entrenamiento de tres etapas

El marco de Osprey despliega un proceso de entrenamiento de tres etapas en el que cada una de las fases de entrenamiento está supervisada minimizando una pérdida de predicción de token siguiente.

Etapa 1: Entrenamiento de alineación de imagen-texto

En la primera etapa, el marco de Osprey despliega el codificador de visión CLIP basado en CNN para entrenar las características de imagen a nivel de imagen y el conector de lenguaje para entrenar el modelo para la alineación de características de imagen-texto. En la primera etapa, el marco emplea tres componentes: un modelo de lenguaje grande pre-entrenado, un codificador de visión pre-entrenado y un proyector de imagen a nivel de imagen. El marco también adopta una capa MLP como conector de visión-lenguaje que ayuda a mejorar las capacidades generativas multimodales de Osprey.

Etapa 2: Pre-entrenamiento de alineación de máscara-texto

En la segunda etapa, Osprey carga los pesos entrenados en la primera etapa y emplea su componente de extractor visual consciente de máscaras para capturar características de región a nivel de píxel. En la segunda etapa, el marco solo entrena el extractor visual consciente de máscaras para alinear incrustaciones de lenguaje con características de región basadas en máscaras. Además, el modelo recopila pares de máscaras a nivel de píxel y textos cortos de conjuntos de datos de objeto a nivel de parte y públicamente disponibles, y los convierte en datos de seguimiento de instrucciones para entrenar aún más el modelo.

Etapa 3: Ajuste fino de extremo a extremo

En la tercera y última etapa, el modelo fija los pesos del codificador de visión y ajusta finamente el modelo de lenguaje grande, el extractor de características de región basadas en máscaras y los componentes del proyector de imagen a nivel de imagen en su arquitectura. El objetivo principal del entrenamiento en la tercera etapa es ampliar la capacidad del modelo para seguir instrucciones del usuario con precisión y realizar tareas de comprensión de región a nivel de píxel de manera eficiente.

Después de implementar las tres etapas de entrenamiento, el marco de Osprey es capaz de comprender escenarios complejos definidos por instrucciones del usuario y basados en regiones de máscaras a nivel de píxel.

Osprey: Resultados experimentales

Para evaluar su rendimiento, los desarrolladores de Osprey llevan a cabo una amplia variedad de experimentos para demostrar las capacidades del modelo en clasificación, reconocimiento de región a nivel de píxel y descripciones complejas.

Segmentación de vocabulario abierto

El objetivo principal de la segmentación de vocabulario abierto es generar reconocimiento de región basada en máscara y su categoría respectiva de manera explícita. Para lograr la segmentación de vocabulario abierto, Osprey utiliza primero un prompt de texto de entrada, seguido de lo cual el modelo adopta regiones de máscara de verdad de suelo para la interferencia del modelo para evaluar el rendimiento del modelo en tareas de reconocimiento de vocabulario abierto. En función de la respuesta de oración generada por el modelo de lenguaje grande multimodal, Osprey calcula la similitud semántica entre la lista de vocabulario y la salida de cada conjunto de datos. La siguiente figura compara Osprey con los modelos de lenguaje grande multimodal actuales.

Como se puede observar, el marco de Osprey supera a los métodos existentes por un margen considerable en ambos conjuntos de datos Cityscapes y ADE20K-150. Los resultados indican la capacidad de Osprey para superar los enfoques existentes y lograr una comprensión y reconocimiento robustos de regiones de objeto de grano fino.

Clasificación de objeto de referencia

En la tarea de clasificación de objeto de referencia, el modelo se requiere para clasificar el objeto dentro de una región específica de una imagen. Para evaluar sus capacidades de clasificación, el marco de Osprey utiliza dos métricas de relevancia semántica, incluyendo IoU semántico (S-IoU) y similitud semántica (SS). El IoU semántico representa la superposición de palabras entre las etiquetas de verdad de suelo y las etiquetas de predicción, mientras que la similitud semántica mide la similitud entre las etiquetas de predicción y/o de verdad de suelo en un espacio semántico. La siguiente imagen demuestra el rendimiento de Osprey en la tarea de clasificación de objeto de referencia cuando se compara con modelos que emplean enfoques a nivel de caja y de imagen.

Descripción detallada de región

En la tarea de descripción detallada de región, el modelo evalúa su rendimiento en capacidades de descripción detallada de seguimiento de instrucciones junto con otros enfoques a nivel de región. El modelo selecciona aleatoriamente un prompt de inferencia de entrada de una lista de prompts predefinidos y aprovecha el marco de LLM GPT-4 para medir la calidad de la respuesta generada por el modelo con respecto a las regiones de referencia de manera integral. Utilizando la tubería de generación de instrucciones, el modelo genera preguntas y busca las respuestas de GPT-4, tras lo cual el LLM evalúa la corrección de la semántica y la precisión de la comprensión de referencia. La siguiente tabla demuestra el rendimiento de Osprey contra los modelos actuales en tareas de descripción detallada de región.

Descripción de región a nivel de región

El marco de Osprey también supera a los enfoques actuales en tareas de descripción de región a nivel de región, con los resultados contenidos en la siguiente imagen.

Pensamientos finales

En este artículo, hemos hablado sobre Osprey, un método de entrenamiento de instrucciones de texto-máscara con el objetivo principal de ampliar los MLLMs incorporando regiones enmascaradas de grano fino en instrucciones lingüísticas para lograr una comprensión visión-lenguaje a nivel de píxel. Para lograr su objetivo, el marco de Osprey cura un conjunto de datos de región-texto basado en máscaras con más de 700 mil muestras e inyecta representaciones a nivel de píxel en LLM para diseñar un modelo de visión-lenguaje. El marco de Osprey apunta a mejorar significativamente los MLLMs para la comprensión visual de grano fino, y al implementar un modelo CLIP convolucional y un extractor visual consciente de máscaras, Osprey logra la capacidad de comprender imágenes a nivel de región de objeto y parte.

Related Topics:CLIP vision MLLMs Osprey

Kunal Kejriwal

Un ingeniero por profesión, un escritor por corazón. Kunal es un escritor técnico con un profundo amor y comprensión de la IA y el ML, dedicado a simplificar conceptos complejos en estos campos a través de su documentación atractiva e informativa.

Guía Completa para Principiantes sobre las Herramientas LLM de Hugging Face POSITIVO Puntuación: 1.0 POSITIVO Puntuación: 0.996 [/código] Reconocimiento de entidades con nombre (NER) NER es fundamental para extraer objetos del mundo real denominados “entidades con nombre” del texto. Utilice la pipeline de NER para identificar estas entidades de manera efectiva: [código language=”Python”] ner_tagger = pipeline(“ner”, aggregation_strategy=”simple”) texto = “Elon Musk es el director ejecutivo de SpaceX.” salidas = ner_tagger(texto) print(salidas) [/código] Salida [código language=”Bash”] Elon Musk: PER, SpaceX: ORG [/código] Respuesta a preguntas La respuesta a preguntas implica extraer respuestas precisas a preguntas específicas de un contexto determinado. Inicialice una pipeline de respuesta a preguntas e ingrese su pregunta y contexto para obtener la respuesta deseada: [código language=”Python”] lector = pipeline(“question-answering”) texto = “Hugging Face es una empresa que crea herramientas para NLP. Está basada en Nueva York y fue fundada en 2016.” pregunta = “¿Dónde se basa Hugging Face?” salidas = lector(question=pregunta, context=texto) print(salidas) [/código] Salida [código language=”Bash”] { ‘score’: 0.998, ‘start’: 51, ‘end’: 60, ‘answer’: ‘Nueva York’} [/código] La función pipeline de Hugging Face ofrece una serie de pipelines preconstruidos para diferentes tareas, además de la clasificación de texto, NER y la respuesta a preguntas. A continuación, se presentan detalles sobre un subconjunto de tareas disponibles: Tabla: Tareas de pipeline de Hugging Face Tarea Descripción Identificador de pipeline Generación de texto Genera texto en función de una promoción dada pipeline(task=”text-generation”) Resumen Resume un texto o documento largo pipeline(task=”summarization”) Clasificación de imágenes Etiqueta una imagen de entrada pipeline(task=”image-classification”) Clasificación de audio Categoriza datos de audio pipeline(task=”audio-classification”) Pregunta y respuesta visual Responde a una pregunta usando una imagen y una pregunta pipeline(task=”vqa”) Para descripciones detalladas y más tareas, consulte la <a href="https://huggingface.co/docs/transformers/main/en/main_classes/pipelines#transformers.pipeline">documentación de pipeline en el sitio web de Hugging Face</a>. Por qué Hugging Face está cambiando su enfoque a Rust <a href="https://www.unite.ai/wp-content/uploads/2023/09/1695100433568220.jpg"></a> Página de GitHub de Hugging face Safetensors y tokenizador El ecosistema de Hugging Face (HF) comenzó a utilizar Rust en sus bibliotecas, como safesensors y tokenizers. Hugging Face también ha lanzado recientemente un nuevo marco de aprendizaje automático llamado <a href="https://github.com/huggingface/candle">Candle</a>. A diferencia de los marcos tradicionales que utilizan Python, Candle está construido con Rust. El objetivo detrás del uso de Rust es mejorar el rendimiento y simplificar la experiencia del usuario, al mismo tiempo que admite operaciones de GPU. El objetivo principal de Candle es facilitar la inferencia sin servidor, lo que hace posible la implementación de binarios ligeros y elimina Python de las cargas de trabajo de producción, que a veces puede ralentizar los procesos debido a sus sobrecargas. Este marco surge como una solución para superar los problemas encontrados con marcos de aprendizaje automático completos como PyTorch, que son grandes y lentos al crear instancias en un clúster. Exploraremos por qué Rust se está convirtiendo en una opción más popular que Python. Velocidad y rendimiento – Rust es conocido por su increíble velocidad, superando a Python, que se utiliza tradicionalmente en marcos de aprendizaje automático. El rendimiento de Python puede verse afectado por su bloqueo del intérprete global (GIL), pero Rust no enfrenta este problema, prometiendo una ejecución más rápida de tareas y, en consecuencia, un mejor rendimiento en proyectos donde se implementa. Seguridad – Rust proporciona garantías de seguridad de memoria sin un recolector de basura, un aspecto que es esencial para garantizar la seguridad de los sistemas concurrentes. Esto juega un papel crucial en áreas como safetensors, donde la seguridad en el manejo de estructuras de datos es una prioridad. Safetensors <a href="https://github.com/huggingface/safetensors">Safetensors</a> se benefician de las características de velocidad y seguridad de Rust. Safetensors implica la manipulación de tensores, una entidad matemática compleja, y tener Rust garantiza que las operaciones no solo sean rápidas, sino también seguras, evitando errores comunes y problemas de seguridad que podrían surgir del mal manejo de la memoria. Tokenizador <a href="https://github.com/huggingface/tokenizers">Tokenizers</a> manejan la división de oraciones o frases en unidades más pequeñas, como palabras o términos. Rust ayuda en este proceso acelerando el tiempo de ejecución, asegurando que el proceso de tokenización no solo sea preciso, sino también rápido, mejorando la eficiencia de las tareas de procesamiento de lenguaje natural. En el núcleo del tokenizador de Hugging Face se encuentra el concepto de tokenización de subpalabras, que logra un equilibrio delicado entre la tokenización a nivel de palabra y a nivel de carácter para optimizar la retención de información y el tamaño del vocabulario. Funciona a través de la creación de subtokens, como “##ing” y “##ed”, que conservan la riqueza semántica al mismo tiempo que evitan un vocabulario inflado. La tokenización de subpalabras implica una fase de entrenamiento para identificar el equilibrio más eficaz entre la tokenización a nivel de carácter y a nivel de palabra. Va más allá de las reglas simples de prefijo y sufijo, requiriendo un análisis exhaustivo de los patrones del lenguaje en corpus de texto extensos para diseñar un tokenizador de subpalabras eficiente. El tokenizador generado es capaz de manejar palabras nuevas dividiéndolas en subpalabras conocidas, manteniendo un alto nivel de comprensión semántica. Componentes de tokenización <a href="https://www.unite.ai/wp-content/uploads/2023/09/Screenshot-2023-09-19-174329.png"></a> <a href="https://huggingface.co/learn/nlp-course/chapter6/4">https://huggingface.co/learn/nlp-course/chapter6/4</a> La biblioteca de tokenizadores divide el proceso de tokenización en varias etapas, cada una abordando un aspecto distinto de la tokenización. Veamos estos componentes: Normalizador: Realiza transformaciones iniciales en la cadena de entrada, aplicando ajustes necesarios como la conversión a minúsculas, normalización de Unicode y eliminación. Pre-tokenizador: Se encarga de fragmentar la cadena de entrada en pre-segmentos, determinando las divisiones en función de reglas predefinidas, como delimitaciones de espacio. Modelo: Supervisa el descubrimiento y la creación de subtokens, adaptándose a las particularidades de sus datos de entrada y ofreciendo capacidades de entrenamiento. Post-procesador: Mejora las características de construcción para facilitar la compatibilidad con muchos modelos basados en transformadores, como BERT, agregando tokens como [CLS] y [SEP]. Para empezar a trabajar con los tokenizadores de Hugging Face, instale la biblioteca usando el comando <code>pip install tokenizers</code> e impórtela en su entorno de Python. La biblioteca puede tokenizar grandes cantidades de texto en muy poco tiempo, ahorrando así recursos computacionales valiosos para tareas más intensivas como el entrenamiento de modelos. La biblioteca de tokenizadores utiliza <a href="https://www.rust-lang.org/">Rust</a>, que hereda la similitud sintáctica de C++ mientras introduce conceptos nuevos en el diseño de lenguajes de programación. Combinado con enlaces de Python, garantiza que disfrute del rendimiento de un lenguaje de nivel inferior mientras trabaja en un entorno de Python. Conjuntos de datos <a href="https://www.unite.ai/wp-content/uploads/2023/09/1212.png"></a> <a href="https://huggingface.co/datasets">Conjuntos de datos de Hugging Face</a> Los conjuntos de datos son la base de los proyectos de IA. Hugging Face ofrece una amplia variedad de conjuntos de datos, adecuados para una serie de tareas de NLP y más. Para utilizarlos de manera eficiente, es esencial comprender el proceso de carga y análisis de los mismos. A continuación, se muestra un script de Python comentado que demuestra cómo explorar conjuntos de datos disponibles en Hugging Face: [código language=”Python”] from datasets import load_dataset # Carga un conjunto de datos dataset = load_dataset(‘squad’) # Muestra la primera entrada print(dataset[0]) [/código] Este script utiliza la función load_dataset para cargar el conjunto de datos SQuAD, que es una opción popular para tareas de respuesta a preguntas. Utilizando modelos preentrenados y combinando todo <a href="https://www.unite.ai/wp-content/uploads/2023/09/111.png"></a> <a href="https://huggingface.co/models">Modelos de Hugging Face</a></caption] Los modelos preentrenados forman la columna vertebral de muchos proyectos de aprendizaje profundo, permitiendo a investigadores y desarrolladores iniciar sus proyectos sin empezar desde cero. Hugging Face facilita la exploración de una amplia gama de modelos preentrenados, como se muestra en el código a continuación: [código language="Python"] from transformers import AutoModelForQuestionAnswering, AutoTokenizer # Carga el modelo y tokenizador preentrenados modelo = AutoModelForQuestionAnswering.from_pretrained('bert-large-uncased-whole-word-masking-finetuned-squad') tokenizador = AutoTokenizer.from_pretrained('bert-large-uncased-whole-word-masking-finetuned-squad') # Muestra la arquitectura del modelo print(modelo) [/código] Con el modelo y el tokenizador cargados, ahora podemos proceder a crear una función que tome un texto y una pregunta como entradas y devuelva la respuesta extraída del texto. Utilizaremos el tokenizador para procesar el texto y la pregunta de entrada en un formato compatible con el modelo, y luego alimentaremos esta entrada procesada al modelo para obtener la respuesta: [código language="Python"] def obtener_respuesta(texto, pregunta): # Tokeniza el texto y la pregunta de entrada entradas = tokenizador(pregunta, texto, return_tensors='pt', max_length=512, truncation=True) salidas = modelo(**entradas) # Obtiene las puntuaciones de inicio y fin para la respuesta inicio_respuesta = torch.argmax(salidas.start_logits) fin_respuesta = torch.argmax(salidas.end_logits) + 1 respuesta = tokenizador.convert_tokens_to_string(tokenizador.convert_ids_to_tokens(entradas['input_ids'][0][inicio_respuesta:fin_respuesta])) return respuesta [/código] En el fragmento de código, importamos módulos necesarios del paquete de transformadores, luego cargamos un modelo y tokenizador preentrenados usando el método from_pretrained. Elegimos un modelo BERT ajustado en el conjunto de datos SQuAD. Veamos un ejemplo de uso de esta función donde tenemos un párrafo de texto y queremos extraer una respuesta específica a una pregunta de él: [código language="Python"] texto = """ La Torre Eiffel, ubicada en París, Francia, es uno de los monumentos más icónicos del mundo. Fue diseñada por Gustave Eiffel y completada en 1889. La torre tiene una altura de 324 metros y fue la estructura hecha por el hombre más alta del mundo en el momento de su finalización. """ pregunta = "¿Quién diseñó la Torre Eiffel?" # Obtiene la respuesta a la pregunta respuesta = obtener_respuesta(texto, pregunta) print(f"La respuesta a la pregunta es: {respuesta}") # Salida: La respuesta a la pregunta es: Gustave Eiffel [/código] En este script, construimos una función obtener_respuesta que toma un texto y una pregunta, tokeniza adecuadamente el texto y la pregunta, y utiliza el modelo preentrenado de BERT para extraer la respuesta del texto. Demuestra una aplicación práctica de la biblioteca de transformadores de Hugging Face para construir un sistema de respuesta a preguntas simple pero poderoso. Para comprender bien los conceptos, se recomienda experimentar de manera práctica utilizando una <a href="https://colab.google/">libreta de Google Colab</a>. Conclusión A través de su amplia gama de herramientas de código abierto, modelos preentrenados y pipelines de usuario amigables, Hugging Face permite que tanto profesionales experimentados como nuevos en el campo puedan adentrarse en el vasto mundo de la inteligencia artificial con una sensación de facilidad y comprensión. Además, la iniciativa de integrar Rust, debido a sus características de velocidad y seguridad, subraya el compromiso de Hugging Face con el fomento de la innovación mientras se garantiza la eficiencia y la seguridad en las aplicaciones de inteligencia artificial. El trabajo transformador de Hugging Face no solo democratiza el acceso a herramientas de inteligencia artificial de alto nivel, sino que también fomenta un entorno colaborativo para el aprendizaje y el desarrollo en el espacio de la inteligencia artificial, facilitando un futuro donde la inteligencia artificial sea accesible a todos.

Unite.AI

Ajuste de instrucciones visuales para comprensión a nivel de píxel con Osprey

Osprey: Comprensión de píxeles con ajuste de instrucciones visuales

Osprey: Metodología y Arquitectura

Codificador de visión CLIP convolucional

Extractor visual consciente de máscaras

Tokenización de LLM

Osprey: Proceso de entrenamiento de tres etapas

Etapa 1: Entrenamiento de alineación de imagen-texto

Etapa 2: Pre-entrenamiento de alineación de máscara-texto

Etapa 3: Ajuste fino de extremo a extremo

Osprey: Resultados experimentales

Segmentación de vocabulario abierto

Clasificación de objeto de referencia

Descripción detallada de región

Descripción de región a nivel de región

Pensamientos finales

You may like