Inteligencia Artificial

Presentación de grandes modelos multimodales: dando forma al panorama de los modelos lingüísticos en 2024

Publicado Enero 8, 2024

Dra. Tehseen Zia

A medida que experimentamos el mundo, nuestros sentidos (visión, sonidos, olores) proporcionan una amplia gama de información y nos expresamos utilizando diferentes métodos de comunicación, como expresiones faciales y gestos. Estos sentidos y métodos de comunicación se denominan colectivamente modalidades y representan las diferentes formas en que percibimos y nos comunicamos. Inspirándose en esta capacidad humana, modelo multimodal grande (LMM), una combinación de generativo y IA multimodalSe están desarrollando para comprender y crear contenido utilizando diferentes tipos de contenido, como texto, imágenes y audio. En este artículo, profundizamos en este campo emergente, explorando qué son los LMM (Grandes Modelos Multimodales), cómo se construyen, ejemplos existentes, los desafíos que enfrentan y sus posibles aplicaciones.

Evolución de la IA generativa en 2024: de grandes modelos lingüísticos a grandes modelos multimodales

En su último informe, McKinsey designado 2023 como un año decisivo para IA generativa, lo que ha llevado a muchos avances en el campo. Hemos sido testigos de un aumento notable en la prevalencia de modelos de lenguaje grande (LLM) experto en comprender y generar un lenguaje similar al humano. Además, modelos de generación de imágenes han evolucionado significativamente, lo que demuestra su capacidad para crear imágenes a partir de indicaciones textuales. Sin embargo, a pesar de los avances significativos en modalidades individuales como texto, imágenes o audio, la IA generativa ha encontrado desafíos a la hora de combinar perfectamente estas modalidades en el proceso de generación. Como el mundo es inherentemente multimodal por naturaleza, es crucial que la IA se enfrente a la información multimodal. Esto es esencial para un compromiso significativo con los humanos y una operación exitosa en escenarios del mundo real.

En consecuencia, muchos investigadores de IA anticipan el aumento de los LMM como la próxima frontera en la investigación y el desarrollo de la IA en 2024. Esta frontera en evolución se centra en mejorar la capacidad de la IA generativa para procesar y producir diversos resultados, que abarcan texto, imágenes, audio, vídeo y otras modalidades. Es esencial enfatizar que no todos los sistemas multimodales califican como LMM. Modelos como Midjourney y Difusión estable, a pesar de ser multimodales, no encajan en la categoría LMM principalmente porque carecen de la presencia de LLM, que son un componente fundamental de los LMM. En otras palabras, podemos describir los LMM como una extensión de los LLM, proporcionándoles la capacidad de manejar con soltura diversas modalidades.

¿Cómo funcionan los LMM?

Si bien los investigadores han explorado varios enfoques Para construir LMM, normalmente implican tres componentes y operaciones esenciales. En primer lugar, se emplean codificadores para cada modalidad de datos para generar representaciones de datos (denominadas incrustaciones) específicas de esa modalidad. En segundo lugar, se utilizan diferentes mecanismos para alinear incrustaciones de diferentes modalidades en un espacio de incrustación multimodal unificado. En tercer lugar, para los modelos generativos, se emplea un LLM para generar respuestas de texto. Como las entradas pueden consistir en texto, imágenes, vídeos y audios, los investigadores están trabajando en nuevas formas de hacer que los modelos lingüísticos consideren diferentes modalidades a la hora de dar respuestas.

Desarrollo de LMM en 2023

A continuación, describo brevemente algunos de los LMM notables desarrollados en 2023.

LLaVA es un LMM de código abierto, desarrollado conjuntamente por la Universidad de Wisconsin-Madison, Microsoft Research y la Universidad de Columbia. El modelo tiene como objetivo ofrecer una versión de código abierto de multimodal. GPT4. apalancamiento LLM de Llama de Meta, incorpora el CLIP Codificador visual para una comprensión visual sólida. La variante de LLaVa centrada en la atención sanitaria, denominada LLaVA-Med, puede atender consultas relacionadas con imágenes biomédicas.
enlace de imagen es un modelo de código abierto elaborado por Meta, que emula la capacidad de la percepción humana para relacionar datos multimodales. El modelo integra seis modalidades (texto, imágenes/vídeos, audio, mediciones 3D, datos de temperatura y datos de movimiento) y aprende una representación unificada de estos diversos tipos de datos. ImageBind puede conectar objetos en fotografías con atributos como sonido, formas 3D, temperatura y movimiento. El modelo se puede utilizar, por ejemplo, para generar escenas a partir de texto o sonidos.
Sin costuraM4T es un modelo multimodal diseñado por Meta para fomentar la comunicación entre comunidades multilingües. SeamlessM4T se destaca en tareas de traducción y transcripción, ya que admite traducciones de voz a voz, de voz a texto, de texto a voz y de texto a texto. El modelo emplea un decodificador de texto a unidad no autorregresivo para realizar estas traducciones. La versión mejorada, Sin costuraM4T v2, forma la base para modelos como Sin costurasExpresivo y Transmisión sin interrupciones, enfatizando la preservación de la expresión en todos los idiomas y entregando traducciones con latencia mínima.
GPT4, lanzado por OpenAI, es un avance de su predecesor, GPT3.5. Aunque los detalles arquitectónicos detallados no se revelan en su totalidad, GPT4 goza de buena reputación por su integración fluida de modelos de solo texto, solo visión y solo audio. El modelo puede generar texto a partir de entradas tanto escritas como gráficas. Destaca en diversas tareas, incluida la descripción humorística en imágenes, el resumen de texto a partir de capturas de pantalla y la respuesta hábil a preguntas de exámenes con diagramas. GPT4 también es reconocido por su adaptabilidad para procesar eficazmente una amplia gama de formatos de datos de entrada.
Gemini, creado por Google DeepMind, se distingue por ser inherentemente multimodal, lo que permite una interacción perfecta entre diversas tareas sin depender de unir componentes de una sola modalidad. Este modelo gestiona sin esfuerzo tanto texto como diversas entradas audiovisuales, mostrando su capacidad para generar resultados tanto en formato de texto como de imagen.

Desafíos de los grandes modelos multimodales

Incorporando más modalidades de datos: La mayoría de los LMM existentes funcionan con texto e imágenes. Sin embargo, los LMM deben evolucionar más allá del texto y las imágenes, dando cabida a modalidades como vídeos, música y 3D.
Disponibilidad de diversos conjuntos de datos: Uno de los desafíos clave en el desarrollo y entrenamiento de modelos de IA generativa multimodal es la necesidad de conjuntos de datos grandes y diversos que incluyan múltiples modalidades. Por ejemplo, para entrenar un modelo para generar texto e imágenes juntos, el conjunto de datos debe incluir entradas de texto e imágenes que estén relacionadas entre sí.
Generación de salidas multimodales: Si bien los LMM pueden manejar entradas multimodales, generar diversas salidas, como combinar texto con gráficos o animaciones, sigue siendo un desafío.
Siguiendo instrucciones: Los LMM enfrentan el desafío de dominar el diálogo y las tareas de seguimiento de instrucciones, yendo más allá de la mera finalización.
Razonamiento multimodal: Si bien los LMM actuales destacan por transformar una modalidad en otra, la perfecta integración de datos multimodales para tareas de razonamiento complejas, como la resolución de problemas escritos basados en instrucciones auditivas, sigue siendo una tarea desafiante.
Compresión de LMM: La naturaleza intensiva en recursos de los LMM plantea un obstáculo importante, lo que los hace poco prácticos para dispositivos de borde con recursos computacionales limitados. Comprimir los LMM para mejorar la eficiencia y hacerlos adecuados para su implementación en dispositivos con recursos limitados es un área crucial de investigación en curso.

Posibles casos de uso

Educacion Los LMM tienen el potencial de transformar la educación al generar materiales de aprendizaje diversos y atractivos que combinan texto, imágenes y audio. Los LMM brindan retroalimentación integral sobre las tareas, promueven plataformas de aprendizaje colaborativo y mejoran el desarrollo de habilidades a través de simulaciones interactivas y ejemplos del mundo real.
Sector Sanitario: A diferencia de los sistemas de diagnóstico de IA tradicionales que se centran en una única modalidad, los LMM mejoran el diagnóstico médico al integrar múltiples modalidades. También apoyan la comunicación a través de las barreras lingüísticas entre los proveedores de atención médica y los pacientes, actuando como un depósito centralizado para diversas aplicaciones de IA dentro de los hospitales.
Generación de Arte y Música: Los LMM podrían sobresalir en la creación de arte y música combinando diferentes modalidades para obtener resultados únicos y expresivos. Por ejemplo, un LMM artístico puede combinar elementos visuales y auditivos, proporcionando una experiencia inmersiva. Asimismo, un LMM musical puede integrar elementos instrumentales y vocales, dando como resultado composiciones dinámicas y expresivas.
Recomendaciones personalizadas: Los LMM pueden analizar las preferencias del usuario en varias modalidades para brindar recomendaciones personalizadas para el consumo de contenido, como películas, música, artículos o productos.

Predicción meteorológica y seguimiento ambiental: Los LMM pueden analizar diversas modalidades de datos, como imágenes de satélite, condiciones atmosféricas y patrones históricos, para mejorar la precisión en la predicción del tiempo y el monitoreo ambiental.