Inteligencia artificial
Presentación de grandes modelos multimodales: configurando el panorama de los modelos de lenguaje en 2024

A medida que experimentamos el mundo, nuestros sentidos (visión, sonidos, olores) proporcionan una diversa variedad de información, y nos expresamos utilizando diferentes métodos de comunicación, como expresiones faciales y gestos. Estos sentidos y métodos de comunicación se denominan colectivamente modalidades, que representan las diferentes formas en que percibimos y nos comunicamos. Inspirados en esta capacidad humana, los grandes modelos multimodales (LMM), una combinación de inteligencia artificial generativa y multimodal, están siendo desarrollados para comprender y crear contenido utilizando diferentes tipos como texto, imágenes y audio. En este artículo, exploramos este campo emergente, examinando qué son los LMM, cómo se construyen, ejemplos existentes, los desafíos que enfrentan y las posibles aplicaciones.
Evolución de la inteligencia artificial generativa en 2024: de los grandes modelos de lenguaje a los grandes modelos multimodales
En su último informe, McKinsey designó 2023 como el año de avance para la inteligencia artificial generativa, lo que llevó a muchos avances en el campo. Hemos presenciado un notable aumento en la prevalencia de grandes modelos de lenguaje (LLM) capacitados para comprender y generar lenguaje similar al humano. Además, los modelos de generación de imágenes han evolucionado significativamente, demostrando su capacidad para crear visuales a partir de instrucciones textuales. Sin embargo, a pesar del progreso significativo en modalidades individuales como texto, imágenes o audio, la inteligencia artificial generativa ha encontrado desafíos para combinar sin problemas estas modalidades en el proceso de generación. Como el mundo es inherentemente multimodal, es crucial que la inteligencia artificial lidere con la información multimodal. Esto es esencial para una participación significativa con los humanos y un funcionamiento exitoso en escenarios del mundo real.
Por lo tanto, muchos investigadores de inteligencia artificial anticipan el surgimiento de los LMM como la próxima frontera en la investigación y el desarrollo de la inteligencia artificial en 2024. Esta frontera en evolución se centra en mejorar la capacidad de la inteligencia artificial generativa para procesar y producir diversas salidas, abarcando texto, imágenes, audio, video y otras modalidades. Es esencial enfatizar que no todos los sistemas multimodales califican como LMM. Modelos como Midjourney y Stable Diffusion, a pesar de ser multimodales, no encajan en la categoría de LMM principalmente porque carecen de la presencia de LLM, que es un componente fundamental de los LMM. En otras palabras, podemos describir los LMM como una extensión de los LLM, proporcionándoles la capacidad de manejar diversas modalidades de manera competente.
¿Cómo funcionan los LMM?
Aunque los investigadores han explorado varios enfoques para construir LMM, generalmente involucran tres componentes y operaciones esenciales. Primero, se utilizan codificadores para cada modalidad de datos para generar representaciones de datos (denominadas incrustaciones) específicas de esa modalidad. Segundo, se utilizan diferentes mecanismos para alinear las incrustaciones de diferentes modalidades en un espacio de incrustación multimodal unificado. Tercero, para los modelos generativos, se emplea un LLM para generar respuestas de texto. Como las entradas pueden consistir en texto, imágenes, videos y audio, los investigadores están trabajando en nuevas formas de hacer que los modelos de lenguaje consideren diferentes modalidades al dar respuestas.
Desarrollo de LMM en 2023
A continuación, he esbozado brevemente algunos de los LMM notables desarrollados en 2023.
- LLaVA es un LMM de código abierto, desarrollado conjuntamente por la Universidad de Wisconsin-Madison, Microsoft Research y la Universidad de Columbia. El modelo tiene como objetivo ofrecer una versión de código abierto de la asistente multimodal GPT4. Utilizando el LLM Llama de Meta, incorpora el codificador visual CLIP para una comprensión visual robusta. La variante de LLaVA enfocada en la salud, denominada LLaVA-Med, puede responder a preguntas relacionadas con imágenes biomédicas.
- ImageBind es un modelo de código abierto creado por Meta, que emula la capacidad de la percepción humana para relacionar datos multimodales. El modelo integra seis modalidades—texto, imágenes/vídeos, audio, mediciones 3D, datos de temperatura y datos de movimiento—aprendiendo una representación unificada a través de estos diferentes tipos de datos. ImageBind puede conectar objetos en fotos con atributos como sonido, formas 3D, temperatura y movimiento. El modelo se puede utilizar, por ejemplo, para generar escenas a partir de texto o sonidos.
- SeamlessM4T es un modelo multimodal diseñado por Meta para fomentar la comunicación entre comunidades multilingües. SeamlessM4T sobresale en tareas de traducción y transcripción, admitiendo traducciones de habla a habla, habla a texto, texto a habla y texto a texto. El modelo emplea un decodificador de texto a unidad no autoregresivo para realizar estas traducciones. La versión mejorada, SeamlessM4T v2, forma la base para modelos como SeamlessExpressive y SeamlessStreaming, enfatizando la preservación de la expresión a través de los idiomas y entregando traducciones con latencia mínima.
- GPT4, lanzado por OpenAI, es una mejora de su predecesor, GPT3.5. Aunque los detalles arquitectónicos específicos no se han divulgado completamente, GPT4 es bien considerado por su integración fluida de modelos de solo texto, visión y audio. El modelo puede generar texto a partir de entradas escritas y gráficas. Sobresale en diversas tareas, incluyendo la descripción del humor en imágenes, la resumen de texto a partir de capturas de pantalla y responder adecuadamente a preguntas de exámenes con diagramas. GPT4 también es reconocido por su adaptabilidad en procesar efectivamente una amplia gama de formatos de datos de entrada.
- Gemini, creado por Google DeepMind, se distingue por ser inherentemente multimodal, permitiendo una interacción fluida a través de diversas tareas sin depender de la unión de componentes de una sola modalidad. Este modelo maneja con facilidad tanto texto como diversas entradas audiovisuales, demostrando su capacidad para generar salidas en formato de texto y de imagen.
Desafíos de los grandes modelos multimodales
- Incorporar más modalidades de datos: La mayoría de los LMM existentes operan con texto y imágenes. Sin embargo, los LMM necesitan evolucionar más allá del texto y las imágenes, acomodando modalidades como videos, música y 3D.
- Disponibilidad de conjuntos de datos diversos: Uno de los desafíos clave en el desarrollo y entrenamiento de modelos de inteligencia artificial generativa multimodal es la necesidad de grandes y diversos conjuntos de datos que incluyan múltiples modalidades. Por ejemplo, para entrenar un modelo para generar texto e imágenes juntos, el conjunto de datos necesita incluir tanto entradas de texto como de imagen relacionadas entre sí.
- Generar salidas multimodales: Mientras que los LMM pueden manejar entradas multimodales, generar salidas diversas, como combinar texto con gráficos o animaciones, sigue siendo un desafío.
- Seguir instrucciones: Los LMM enfrentan el desafío de dominar diálogos y tareas de seguimiento de instrucciones, más allá de la mera finalización.
- Razonamiento multimodal: Aunque los LMM actuales sobresalen en transformar una modalidad en otra, la integración fluida de datos multimodales para tareas de razonamiento complejas, como resolver problemas escritos basados en instrucciones auditivas, sigue siendo una empresa desafiante.
- Comprimir LMM: La naturaleza intensiva en recursos de los LMM plantea un obstáculo significativo, haciéndolos imprácticos para dispositivos de borde con recursos computacionales limitados. Comprimir los LMM para mejorar la eficiencia y hacerlos adecuados para la implementación en dispositivos con recursos limitados es un área crucial de investigación en curso.
Casos de uso potenciales
- Educación: Los LMM tienen el potencial de transformar la educación generando materiales de aprendizaje diversos y atractivos que combinan texto, imágenes y audio. Los LMM proporcionan retroalimentación integral sobre tareas, promueven plataformas de aprendizaje colaborativo y mejoran el desarrollo de habilidades a través de simulaciones interactivas y ejemplos del mundo real.
- Atención médica: A diferencia de los sistemas de diagnóstico de inteligencia artificial tradicionales que se centran en una sola modalidad, los LMM mejoran los diagnósticos médicos integrando múltiples modalidades. También apoyan la comunicación a través de barreras lingüísticas entre proveedores de atención médica y pacientes, actuando como un repositorio centralizado para diversas aplicaciones de inteligencia artificial dentro de los hospitales.
- Generación de arte y música: Los LMM podrían destacarse en la creación de arte y música combinando diferentes modalidades para producir salidas únicas y expresivas. Por ejemplo, un LMM de arte puede fusionar elementos visuales y auditivos, proporcionando una experiencia inmersiva. De manera similar, un LMM de música puede integrar elementos instrumentales y vocales, resultando en composiciones dinámicas y expresivas.
- Recomendaciones personalizadas: Los LMM pueden analizar las preferencias de los usuarios a través de varias modalidades para proporcionar recomendaciones personalizadas de contenido, como películas, música, artículos o productos.
- Predicción del clima y monitoreo ambiental: Los LMM pueden analizar diversas modalidades de datos, como imágenes de satélite, condiciones atmosféricas y patrones históricos, para mejorar la precisión en la predicción del clima y el monitoreo ambiental.
En resumen
El panorama de los grandes modelos multimodales (LMM) marca un avance significativo en la inteligencia artificial generativa, prometiendo avances en diversos campos. A medida que estos modelos integran sin problemas diferentes modalidades, como texto, imágenes y audio, su desarrollo abre puertas a aplicaciones transformadoras en la atención médica, educación, arte y recomendaciones personalizadas. Sin embargo, desafíos, incluyendo la incorporación de más modalidades de datos y la compresión de modelos intensivos en recursos, subrayan los esfuerzos de investigación en curso necesarios para la plena realización del potencial de los LMM.












