Modelos y plataformas de IA

Presentación de los Grandes Modelos Multimodales: Configurando el Paisaje de los Modelos de Lenguaje en 2024

Publicado el 8 de enero de 2024

Actualizado el 22 de mayo de 2026

Por

Dr. Tehseen Zia

A medida que experimentamos el mundo, nuestros sentidos (visión, sonidos, olores) proporcionan una diversa variedad de información, y nos expresamos utilizando diferentes métodos de comunicación, como expresiones faciales y gestos. Estos sentidos y métodos de comunicación se llaman colectivamente modalidades, que representan las diferentes formas en que percibimos y nos comunicamos. Inspirados en esta capacidad humana, los grandes modelos multimodales (GMM), una combinación de inteligencia artificial generativa y inteligencia artificial multimodal, están siendo desarrollados para entender y crear contenido utilizando diferentes tipos como texto, imágenes y audio. En este artículo, exploramos este campo emergente, analizando qué son los GMM, cómo se construyen, ejemplos existentes, los desafíos que enfrentan y posibles aplicaciones.

Evolución de la Inteligencia Artificial Generativa en 2024: De los Grandes Modelos de Lenguaje a los Grandes Modelos Multimodales

En su último informe, McKinsey designó 2023 como el año de avance para la inteligencia artificial generativa, lo que llevó a muchos avances en el campo. Hemos presenciado un notable aumento en la prevalencia de grandes modelos de lenguaje (GML) capaces de entender y generar lenguaje similar al humano. Además, los modelos de generación de imágenes han evolucionado significativamente, demostrando su capacidad para crear visuales a partir de instrucciones textuales. Sin embargo, a pesar del progreso significativo en modalidades individuales como texto, imágenes o audio, la inteligencia artificial generativa ha encontrado desafíos para combinar estas modalidades de manera fluida en el proceso de generación. Como el mundo es inherentemente multimodal, es crucial que la inteligencia artificial lidere con la información multimodal. Esto es esencial para una interacción significativa con los humanos y un funcionamiento exitoso en escenarios del mundo real.

En consecuencia, muchos investigadores de inteligencia artificial anticipan el surgimiento de los GMM como la próxima frontera en la investigación y desarrollo de la inteligencia artificial en 2024. Esta frontera en evolución se centra en mejorar la capacidad de la inteligencia artificial generativa para procesar y producir diversas salidas, abarcando texto, imágenes, audio, video y otras modalidades. Es esencial enfatizar que no todos los sistemas multimodales califican como GMM. Modelos como Midjourney y Stable Diffusion, a pesar de ser multimodales, no encajan en la categoría de GMM principalmente porque carecen de la presencia de GML, que es un componente fundamental de los GMM. En otras palabras, podemos describir los GMM como una extensión de los GML, proporcionándoles la capacidad de manejar diversas modalidades de manera eficiente.

¿Cómo funcionan los GMM?

Aunque los investigadores han explorado varios enfoques para construir GMM, generalmente involucran tres componentes y operaciones esenciales. Primero, se utilizan codificadores para cada modalidad de datos para generar representaciones de datos (llamadas incrustaciones) específicas de esa modalidad. Segundo, se utilizan diferentes mecanismos para alinear las incrustaciones de diferentes modalidades en un espacio de incrustación multimodal unificado. Tercero, para los modelos generativos, se emplea un GML para generar respuestas de texto. Como las entradas pueden consistir en texto, imágenes, videos y audio, los investigadores están trabajando en nuevas formas de hacer que los modelos de lenguaje consideren diferentes modalidades al dar respuestas.

Desarrollo de los GMM en 2023

A continuación, he esbozado brevemente algunos de los GMM notables desarrollados en 2023.

LLaVA es un GMM de código abierto, desarrollado conjuntamente por la Universidad de Wisconsin-Madison, Microsoft Research y la Universidad de Columbia. El modelo tiene como objetivo ofrecer una versión de código abierto de la inteligencia artificial multimodal GPT4. Utilizando el modelo de lenguaje Llama de Meta, incorpora el codificador visual CLIP para una comprensión visual robusta. La variante de LLaVA enfocada en la salud, denominada LLaVA-Med, puede responder a preguntas relacionadas con imágenes biomédicas.
ImageBind es un modelo de código abierto creado por Meta, que emula la capacidad de la percepción humana para relacionar datos multimodales. El modelo integra seis modalidades — texto, imágenes/vídeos, audio, medidas 3D, datos de temperatura y datos de movimiento — aprendiendo una representación unificada a través de estos diferentes tipos de datos. ImageBind puede conectar objetos en fotos con atributos como sonido, formas 3D, temperatura y movimiento. El modelo se puede utilizar, por ejemplo, para generar una escena a partir de texto o sonidos.
SeamlessM4T es un modelo multimodal diseñado por Meta para fomentar la comunicación entre comunidades multilingües. SeamlessM4T sobresale en tareas de traducción y transcripción, soportando traducciones de habla a habla, habla a texto, texto a habla y texto a texto. El modelo emplea un decodificador de texto a unidad no autoregresivo para realizar estas traducciones. La versión mejorada, SeamlessM4T v2, forma la base para modelos como SeamlessExpressive y SeamlessStreaming, enfatizando la preservación de la expresión a través de los idiomas y entregando traducciones con una latencia mínima.
GPT4, lanzado por OpenAI, es una mejora de su predecesor, GPT3.5. Aunque los detalles arquitectónicos específicos no se han divulgado completamente, GPT4 es bien considerado por su integración fluida de modelos de solo texto, visión y audio. El modelo puede generar texto a partir de entradas tanto escritas como gráficas. Sobresale en varias tareas, incluyendo la descripción de humor en imágenes, la resumen de texto a partir de capturas de pantalla y responder adecuadamente a preguntas de exámenes que presentan diagramas. GPT4 también es reconocido por su adaptabilidad para procesar eficazmente una amplia gama de formatos de datos de entrada.
Gemini, creado por Google DeepMind, se distingue por ser inherentemente multimodal, permitiendo una interacción fluida a través de diversas tareas sin depender de la unión de componentes de una sola modalidad. Este modelo maneja con facilidad tanto texto como diversas entradas audiovisuales, demostrando su capacidad para generar salidas en formato de texto y de imagen.

Desafíos de los Grandes Modelos Multimodales

Incorporar más modalidades de datos: La mayoría de los GMM existentes operan con texto e imágenes. Sin embargo, los GMM necesitan evolucionar más allá del texto y las imágenes, incorporando modalidades como videos, música y 3D.
Disponibilidad de conjuntos de datos diversos: Uno de los desafíos clave en el desarrollo y entrenamiento de modelos generativos de inteligencia artificial multimodal es la necesidad de grandes y diversos conjuntos de datos que incluyan múltiples modalidades. Por ejemplo, para entrenar un modelo para generar texto e imágenes juntos, el conjunto de datos necesita incluir tanto entradas de texto como de imagen relacionadas entre sí.
Generar salidas multimodales: Mientras que los GMM pueden manejar entradas multimodales, generar salidas diversas, como combinar texto con gráficos o animaciones, sigue siendo un desafío.
Seguir instrucciones: Los GMM enfrentan el desafío de dominar el diálogo y las tareas de seguimiento de instrucciones, más allá de la simple finalización.
Razonamiento multimodal: Aunque los GMM actuales sobresalen en transformar una modalidad en otra, la integración fluida de datos multimodales para tareas de razonamiento complejas, como resolver problemas escritos basados en instrucciones auditivas, sigue siendo una tarea desafiante.
Comprimir GMM: La naturaleza intensiva en recursos de los GMM plantea un obstáculo significativo, lo que los hace impracticables para dispositivos de borde con recursos computacionales limitados. Comprimir GMM para mejorar la eficiencia y hacerlos adecuados para la implementación en dispositivos con recursos limitados es un área crucial de investigación en curso.

Casos de Uso Potenciales

Educación: Los GMM tienen el potencial de transformar la educación generando materiales de aprendizaje diversos y atractivos que combinan texto, imágenes y audio. Los GMM proporcionan retroalimentación integral sobre tareas, promueven plataformas de aprendizaje colaborativo y mejoran el desarrollo de habilidades a través de simulaciones interactivas y ejemplos del mundo real.
Salud: A diferencia de los sistemas de diagnóstico de inteligencia artificial tradicionales que se centran en una sola modalidad, los GMM mejoran los diagnósticos médicos integrando múltiples modalidades. También apoyan la comunicación a través de barreras lingüísticas entre proveedores de atención médica y pacientes, actuando como un repositorio centralizado para diversas aplicaciones de inteligencia artificial dentro de los hospitales.
Generación de Arte y Música: Los GMM podrían destacarse en la creación de arte y música combinando diferentes modalidades para producir salidas únicas y expresivas. Por ejemplo, un GMM de arte puede fusionar elementos visuales y auditivos, proporcionando una experiencia inmersiva. De manera similar, un GMM de música puede integrar elementos instrumentales y vocales, resultando en composiciones dinámicas y expresivas.
Recomendaciones Personalizadas: Los GMM pueden analizar las preferencias de los usuarios a través de varias modalidades para ofrecer recomendaciones personalizadas para el consumo de contenido, como películas, música, artículos o productos.

Predicción del Clima y Monitoreo Ambiental: Los GMM pueden analizar diversas modalidades de datos, como imágenes satelitales, condiciones atmosféricas y patrones históricos, para mejorar la precisión en la predicción del clima y el monitoreo ambiental.

Conclusión

El panorama de los Grandes Modelos Multimodales (GMM) marca un avance significativo en la inteligencia artificial generativa, prometiendo avances en varios campos. A medida que estos modelos integran de manera fluida diferentes modalidades, como texto, imágenes y audio, su desarrollo abre puertas a aplicaciones transformadoras en la salud, la educación, el arte y las recomendaciones personalizadas. Sin embargo, desafíos como la incorporación de más modalidades de datos y la compresión de modelos intensivos en recursos subrayan los esfuerzos de investigación continuos necesarios para la plena realización del potencial de los GMM.

Dr. Tehseen Zia

El Dr. Tehseen Zia es un profesor asociado titular en la Universidad COMSATS de Islamabad, con un doctorado en Inteligencia Artificial de la Universidad Técnica de Viena, Austria. Especializado en Inteligencia Artificial, Aprendizaje Automático, Ciencia de Datos y Visión por Computadora, ha hecho contribuciones significativas con publicaciones en revistas científicas reputadas. El Dr. Tehseen también ha liderado varios proyectos industriales como investigador principal y ha servido como consultor de Inteligencia Artificial.

Unite.AI

Presentación de los Grandes Modelos Multimodales: Configurando el Paisaje de los Modelos de Lenguaje en 2024

Evolución de la Inteligencia Artificial Generativa en 2024: De los Grandes Modelos de Lenguaje a los Grandes Modelos Multimodales

¿Cómo funcionan los GMM?

Desarrollo de los GMM en 2023

Desafíos de los Grandes Modelos Multimodales

Casos de Uso Potenciales

Conclusión

Descubre más