Intelligence Artificielle
Dévoilement de grands modèles multimodaux : façonner le paysage des modèles linguistiques en 2024

Lorsque nous expérimentons le monde, nos sens (vision, sons, odeurs) fournissent un large éventail d’informations et nous nous exprimons à l’aide de différentes méthodes de communication, telles que les expressions faciales et les gestes. Ces sens et méthodes de communication sont collectivement appelés modalités, représentant les différentes façons dont nous percevons et communiquons. S'inspirant de cette capacité humaine, grand modèle multimodal (LMM), une combinaison de génératifs et IA multimodale, sont en cours de développement pour comprendre et créer du contenu en utilisant différents types comme le texte, les images et l'audio. Dans cet article, nous approfondissons ce domaine émergent, explorant ce que sont les LMM (grands modèles multimodaux), comment ils sont construits, les exemples existants, les défis auxquels ils sont confrontés et les applications potentielles.
Évolution de l'IA générative en 2024 : des grands modèles linguistiques aux grands modèles multimodaux
Dans son dernier rapport, McKinsey désigné 2023 comme une année marquante pour IA générative, conduisant à de nombreuses avancées dans le domaine. Nous avons assisté à une augmentation notable de la prévalence de grands modèles de langage (LLM) adepte de la compréhension et de la génération d’un langage de type humain. En outre, modèles de génération d'images ont considérablement évolué, démontrant leur capacité à créer des visuels à partir d’invites textuelles. Cependant, malgré des progrès significatifs dans certaines modalités telles que le texte, les images ou l’audio, l’IA générative a rencontré des difficultés pour combiner de manière transparente ces modalités dans le processus de génération. Le monde étant par nature multimodal, il est crucial pour l’IA de s’attaquer aux informations multimodales. Ceci est essentiel pour un engagement significatif avec les humains et un fonctionnement réussi dans des scénarios du monde réel.
Par conséquent, de nombreux chercheurs en IA anticipent l’essor des LMM comme la prochaine frontière de la recherche et du développement en IA en 2024. Cette frontière en évolution se concentre sur l’amélioration de la capacité de l’IA générative à traiter et à produire divers résultats, couvrant du texte, des images, de l’audio, de la vidéo et d'autres modalités. Il est essentiel de souligner que tous les systèmes multimodaux ne sont pas considérés comme des LMM. Des modèles comme À mi-parcours et d’une Diffusion stable, bien qu'ils soient multimodaux, n'entrent pas dans la catégorie LMM principalement parce qu'il leur manque la présence de LLM, qui sont une composante fondamentale des LMM. En d’autres termes, nous pouvons décrire les LMM comme une extension des LLM, leur offrant la capacité de gérer efficacement diverses modalités.
Comment fonctionnent les LMM ?
Alors que les chercheurs ont exploré diverses approches pour construire des LMM, ils impliquent généralement trois composants et opérations essentiels. Premièrement, des encodeurs sont utilisés pour chaque modalité de données afin de générer des représentations de données (appelées intégrations) spécifiques à cette modalité. Deuxièmement, différents mécanismes sont utilisés pour aligner les intégrations de différentes modalités dans un espace d’intégration multimodal unifié. Troisièmement, pour les modèles génératifs, un LLM est utilisé pour générer des réponses textuelles. Étant donné que les entrées peuvent consister en texte, images, vidéos et audios, les chercheurs travaillent sur de nouvelles façons de faire en sorte que les modèles linguistiques prennent en compte différentes modalités lorsqu'ils donnent des réponses.
Développement des LMM en 2023
Ci-dessous, j'ai brièvement décrit certains des LMM notables développés en 2023.
- LLaVA est un LMM open source, développé conjointement par l'Université du Wisconsin-Madison, Microsoft Research et l'Université de Columbia. Le modèle vise à proposer une version open source du multimodal GPT4. Tirer parti LLM Lama de Meta, il intègre le CLIP encodeur visuel pour une compréhension visuelle robuste. La variante de LLaVa axée sur les soins de santé, appelée LLaVA-Med, peut répondre aux demandes liées aux images biomédicales.
- lien d'image est un modèle open source conçu par Meta, imitant la capacité de la perception humaine à relier des données multimodales. Le modèle intègre six modalités (texte, images/vidéos, audio, mesures 3D, données de température et données de mouvement), apprenant une représentation unifiée à travers ces divers types de données. ImageBind peut connecter des objets dans des photos avec des attributs tels que le son, les formes 3D, la température et le mouvement. Le modèle peut être utilisé, par exemple, pour générer une scène à partir de texte ou de sons.
- Sans coutureM4T est un modèle multimodal conçu par Meta pour favoriser la communication entre les communautés multilingues. SeamlessM4T excelle dans les tâches de traduction et de transcription, prenant en charge les traductions parole-parole, parole-texte, texte-parole et texte-texte. Le modèle utilise un décodeur texte-unité non autorégressif pour effectuer ces traductions. La version améliorée, TransparentM4T v2, constitue la base de modèles comme TransparenteExpressif et d’une Streaming transparent, en mettant l'accent sur la préservation de l'expression dans toutes les langues et en fournissant des traductions avec une latence minimale.
- GPT4, lancé par OpenAI, est une avancée par rapport à son prédécesseur, GPT3.5. Bien que les spécificités architecturales détaillées ne soient pas entièrement divulguées, GPT4 est très apprécié pour son intégration fluide de modèles texte uniquement, vision uniquement et audio uniquement. Le modèle peut générer du texte à partir d'entrées écrites et graphiques. Il excelle dans diverses tâches, notamment la description humoristique dans les images, le résumé du texte à partir de captures d'écran et la réponse habile aux questions d'examen comportant des diagrammes. GPT4 est également reconnu pour son adaptabilité dans le traitement efficace d'un large éventail de formats de données d'entrée.
- GEMINI, créé par Google DeepMind, se distingue par son caractère intrinsèquement multimodal, permettant une interaction transparente entre diverses tâches sans dépendre de l'assemblage de composants à modalité unique. Ce modèle gère sans effort à la fois le texte et diverses entrées audiovisuelles, démontrant sa capacité à générer des sorties aux formats texte et image.
Les défis des grands modèles multimodaux
- Intégrer davantage de modalités de données : La plupart des LMM existants fonctionnent avec du texte et des images. Cependant, les LMM doivent évoluer au-delà du texte et des images, pour s'adapter à des modalités telles que les vidéos, la musique et la 3D.
- Disponibilité de divers ensembles de données : L’un des principaux défis liés au développement et à la formation de modèles d’IA générative multimodaux est la nécessité de disposer d’ensembles de données vastes et diversifiés incluant plusieurs modalités. Par exemple, pour entraîner un modèle à générer du texte et des images ensemble, l'ensemble de données doit inclure à la fois des entrées de texte et d'image liées les unes aux autres.
- Génération de sorties multimodales : Même si les LMM peuvent gérer des entrées multimodales, générer des sorties diverses, telles que la combinaison de texte avec des graphiques ou des animations, reste un défi.
- Suivant les instructions: Les LMM sont confrontés au défi de maîtriser le dialogue et les tâches de suivi des instructions, au-delà de la simple achèvement.
- Raisonnement multimodal : Alors que les LMM actuels excellent dans la transformation d’une modalité en une autre, l’intégration transparente de données multimodales pour des tâches de raisonnement complexes, comme la résolution de problèmes écrits basés sur des instructions auditives, reste une entreprise difficile.
- Compression des LMM : La nature gourmande en ressources des LMM constitue un obstacle important, les rendant peu pratiques pour les appareils de pointe dotés de ressources de calcul limitées. La compression des LMM pour améliorer leur efficacité et les rendre adaptés au déploiement sur des appareils aux ressources limitées est un domaine crucial de recherche en cours.
Cas d'utilisation potentiels
- L'Education: Les LMM ont le potentiel de transformer l’éducation en générant du matériel d’apprentissage diversifié et attrayant combinant texte, images et audio. Les LMM fournissent des commentaires complets sur les missions, favorisent les plateformes d'apprentissage collaboratif et améliorent le développement des compétences grâce à des simulations interactives et des exemples concrets.
- Santé: Contrairement aux systèmes de diagnostic d’IA traditionnels qui ciblent une seule modalité, les LMM améliorent le diagnostic médical en intégrant plusieurs modalités. Ils prennent également en charge la communication au-delà des barrières linguistiques entre les prestataires de soins de santé et les patients, agissant comme un référentiel centralisé pour diverses applications d'IA au sein des hôpitaux.
- Génération artistique et musicale : Les LMM pourraient exceller dans la création artistique et musicale en combinant différentes modalités pour des résultats uniques et expressifs. Par exemple, un LMM artistique peut mélanger des éléments visuels et auditifs, offrant ainsi une expérience immersive. De même, un LMM musical peut intégrer des éléments instrumentaux et vocaux, aboutissant à des compositions dynamiques et expressives.
- Recommandations personnalisées : Les LMM peuvent analyser les préférences des utilisateurs selon diverses modalités pour fournir des recommandations personnalisées pour la consommation de contenu, comme des films, de la musique, des articles ou des produits.
- Prévisions météorologiques et surveillance de l'environnement : Les LMM peuvent analyser diverses modalités de données, telles que les images satellite, les conditions atmosphériques et les modèles historiques, pour améliorer la précision des prévisions météorologiques et de la surveillance environnementale.
En résumé
Le paysage des grands modèles multimodaux (LMM) marque une percée significative dans l’IA générative, promettant des progrès dans divers domaines. Comme ces modèles intègrent de manière transparente différentes modalités, telles que le texte, les images et l’audio, leur développement ouvre les portes à des applications transformatrices dans les domaines de la santé, de l’éducation, de l’art et des recommandations personnalisées. Cependant, les défis, notamment l'adaptation à davantage de modalités de données et la compression de modèles gourmands en ressources, soulignent les efforts de recherche en cours nécessaires à la pleine réalisation du potentiel des LMM.