Suivez nous sur

DĂ©voilement de grands modèles multimodaux : façonner le paysage des modèles linguistiques en 2024

Intelligence Artificielle

DĂ©voilement de grands modèles multimodaux : façonner le paysage des modèles linguistiques en 2024

mm

Lorsque nous expérimentons le monde, nos sens (vision, sons, odeurs) fournissent un large éventail d’informations et nous nous exprimons à l’aide de différentes méthodes de communication, telles que les expressions faciales et les gestes. Ces sens et méthodes de communication sont collectivement appelés modalités, représentant les différentes façons dont nous percevons et communiquons. S'inspirant de cette capacité humaine, grand modèle multimodal (LMM), une combinaison de génératifs et IA multimodale, sont en cours de développement pour comprendre et créer du contenu en utilisant différents types comme le texte, les images et l'audio. Dans cet article, nous approfondissons ce domaine émergent, explorant ce que sont les LMM (grands modèles multimodaux), comment ils sont construits, les exemples existants, les défis auxquels ils sont confrontés et les applications potentielles.

Évolution de l'IA gĂ©nĂ©rative en 2024 : des grands modèles linguistiques aux grands modèles multimodaux

Dans son dernier rapport, McKinsey désigné 2023 comme une année marquante pour IA générative, conduisant à de nombreuses avancées dans le domaine. Nous avons assisté à une augmentation notable de la prévalence de grands modèles de langage (LLM) adepte de la compréhension et de la génération d’un langage de type humain. En outre, modèles de génération d'images ont considérablement évolué, démontrant leur capacité à créer des visuels à partir d’invites textuelles. Cependant, malgré des progrès significatifs dans certaines modalités telles que le texte, les images ou l’audio, l’IA générative a rencontré des difficultés pour combiner de manière transparente ces modalités dans le processus de génération. Le monde étant par nature multimodal, il est crucial pour l’IA de s’attaquer aux informations multimodales. Ceci est essentiel pour un engagement significatif avec les humains et un fonctionnement réussi dans des scénarios du monde réel.

Par conséquent, de nombreux chercheurs en IA anticipent l’essor des LMM comme la prochaine frontière de la recherche et du développement en IA en 2024. Cette frontière en évolution se concentre sur l’amélioration de la capacité de l’IA générative à traiter et à produire divers résultats, couvrant du texte, des images, de l’audio, de la vidéo et d'autres modalités. Il est essentiel de souligner que tous les systèmes multimodaux ne sont pas considérés comme des LMM. Des modèles comme À mi-parcours et d’une Diffusion stable, bien qu'ils soient multimodaux, n'entrent pas dans la catégorie LMM principalement parce qu'il leur manque la présence de LLM, qui sont une composante fondamentale des LMM. En d’autres termes, nous pouvons décrire les LMM comme une extension des LLM, leur offrant la capacité de gérer efficacement diverses modalités.

Comment fonctionnent les LMM ?

Alors que les chercheurs ont exploré diverses approches pour construire des LMM, ils impliquent généralement trois composants et opérations essentiels. Premièrement, des encodeurs sont utilisés pour chaque modalité de données afin de générer des représentations de données (appelées intégrations) spécifiques à cette modalité. Deuxièmement, différents mécanismes sont utilisés pour aligner les intégrations de différentes modalités dans un espace d’intégration multimodal unifié. Troisièmement, pour les modèles génératifs, un LLM est utilisé pour générer des réponses textuelles. Étant donné que les entrées peuvent consister en texte, images, vidéos et audios, les chercheurs travaillent sur de nouvelles façons de faire en sorte que les modèles linguistiques prennent en compte différentes modalités lorsqu'ils donnent des réponses.

Développement des LMM en 2023

Ci-dessous, j'ai brièvement décrit certains des LMM notables développés en 2023.

  • LLaVA est un LMM open source, dĂ©veloppĂ© conjointement par l'UniversitĂ© du Wisconsin-Madison, Microsoft Research et l'UniversitĂ© de Columbia. Le modèle vise Ă  proposer une version open source du multimodal GPT4. Tirer parti LLM Lama de Meta, il intègre le CLIP encodeur visuel pour une comprĂ©hension visuelle robuste. La variante de LLaVa axĂ©e sur les soins de santĂ©, appelĂ©e LLaVA-Med, peut rĂ©pondre aux demandes liĂ©es aux images biomĂ©dicales.
  • lien d'image est un modèle open source conçu par Meta, imitant la capacitĂ© de la perception humaine Ă  relier des donnĂ©es multimodales. Le modèle intègre six modalitĂ©s (texte, images/vidĂ©os, audio, mesures 3D, donnĂ©es de tempĂ©rature et donnĂ©es de mouvement), apprenant une reprĂ©sentation unifiĂ©e Ă  travers ces divers types de donnĂ©es. ImageBind peut connecter des objets dans des photos avec des attributs tels que le son, les formes 3D, la tempĂ©rature et le mouvement. Le modèle peut ĂŞtre utilisĂ©, par exemple, pour gĂ©nĂ©rer une scène Ă  partir de texte ou de sons.
  • Sans coutureM4T est un modèle multimodal conçu par Meta pour favoriser la communication entre les communautĂ©s multilingues. SeamlessM4T excelle dans les tâches de traduction et de transcription, prenant en charge les traductions parole-parole, parole-texte, texte-parole et texte-texte. Le modèle utilise un dĂ©codeur texte-unitĂ© non autorĂ©gressif pour effectuer ces traductions. La version amĂ©liorĂ©e, TransparentM4T v2, constitue la base de modèles comme TransparenteExpressif et d’une Streaming transparent, en mettant l'accent sur la prĂ©servation de l'expression dans toutes les langues et en fournissant des traductions avec une latence minimale.
  • GPT4, lancĂ© par OpenAI, est une avancĂ©e par rapport Ă  son prĂ©dĂ©cesseur, GPT3.5. Bien que les spĂ©cificitĂ©s architecturales dĂ©taillĂ©es ne soient pas entièrement divulguĂ©es, GPT4 est très apprĂ©ciĂ© pour son intĂ©gration fluide de modèles texte uniquement, vision uniquement et audio uniquement. Le modèle peut gĂ©nĂ©rer du texte Ă  partir d'entrĂ©es Ă©crites et graphiques. Il excelle dans diverses tâches, notamment la description humoristique dans les images, le rĂ©sumĂ© du texte Ă  partir de captures d'Ă©cran et la rĂ©ponse habile aux questions d'examen comportant des diagrammes. GPT4 est Ă©galement reconnu pour son adaptabilitĂ© dans le traitement efficace d'un large Ă©ventail de formats de donnĂ©es d'entrĂ©e.
  • GEMINI, créé par Google DeepMind, se distingue par son caractère intrinsèquement multimodal, permettant une interaction transparente entre diverses tâches sans dĂ©pendre de l'assemblage de composants Ă  modalitĂ© unique. Ce modèle gère sans effort Ă  la fois le texte et diverses entrĂ©es audiovisuelles, dĂ©montrant sa capacitĂ© Ă  gĂ©nĂ©rer des sorties aux formats texte et image.

Les défis des grands modèles multimodaux

  • IntĂ©grer davantage de modalitĂ©s de donnĂ©es : La plupart des LMM existants fonctionnent avec du texte et des images. Cependant, les LMM doivent Ă©voluer au-delĂ  du texte et des images, pour s'adapter Ă  des modalitĂ©s telles que les vidĂ©os, la musique et la 3D.
  • DisponibilitĂ© de divers ensembles de donnĂ©es : L’un des principaux dĂ©fis liĂ©s au dĂ©veloppement et Ă  la formation de modèles d’IA gĂ©nĂ©rative multimodaux est la nĂ©cessitĂ© de disposer d’ensembles de donnĂ©es vastes et diversifiĂ©s incluant plusieurs modalitĂ©s. Par exemple, pour entraĂ®ner un modèle Ă  gĂ©nĂ©rer du texte et des images ensemble, l'ensemble de donnĂ©es doit inclure Ă  la fois des entrĂ©es de texte et d'image liĂ©es les unes aux autres.
  • GĂ©nĂ©ration de sorties multimodales : MĂŞme si les LMM peuvent gĂ©rer des entrĂ©es multimodales, gĂ©nĂ©rer des sorties diverses, telles que la combinaison de texte avec des graphiques ou des animations, reste un dĂ©fi.
  • Suivant les instructions: Les LMM sont confrontĂ©s au dĂ©fi de maĂ®triser le dialogue et les tâches de suivi des instructions, au-delĂ  de la simple achèvement.
  • Raisonnement multimodal : Alors que les LMM actuels excellent dans la transformation d’une modalitĂ© en une autre, l’intĂ©gration transparente de donnĂ©es multimodales pour des tâches de raisonnement complexes, comme la rĂ©solution de problèmes Ă©crits basĂ©s sur des instructions auditives, reste une entreprise difficile.
  • Compression des LMM : La nature gourmande en ressources des LMM constitue un obstacle important, les rendant peu pratiques pour les appareils de pointe dotĂ©s de ressources de calcul limitĂ©es. La compression des LMM pour amĂ©liorer leur efficacitĂ© et les rendre adaptĂ©s au dĂ©ploiement sur des appareils aux ressources limitĂ©es est un domaine crucial de recherche en cours.

Cas d'utilisation potentiels

  • L'Education: Les LMM ont le potentiel de transformer l’éducation en gĂ©nĂ©rant du matĂ©riel d’apprentissage diversifiĂ© et attrayant combinant texte, images et audio. Les LMM fournissent des commentaires complets sur les missions, favorisent les plateformes d'apprentissage collaboratif et amĂ©liorent le dĂ©veloppement des compĂ©tences grâce Ă  des simulations interactives et des exemples concrets.
  • SantĂ©: Contrairement aux systèmes de diagnostic d’IA traditionnels qui ciblent une seule modalitĂ©, les LMM amĂ©liorent le diagnostic mĂ©dical en intĂ©grant plusieurs modalitĂ©s. Ils prennent Ă©galement en charge la communication au-delĂ  des barrières linguistiques entre les prestataires de soins de santĂ© et les patients, agissant comme un rĂ©fĂ©rentiel centralisĂ© pour diverses applications d'IA au sein des hĂ´pitaux.
  • GĂ©nĂ©ration artistique et musicale : Les LMM pourraient exceller dans la crĂ©ation artistique et musicale en combinant diffĂ©rentes modalitĂ©s pour des rĂ©sultats uniques et expressifs. Par exemple, un LMM artistique peut mĂ©langer des Ă©lĂ©ments visuels et auditifs, offrant ainsi une expĂ©rience immersive. De mĂŞme, un LMM musical peut intĂ©grer des Ă©lĂ©ments instrumentaux et vocaux, aboutissant Ă  des compositions dynamiques et expressives.
  • Recommandations personnalisĂ©es : Les LMM peuvent analyser les prĂ©fĂ©rences des utilisateurs selon diverses modalitĂ©s pour fournir des recommandations personnalisĂ©es pour la consommation de contenu, comme des films, de la musique, des articles ou des produits.
  • PrĂ©visions mĂ©tĂ©orologiques et surveillance de l'environnement : Les LMM peuvent analyser diverses modalitĂ©s de donnĂ©es, telles que les images satellite, les conditions atmosphĂ©riques et les modèles historiques, pour amĂ©liorer la prĂ©cision des prĂ©visions mĂ©tĂ©orologiques et de la surveillance environnementale.

En résumé

Le paysage des grands modèles multimodaux (LMM) marque une percée significative dans l’IA générative, promettant des progrès dans divers domaines. Comme ces modèles intègrent de manière transparente différentes modalités, telles que le texte, les images et l’audio, leur développement ouvre les portes à des applications transformatrices dans les domaines de la santé, de l’éducation, de l’art et des recommandations personnalisées. Cependant, les défis, notamment l'adaptation à davantage de modalités de données et la compression de modèles gourmands en ressources, soulignent les efforts de recherche en cours nécessaires à la pleine réalisation du potentiel des LMM.

Le Dr Tehseen Zia est professeur agrégé titulaire à l'Université COMSATS d'Islamabad, titulaire d'un doctorat en IA de l'Université de technologie de Vienne, en Autriche. Spécialisé en intelligence artificielle, apprentissage automatique, science des données et vision par ordinateur, il a apporté d'importantes contributions avec des publications dans des revues scientifiques réputées. Le Dr Tehseen a également dirigé divers projets industriels en tant que chercheur principal et a servi à titre de consultant en IA.