Suivez nous sur

Voir, penser, expliquer : l'essor des modèles de langage visuel en IA

Intelligence Artificielle

Voir, penser, expliquer : l'essor des modèles de langage visuel en IA

mm

Il y a une dizaine d'années, l'intelligence artificielle était divisée entre reconnaissance d'images et compréhension du langage. Les modèles de vision pouvaient repérer les objets, mais ne pouvaient pas les décrire, et les modèles de langage généraient du texte, mais ne pouvaient pas « voir ». Aujourd'hui, cette distinction s'estompe rapidement. Modèles de langage visuel (MLV) Ils combinent désormais compétences visuelles et linguistiques, ce qui leur permet d'interpréter des images et de les expliquer de manière presque humaine. Ce qui les rend vraiment remarquables, c'est leur processus de raisonnement étape par étape, appelé Chaîne de pensée, qui permet de transformer ces modèles en outils puissants et pratiques dans des secteurs comme la santé et l'éducation. Dans cet article, nous explorerons le fonctionnement des VLM, l'importance de leur raisonnement et la manière dont ils transforment des domaines allant de la médecine aux voitures autonomes.

Comprendre les modèles de langage visuel

Les modèles de langage visuel (MLV) sont un type d'intelligence artificielle capable de comprendre simultanément des images et du texte. Contrairement aux anciens systèmes d'IA qui ne pouvaient traiter que du texte ou des images, les MLL combinent ces deux compétences. Cela les rend incroyablement polyvalents. Ils peuvent observer une image et décrire ce qui se passe, répondre à des questions sur une vidéo, ou même créer des images à partir d'une description écrite.

Par exemple, si vous demandez Ă  un VLM de dĂ©crire la photo d'un chien courant dans un parc, un VLM ne se contente pas de dire : « Il y a un chien. Â» Il peut vous dire : « Le chien court après une balle près d'un grand chĂŞne. Â» Il voit l'image et la relie Ă  des mots de manière comprĂ©hensible. Cette capacitĂ© Ă  combiner comprĂ©hension visuelle et linguistique ouvre de nombreuses possibilitĂ©s, allant de la recherche de photos en ligne Ă  des tâches plus complexes comme l'imagerie mĂ©dicale.

Fondamentalement, les VLM fonctionnent en combinant deux Ă©lĂ©ments clĂ©s : un système visuel qui analyse les images et un système linguistique qui traite le texte. La partie visuelle capte des dĂ©tails comme les formes et les couleurs, tandis que la partie linguistique les transforme en phrases. Les VLM sont entraĂ®nĂ©s sur des ensembles de donnĂ©es volumineux contenant des milliards de paires image-texte, ce qui leur confère une vaste expĂ©rience pour dĂ©velopper une comprĂ©hension approfondie et une grande prĂ©cision.

Ce que signifie le raisonnement par chaîne de pensée dans les VLM

Le raisonnement par chaîne de pensée (CdP) permet à l'IA de réfléchir étape par étape, un peu comme on aborde un problème en le décomposant. Dans les VLM, cela signifie que l'IA ne se contente pas de fournir une réponse à une question sur une image, mais explique également comment elle y est parvenue, en détaillant chaque étape logique du processus.

Imaginons que vous montriez Ă  un VLM l'image d'un gâteau d'anniversaire avec des bougies et que vous lui demandiez : « Quel âge a la personne ? Â» Sans CoT, il pourrait simplement deviner un nombre. Avec CoT, il rĂ©flĂ©chit : « D'accord, je vois un gâteau avec des bougies. Les bougies indiquent gĂ©nĂ©ralement l'âge d'une personne. Comptons-les, il y en a 10. Donc, la personne a probablement 10 ans. Â» Vous pouvez suivre le raisonnement au fur et Ă  mesure, ce qui rend la rĂ©ponse beaucoup plus fiable.

De mĂŞme, lorsqu'on montre une scène de circulation Ă  VLM et qu'on lui demande : « Est-il sĂ©curitaire de traverser ? Â», VLM pourrait rĂ©pondre : « Le feu piĂ©ton est rouge, vous ne devez donc pas le traverser. Il y a aussi une voiture qui tourne Ă  proximitĂ©, et elle roule, pas Ă  l'arrĂŞt. Cela signifie que ce n'est pas sĂ©curitaire pour le moment. Â» En suivant ces Ă©tapes, l'IA vous montre prĂ©cisĂ©ment ce Ă  quoi elle prĂŞte attention dans l'image et pourquoi elle dĂ©cide de ce qu'elle fait.

Pourquoi la chaîne de pensée est importante dans les VLM

L’intégration du raisonnement CoT dans les VLM apporte plusieurs avantages clés.

Premièrement, cela rend l'IA plus fiable. Lorsqu'elle explique ses Ă©tapes, on comprend clairement comment elle est parvenue Ă  la rĂ©ponse. C'est important dans des domaines comme la santĂ©. Par exemple, lors d'une IRM, un VLM pourrait dire : « Je vois une ombre dans le cĂ´tĂ© gauche du cerveau. Cette zone contrĂ´le la parole, et le patient a des difficultĂ©s Ă  parler, il pourrait donc s'agir d'une tumeur. Â» Un mĂ©decin peut suivre ce raisonnement et se fier aux informations de l'IA.

Deuxièmement, cela aide l'IA à résoudre des problèmes complexes. En décomposant les éléments, elle peut répondre à des questions qui nécessitent plus qu'un simple coup d'œil. Par exemple, compter les bougies est simple, mais déterminer la sécurité dans une rue animée nécessite plusieurs étapes, comme vérifier les feux, repérer les voitures et évaluer la vitesse. CoT permet à l'IA de gérer cette complexité en la divisant en plusieurs étapes.

Enfin, cela rend l'IA plus adaptable. En raisonnant étape par étape, elle peut appliquer ses connaissances à de nouvelles situations. Même si elle n'a jamais vu un type de gâteau spécifique, elle peut tout de même comprendre le lien entre l'âge des bougies et la durée de vie des bougies, car elle y réfléchit en profondeur, et non en se basant uniquement sur des schémas mémorisés.

Comment la chaîne de pensée et les VLM redéfinissent les industries

La combinaison de CoT et de VLM a un impact significatif dans différents domaines :

  • Soins de santĂ© : En mĂ©decine, les VLM comme Med-PaLM 2 de Google Utilisez CoT pour dĂ©composer des questions mĂ©dicales complexes en Ă©tapes diagnostiques plus simples. Par exemple, après une radiographie pulmonaire et des symptĂ´mes comme une toux et des maux de tĂŞte, l'IA pourrait penser : « Ces symptĂ´mes pourraient ĂŞtre un rhume, des allergies ou quelque chose de plus grave. Pas de gonflement des ganglions lymphatiques, donc il est peu probable qu'il s'agisse d'une infection grave. Les poumons semblent clairs, donc probablement pas de pneumonie. Un simple rhume est plus appropriĂ©. Â» Elle passe en revue les options et trouve une rĂ©ponse, fournissant aux mĂ©decins une explication claire sur laquelle travailler.
  • Voitures autonomes: Pour les vĂ©hicules autonomes, les VLM optimisĂ©s par le CoT amĂ©liorent la sĂ©curitĂ© et la prise de dĂ©cision. Par exemple, une voiture autonome peut analyser une situation de circulation Ă©tape par Ă©tape : vĂ©rifier les feux de circulation pour piĂ©tons, identifier les vĂ©hicules en mouvement et dĂ©cider s'il est possible de poursuivre sa route en toute sĂ©curitĂ©. Des systèmes comme Lingo-1 de Wayve GĂ©nĂ©rer des commentaires en langage naturel pour expliquer des actions comme ralentir pour un cycliste. Cela aide les ingĂ©nieurs et les passagers Ă  comprendre le raisonnement du vĂ©hicule. La logique pas Ă  pas permet Ă©galement de mieux gĂ©rer les conditions routières inhabituelles en combinant des donnĂ©es visuelles et des connaissances contextuelles.
  • Analyse gĂ©ospatiale : Google Le modèle Gemini s'applique Le raisonnement CoT s'appuie sur des donnĂ©es spatiales telles que des cartes et des images satellites. Par exemple, il peut Ă©valuer les dĂ©gâts causĂ©s par un ouragan en intĂ©grant des images satellites, des prĂ©visions mĂ©tĂ©orologiques et des donnĂ©es dĂ©mographiques, puis gĂ©nĂ©rer des visualisations claires et des rĂ©ponses Ă  des questions complexes. Cette fonctionnalitĂ© accĂ©lère la rĂ©ponse aux catastrophes en fournissant aux dĂ©cideurs des informations pertinentes et rapides, sans nĂ©cessiter d'expertise technique.
  • Robotique: En robotique, l'intĂ©gration de CoT et de VLM permet aux robots de mieux planifier et exĂ©cuter des tâches en plusieurs Ă©tapes. Par exemple, lorsqu'un robot est chargĂ© de saisir un objet, un VLM compatible CoT lui permet d'identifier la tasse, de dĂ©terminer les meilleurs points de prĂ©hension, de planifier une trajectoire sans collision et d'exĂ©cuter le mouvement, tout en « expliquant Â» chaque Ă©tape du processus. Des projets comme RT-2 dĂ©montrer comment CoT permet aux robots de mieux s'adapter Ă  de nouvelles tâches et de rĂ©pondre Ă  des commandes complexes avec un raisonnement clair.
  • L'Education: En matière d'apprentissage, les tuteurs IA aiment Khanfriend Utilisez CoT pour mieux enseigner. Pour un problème de mathĂ©matiques, cela peut guider l'Ă©lève : « D'abord, Ă©crivez l'Ă©quation. Ensuite, obtenez la variable seule en soustrayant 5 des deux cĂ´tĂ©s. Maintenant, divisez par 2. Â» Au lieu de donner la rĂ©ponse, l'application guide l'Ă©lève pas Ă  pas, l'aidant Ă  comprendre les concepts.

En résumé

Les modèles de langage visuel (MLV) permettent à l'IA d'interpréter et d'expliquer les données visuelles grâce à un raisonnement pas à pas, similaire à celui de l'humain, grâce à des processus de chaîne de pensée (CdP). Cette approche renforce la confiance, l'adaptabilité et la résolution de problèmes dans des secteurs tels que la santé, les véhicules autonomes, l'analyse géospatiale, la robotique et l'éducation. En transformant la façon dont l'IA aborde les tâches complexes et soutient la prise de décision, les MLL établissent une nouvelle norme en matière de technologie intelligente fiable et pratique.

Le Dr Tehseen Zia est professeur agrégé titulaire à l'Université COMSATS d'Islamabad, titulaire d'un doctorat en IA de l'Université de technologie de Vienne, en Autriche. Spécialisé en intelligence artificielle, apprentissage automatique, science des données et vision par ordinateur, il a apporté d'importantes contributions avec des publications dans des revues scientifiques réputées. Le Dr Tehseen a également dirigé divers projets industriels en tant que chercheur principal et a servi à titre de consultant en IA.