Intelligence artificielle

L’intelligence artificielle multimodale évolue à mesure que ChatGPT acquiert la vue avec GPT-4V(ision)

Published October 9, 2023

Updated April 4, 2026

Aayush Mittal Mittal

Dans le cadre de l’effort constant pour rendre l’intelligence artificielle plus similaire aux humains, les modèles GPT d’OpenAI ont continuellement repoussé les limites. GPT-4 est maintenant capable d’accepter des invites de texte et d’images.

La multimodalité dans l’intelligence artificielle générative désigne la capacité d’un modèle à produire des sorties variées comme du texte, des images ou de l’audio en fonction de l’entrée. Ces modèles, formés sur des données spécifiques, apprennent les modèles sous-jacents pour générer de nouvelles données similaires, enrichissant ainsi les applications d’intelligence artificielle.

Progrès récents dans l’IA multimodale

Un progrès notable récent dans ce domaine est observé avec l’intégration de DALL-E 3 dans ChatGPT, une mise à niveau significative de la technologie de texte à image d’OpenAI. Cette combinaison permet une interaction plus fluide où ChatGPT aide à créer des invites précises pour DALL-E 3, transformant les idées des utilisateurs en art généré par l’IA de manière vivante. Ainsi, même si les utilisateurs peuvent interagirectement avec DALL-E 3, avoir ChatGPT dans le mélange rend le processus de création d’art IA beaucoup plus convivial pour les utilisateurs.

Voir plus d’informations sur DALL-E 3 et son intégration avec ChatGPT ici. Cette collaboration ne montre pas seulement les progrès de l’IA multimodale, mais rend également la création d’art IA un jeu d’enfant pour les utilisateurs.

https://openai.com/dall-e-3

Compréhension visuelle

L’aptitude unique de GPT-4V à comprendre la désignation visuelle ajoute une nouvelle dimension à l’interaction utilisateur. En comprenant les indices visuels, GPT-4V peut répondre aux requêtes avec une compréhension contextuelle plus élevée.

GPT-4V-demonstrates-the-unique-capability-of-understanding-visual-pointing

GPT-4V montre la capacité distincte de comprendre la désignation visuelle

Création d’un site Web mock-up simple à l’aide d’un dessin

Motivé par ce tweet, j’ai tenté de créer un mock-up pour le site Web Unite.AI.

Limitations et défauts de GPT-4V(ision)

Pour analyser GPT-4V, l’équipe d’Open AI a effectué des évaluations qualitatives et quantitatives. Les évaluations qualitatives comprenaient des tests internes et des examens d’experts externes, tandis que les évaluations quantitatives mesuraient les refus du modèle et la précision dans divers scénarios tels que l’identification de contenu nocif, la reconnaissance démographique, les préoccupations de confidentialité, la géolocalisation, la cybersécurité et les jailbreaks multimodaux.

Unreliable performance for medical purposes (Source)

En conclusion

L’arrivée de GPT-4 Vision (GPT-4V) apporte un ensemble de nouvelles possibilités et de nouveaux défis à relever. Avant de le lancer, beaucoup d’efforts ont été déployés pour s’assurer que les risques, en particulier lorsqu’il s’agit d’images de personnes, sont bien étudiés et réduits. Il est impressionnant de voir comment GPT-4V a progressé, montrant beaucoup de promesses dans des domaines délicats comme la médecine et la science.

Maintenant, il y a quelques grandes questions sur la table. Par exemple, ces modèles devraient-ils être capables d’identifier les célébrités à partir de photos ? Devraient-ils deviner le sexe, la race ou les sentiments d’une personne à partir d’une image ? Et devrait-il y avoir des ajustements spéciaux pour aider les personnes ayant une déficience visuelle ? Ces questions ouvrent une boîte de Pandore sur la confidentialité, l’équité et la manière dont l’IA devrait s’intégrer dans notre vie, ce qui est quelque chose que tout le monde devrait avoir un mot àe.

Related Topics:chatgpt DALL-E 3 Multimodal AI PROMPT ENGINEERING

Aayush Mittal

J'ai passé les cinq dernières années à me plonger dans le monde fascinant de l'apprentissage automatique et de l'apprentissage profond. Ma passion et mon expertise m'ont conduit à contribuer à plus de 50 projets de génie logiciel divers, avec un accent particulier sur l'IA/ML. Ma curiosité permanente m'a également attiré vers le traitement automatique des langues, un domaine que je suis impatient d'explorer plus en détail.

Unite.AI