Suivez nous sur

L'IA multimodale évolue à mesure que ChatGPT gagne en visibilité avec GPT-4V(ision)

Intelligence Artificielle

L'IA multimodale évolue à mesure que ChatGPT gagne en visibilité avec GPT-4V(ision)

mm
vision chatgpt

Dans le cadre de ses efforts constants pour rapprocher l'IA des humains, les modèles GPT d'OpenAI ont continuellement repoussé les limites. GPT-4 est désormais capable d'accepter des invites textuelles et visuelles.

La multimodalité en IA générative désigne la capacité d'un modèle à produire des sorties variées, telles que du texte, des images ou du son, en fonction des données saisies. Ces modèles, entraînés sur des données spécifiques, apprennent des modèles sous-jacents pour générer de nouvelles données similaires, enrichissant ainsi les applications d'IA.

Progrès récents dans l’IA multimodale

Une avancée notable dans ce domaine est observée récemment avec l'intégration de DALL-E 3 à ChatGPT, une amélioration significative de la technologie de conversion de texte en image d'OpenAI. Cette combinaison permet une interaction plus fluide, ChatGPT contribuant à la création d'invites précises pour DALL-E 3, transformant les idées des utilisateurs en œuvres d'art vivantes générées par l'IA. Ainsi, si les utilisateurs peuvent interagir directement avec DALL-E 3, l'intégration de ChatGPT rend le processus de création d'œuvres d'art IA beaucoup plus convivial.

En savoir plus sur DALL-E 3 et son intégration avec ChatGPT ici. Cette collaboration met non seulement en valeur les progrès de l’IA multimodale, mais fait également de la création artistique IA un jeu d’enfant pour les utilisateurs.

Google Health, quant à lui, a lancé Med-PaLM M en juin dernier. Il s'agit d'un modèle génératif multimodal capable d'encoder et d'interpréter diverses données biomédicales. Ce modèle a été optimisé pour répondre aux besoins des domaines médicaux grâce à un benchmark open source, MultiMedBench. Ce benchmark comprend plus d'un million d'échantillons couvrant sept types de données biomédicales et quatorze tâches, telles que la réponse à des questions médicales et la génération de rapports radiologiques.

De nombreux secteurs adoptent des outils d'IA multimodaux innovants pour stimuler leur développement, optimiser leurs opérations et renforcer l'engagement client. Les progrès de l'IA vocale, vidéo et textuelle stimulent la croissance de l'IA multimodale.

Les entreprises recherchent des applications d'IA multimodales capables de repenser leurs modèles et processus commerciaux, ouvrant ainsi des voies de croissance dans l'écosystème de l'IA générative, des outils de données aux applications d'IA émergentes.

Après le lancement de GPT-4 en mars, certains utilisateurs ont constaté une baisse de la qualité de réponse au fil du temps, une préoccupation relayée par des développeurs renommés et sur les forums d'OpenAI. Initialement rejetée par OpenAI, une version ultérieure étude a confirmé le problème. Il a révélé une baisse de la précision de GPT-4 de 97.6 % à 2.4 % entre mars et juin, indiquant une baisse de la qualité des réponses avec les mises à jour ultérieures du modèle.

chatgpt-ai

ChatGPT (bleu) et intelligence artificielle (rouge) Tendance de recherche Google

Le battage médiatique autour IA ouverte ChatGPT est de retour maintenant. Il est désormais doté d'une fonction de vision GPT-4V, permettant aux utilisateurs de demander à GPT-4 d'analyser les images qu'ils leur fournissent. Il s'agit de la toute nouvelle fonctionnalité offerte aux utilisateurs.

L’ajout de l’analyse d’images aux grands modèles de langage (LLM) comme GPT-4 est considéré par certains comme un grand pas en avant dans la recherche et le développement de l’IA. Ce type de LLM multimodal ouvre de nouvelles possibilités, en prenant des modèles de langage au-delà du texte pour offrir de nouvelles interfaces et résoudre de nouveaux types de tâches, créant ainsi de nouvelles expériences pour les utilisateurs.

La formation de GPT-4V s'est terminée en 2022, avec un accès anticipé déployé en mars 2023. La fonctionnalité visuelle de GPT-4V est alimentée par la technologie GPT-4. Le processus de formation est resté le même. Initialement, le modèle a été entraîné pour prédire le mot suivant dans un texte à l’aide d’un ensemble de données massif de texte et d’images provenant de diverses sources, notamment Internet.

Plus tard, il a été affiné avec davantage de données, en utilisant une méthode appelée apprentissage par renforcement à partir de la rétroaction humaine (RLHF), pour générer les résultats que les humains préféraient.

Mécanique de vision GPT-4

Les remarquables capacités de langage visuel de GPT-4, bien qu'impressionnantes, ont des méthodes sous-jacentes qui restent à la surface.

Pour explorer cette hypothèse, un nouveau modèle vision-langage, miniGPT-4 a Ă©tĂ© introduit, en utilisant un LLM avancĂ© nommĂ© Vicuna. Ce modèle utilise un encodeur de vision avec des composants prĂ©-entraĂ®nĂ©s pour la perception visuelle, alignant les caractĂ©ristiques visuelles codĂ©es avec le modèle de langage Vicuna via une seule couche de projection. L'architecture de MiniGPT-4 est simple mais efficace, en mettant l'accent sur l'alignement des fonctionnalitĂ©s visuelles et linguistiques pour amĂ©liorer les capacitĂ©s de conversation visuelle.

miniGPT-4

L'architecture de MiniGPT-4 comprend un encodeur de vision avec ViT et Q-Former pré-entraînés, une seule couche de projection linéaire et un modèle de langage avancé Vicuna.

La tendance aux modèles de langage autorégressifs dans les tâches de langage visuel s'est également développée, capitalisant sur le transfert intermodal pour partager les connaissances entre les domaines linguistiques et multimodaux.

MiniGPT-4 relie les domaines visuel et linguistique en alignant les informations visuelles provenant d'un encodeur visuel pré-entraîné avec un LLM avancé. Le modèle utilise Vicuna comme décodeur de langage et suit une approche d'apprentissage en deux étapes. Il est d'abord entraîné sur un vaste ensemble de données de paires image-texte afin d'acquérir les connaissances vision-langage, puis peaufiné sur un ensemble de données plus restreint et de haute qualité afin d'améliorer la fiabilité de la génération et la convivialité.

Pour améliorer le caractère naturel et la convivialité du langage généré dans MiniGPT-4, les chercheurs ont développé un processus d'alignement en deux étapes, palliant au manque d'ensembles de données adéquats d'alignement vision-langage. Ils ont organisé un ensemble de données spécialisé à cet effet.

Dans un premier temps, le modèle a généré des descriptions détaillées des images d'entrée, en les enrichissant grâce à une invite conversationnelle conforme au format du modèle de langage Vicuna. Cette étape visait à générer des descriptions d'images plus complètes.

Invite de description initiale de l’image :

###Humain: Décrivez cette image en détail. Donnez autant de détails que possible. Dites tout ce que vous voyez. ###Assistant:

Pour le post-traitement des données, toute incohérence ou erreur dans les descriptions générées a été corrigée à l'aide de ChatGPT, suivie d'une vérification manuelle pour garantir une haute qualité.

Invite de rĂ©glage fin de deuxième Ă©tape :

###Humain: ###Assistant:

Cette exploration ouvre une fenêtre sur la compréhension des mécanismes de l’IA générative multimodale comme GPT-4, mettant en lumière la façon dont les modalités de vision et de langage peuvent être efficacement intégrées pour générer des résultats cohérents et riches en contexte.

Explorer la vision GPT-4

Déterminer les origines des images avec ChatGPT

GPT-4 Vision améliore la capacité de ChatGPT à analyser les images et à identifier leur origine géographique. Cette fonctionnalité permet de passer d'une interaction textuelle à un mélange de texte et d'images, devenant ainsi un outil pratique pour ceux qui s'intéressent à différents lieux grâce aux données d'images.

Chatgpt-vision-GPT-4

Demander Ă  ChatGPT oĂą une image historique est prise

Concepts mathématiques complexes

GPT-4 Vision excelle dans l’exploration d’idées mathématiques complexes en analysant des expressions graphiques ou manuscrites. Cette fonctionnalité constitue un outil utile pour les personnes cherchant à résoudre des problèmes mathématiques complexes, faisant de GPT-4 Vision une aide notable dans les domaines éducatifs et académiques.

Chatgpt-vision-GPT-4

Demander à ChatGPT de comprendre un concept mathématique complexe

Conversion d'une entrée manuscrite en codes LaTeX

L'une des capacités remarquables de GPT-4V est sa capacité à traduire des saisies manuscrites en codes LaTeX. Cette fonctionnalité est un atout pour les chercheurs, les universitaires et les étudiants qui ont souvent besoin de convertir des expressions mathématiques manuscrites ou d'autres informations techniques au format numérique. La conversion du manuscrit au format LaTeX élargit les horizons de la numérisation des documents et simplifie le processus de rédaction technique.

Capacité de GPT-4V à convertir les entrées manuscrites en codes LaTeX

La capacité de GPT-4V à convertir les entrées manuscrites en codes LaTeX

Extraction des détails de la table

GPT-4V démontre ses compétences dans l'extraction de détails à partir de tableaux et dans le traitement des demandes connexes, un atout essentiel dans l'analyse des données. Les utilisateurs peuvent utiliser GPT-4V pour parcourir des tableaux, recueillir des informations clés et résoudre des questions basées sur les données, ce qui en fait un outil robuste pour les analystes de données et autres professionnels.

GPT-4V déchiffre les détails de la table et répond aux requêtes associées

GPT-4V déchiffre les détails de la table et répond aux requêtes associées

Comprendre le pointage visuel

La capacité unique du GPT-4V à comprendre le pointage visuel ajoute une nouvelle dimension à l'interaction de l'utilisateur. En comprenant les signaux visuels, GPT-4V peut répondre aux requêtes avec une meilleure compréhension contextuelle.

GPT-4V-démontre-la-capacité-unique-de-compréhension-du-pointage-visuel

GPT-4V présente la capacité distincte à comprendre le pointage visuel

Création de sites Web simples à l'aide d'un dessin

Motivé par cela Tweet, j'ai tenté de créer une maquette pour le site unite.ai.

Bien que le résultat ne corresponde pas tout à fait à ma vision initiale, voici le résultat que j'ai obtenu.

Frontend HTML de sortie basé sur ChatGPT Vision

Frontend HTML de sortie basé sur ChatGPT Vision

Limites et défauts de GPT-4V (sion)

Pour analyser GPT-4V, l’équipe Open AI a réalisé des évaluations qualitatives et quantitatives. Les tests qualitatifs comprenaient des tests internes et des examens d'experts externes, tandis que les tests quantitatifs mesuraient les refus et l'exactitude des modèles dans divers scénarios tels que l'identification de contenus préjudiciables, la reconnaissance démographique, les problèmes de confidentialité, la géolocalisation, la cybersécurité et les jailbreaks multimodaux.

Pourtant, le modèle n’est pas parfait.

papier Il met en évidence les limites de GPT-4V, comme les inférences erronées et l'absence de texte ou de caractères dans les images. Il peut halluciner ou inventer des faits. En particulier, il n'est pas adapté à l'identification de substances dangereuses dans les images, les identifiant souvent de manière erronée.

En imagerie médicale, le GPT-4V peut fournir des réponses incohérentes et ne connaît pas les pratiques standard, ce qui entraîne des erreurs de diagnostic potentielles.

Performance peu fiable à des fins médicales.

Performances peu fiables à des fins médicales (Source)

Il ne parvient pas non plus à saisir les nuances de certains symboles de haine et peut générer un contenu inapproprié basé sur les entrées visuelles. OpenAI déconseille d'utiliser GPT-4V pour des interprétations critiques, en particulier dans des contextes médicaux ou sensibles.

Récapitulation

Créé avec Fast Stable Diffusion XL

Créé avec Fast Stable Diffusion XL https://huggingface.co/spaces/google/sdxl

L'arrivée de GPT-4 Vision (GPT-4V) apporte son lot de possibilités intéressantes et de nouveaux obstacles à surmonter. Avant son déploiement, de nombreux efforts ont été déployés pour s'assurer que les risques, notamment pour les images de personnes, soient bien étudiés et réduits. Il est impressionnant de constater à quel point GPT-4V a progressé et s'est révélé très prometteur dans des domaines complexes comme la médecine et la science.

De grandes questions se posent dĂ©sormais. Par exemple, ces modèles devraient-ils ĂŞtre capables d'identifier des cĂ©lĂ©britĂ©s Ă  partir de photos ? Devraient-ils deviner le sexe, l'origine ethnique ou les sentiments d'une personne Ă  partir d'une image ? Et faudrait-il prĂ©voir des ajustements spĂ©cifiques pour aider les personnes malvoyantes ? Ces questions ouvrent la voie Ă  un dĂ©bat sur la vie privĂ©e, l'Ă©quitĂ© et la place de l'IA dans nos vies, un sujet sur lequel chacun devrait avoir son mot Ă  dire.

J'ai passé les cinq dernières années à m'immerger dans le monde fascinant du Machine Learning et du Deep Learning. Ma passion et mon expertise m'ont amené à contribuer à plus de 50 projets de génie logiciel divers, avec un accent particulier sur l'IA/ML. Ma curiosité continue m'a également attiré vers le traitement automatique du langage naturel, un domaine que j'ai hâte d'explorer davantage.