Intelligence Artificielle
L'IA multimodale évolue à mesure que ChatGPT gagne en visibilité avec GPT-4V(ision)

Dans le cadre des efforts continus visant Ă rendre lâIA plus proche des humains, les modĂšles GPT dâOpenAI nâont cessĂ© de repousser les limites. GPT-4 est dĂ©sormais capable d'accepter les invites de texte et d'images.
La multimodalité dans l'IA générative dénote la capacité d'un modÚle à produire des sorties variées comme du texte, des images ou de l'audio en fonction de l'entrée. Ces modÚles, formés sur des données spécifiques, apprennent des modÚles sous-jacents pour générer de nouvelles données similaires, enrichissant ainsi les applications d'IA.
ProgrĂšs rĂ©cents dans lâIA multimodale
Une avancĂ©e notable rĂ©cente dans ce domaine est constatĂ©e avec l'intĂ©gration de DALL-E 3 dans ChatGPT, une mise Ă niveau significative de la technologie de conversion texte-image d'OpenAI. Ce mĂ©lange permet une interaction plus fluide oĂč ChatGPT aide Ă crĂ©er des invites prĂ©cises pour DALL-E 3, transformant les idĂ©es des utilisateurs en un art vivant gĂ©nĂ©rĂ© par l'IA. Ainsi, mĂȘme si les utilisateurs peuvent interagir directement avec DALL-E 3, la prĂ©sence de ChatGPT dans le mix rend le processus de crĂ©ation d'art IA beaucoup plus convivial.
En savoir plus sur DALL-E 3 et son intĂ©gration avec ChatGPT ici. Cette collaboration met non seulement en valeur les progrĂšs de lâIA multimodale, mais fait Ă©galement de la crĂ©ation artistique IA un jeu dâenfant pour les utilisateurs.
En juin dernier, Google Health a lancé Med-PaLM M, un modÚle génératif multimodal capable d'encoder et d'interpréter diverses données biomédicales. Ce résultat a été obtenu en affinant PaLM-E, un modÚle de langage, pour répondre aux besoins des domaines médicaux en utilisant un benchmark open source, MultiMedBench. Ce benchmark se compose de plus d'un million d'échantillons répartis sur 1 types de données biomédicales et 7 tùches telles que la réponse à des questions médicales et la génération de rapports radiologiques.
Diverses industries adoptent des outils dâIA multimodaux innovants pour alimenter lâexpansion de leur entreprise, rationaliser leurs opĂ©rations et accroĂźtre lâengagement des clients. Les progrĂšs dans les capacitĂ©s de lâIA vocale, vidĂ©o et textuelle propulsent la croissance de lâIA multimodale.
Les entreprises recherchent des applications d'IA multimodales capables de repenser leurs modÚles et processus commerciaux, ouvrant ainsi des voies de croissance dans l'écosystÚme de l'IA générative, des outils de données aux applications d'IA émergentes.
AprÚs le lancement de GPT-4 en mars, certains utilisateurs ont observé une baisse de la qualité de sa réponse au fil du temps, une préoccupation reprise par des développeurs notables et sur les forums d'OpenAI. Initialement rejeté par un OpenAI, un plus tard étude a confirmé le problÚme. Il a révélé une baisse de la précision de GPT-4 de 97.6 % à 2.4 % entre mars et juin, indiquant une baisse de la qualité des réponses avec les mises à jour ultérieures du modÚle.
Le battage médiatique autour IA ouvertes ChatGPT est de retour maintenant. Il est désormais doté d'une fonction de vision GPT-4V, permettant aux utilisateurs de demander à GPT-4 d'analyser les images qu'ils ont fournies. Il s'agit de la fonctionnalité la plus récente ouverte aux utilisateurs.
Lâajout de lâanalyse dâimages aux grands modĂšles de langage (LLM) comme GPT-4 est considĂ©rĂ© par certains comme un grand pas en avant dans la recherche et le dĂ©veloppement de lâIA. Ce type de LLM multimodal ouvre de nouvelles possibilitĂ©s, en prenant des modĂšles de langage au-delĂ du texte pour offrir de nouvelles interfaces et rĂ©soudre de nouveaux types de tĂąches, crĂ©ant ainsi de nouvelles expĂ©riences pour les utilisateurs.
La formation de GPT-4V s'est terminĂ©e en 2022, avec un accĂšs anticipĂ© dĂ©ployĂ© en mars 2023. La fonctionnalitĂ© visuelle de GPT-4V est alimentĂ©e par la technologie GPT-4. Le processus de formation est restĂ© le mĂȘme. Initialement, le modĂšle a Ă©tĂ© entraĂźnĂ© pour prĂ©dire le mot suivant dans un texte Ă lâaide dâun ensemble de donnĂ©es massif de texte et dâimages provenant de diverses sources, notamment Internet.
Plus tard, il a été affiné avec davantage de données, en utilisant une méthode appelée apprentissage par renforcement à partir de la rétroaction humaine (RLHF), pour générer les résultats que les humains préféraient.
Mécanique de vision GPT-4
Les remarquables capacités de langage de vision de GPT-4, bien qu'impressionnantes, reposent sur des méthodes sous-jacentes qui restent à la surface.
Pour explorer cette hypothÚse, un nouveau modÚle vision-langage, miniGPT-4 a été introduit, en utilisant un LLM avancé nommé Vicuna. Ce modÚle utilise un encodeur de vision avec des composants pré-entraßnés pour la perception visuelle, alignant les caractéristiques visuelles codées avec le modÚle de langage Vicuna via une seule couche de projection. L'architecture de MiniGPT-4 est simple mais efficace, en mettant l'accent sur l'alignement des fonctionnalités visuelles et linguistiques pour améliorer les capacités de conversation visuelle.

L'architecture de MiniGPT-4 comprend un encodeur de vision avec ViT et Q-Former pré-entraßnés, une seule couche de projection linéaire et un grand modÚle de langage Vicuna avancé.
La tendance aux modÚles de langage autorégressifs dans les tùches de langage visuel s'est également développée, capitalisant sur le transfert intermodal pour partager les connaissances entre les domaines linguistiques et multimodaux.
MiniGPT-4 relie les domaines visuels et linguistiques en alignant les informations visuelles d'un encodeur de vision pré-entraßné avec un LLM avancé. Le modÚle utilise Vicuna comme décodeur de langage et suit une approche de formation en deux étapes. Initialement, il est formé sur un vaste ensemble de données de paires image-texte pour acquérir les connaissances vision-langage, suivi d'un réglage fin sur un ensemble de données plus petit et de haute qualité pour améliorer la fiabilité et la convivialité de la génération.
Pour améliorer le caractÚre naturel et la convivialité du langage généré dans MiniGPT-4, les chercheurs ont développé un processus d'alignement en deux étapes, palliant au manque d'ensembles de données adéquats d'alignement vision-langage. Ils ont organisé un ensemble de données spécialisé à cet effet.
Initialement, le modĂšle gĂ©nĂ©rait des descriptions dĂ©taillĂ©es des images d'entrĂ©e, amĂ©liorant les dĂ©tails Ă l'aide d'une invite conversationnelle alignĂ©e sur le format du modĂšle de langage Vicuna. Cette Ă©tape visait Ă gĂ©nĂ©rer des descriptions dâimages plus complĂštes.
Invite de description initiale de lâimage :
###Humain: Décrivez cette image en détail. Donnez autant de détails que possible. Dites tout ce que vous voyez. ###Assistant:
Pour le post-traitement des données, toute incohérence ou erreur dans les descriptions générées a été corrigée à l'aide de ChatGPT, suivie d'une vérification manuelle pour garantir une haute qualité.
Invite de réglage fin de deuxiÚme étape :
###Humain: ###Assistant:
Cette exploration ouvre une fenĂȘtre sur la comprĂ©hension des mĂ©canismes de lâIA gĂ©nĂ©rative multimodale comme GPT-4, mettant en lumiĂšre la façon dont les modalitĂ©s de vision et de langage peuvent ĂȘtre efficacement intĂ©grĂ©es pour gĂ©nĂ©rer des rĂ©sultats cohĂ©rents et riches en contexte.
Explorer la vision GPT-4
Déterminer les origines des images avec ChatGPT
GPT-4 Vision améliore la capacité de ChatGPT à analyser les images et à identifier leurs origines géographiques. Cette fonctionnalité fait passer les interactions des utilisateurs d'un simple texte à un mélange de texte et de visuels, devenant ainsi un outil pratique pour ceux qui sont curieux de connaßtre différents endroits grùce aux données d'image.
Concepts mathématiques complexes
GPT-4 Vision excelle dans lâexploration dâidĂ©es mathĂ©matiques complexes en analysant des expressions graphiques ou manuscrites. Cette fonctionnalitĂ© constitue un outil utile pour les personnes cherchant Ă rĂ©soudre des problĂšmes mathĂ©matiques complexes, faisant de GPT-4 Vision une aide notable dans les domaines Ă©ducatifs et acadĂ©miques.
Conversion d'une entrée manuscrite en codes LaTeX
L'une des capacités remarquables de GPT-4V est sa capacité à traduire des entrées manuscrites en codes LaTeX. Cette fonctionnalité est une aubaine pour les chercheurs, les universitaires et les étudiants qui ont souvent besoin de convertir des expressions mathématiques manuscrites ou d'autres informations techniques au format numérique. La transformation de l'écriture manuscrite en LaTeX élargit l'horizon de la numérisation des documents et simplifie le processus de rédaction technique.
Extraction des détails de la table
GPT-4V démontre ses compétences dans l'extraction de détails à partir de tableaux et dans le traitement des demandes connexes, un atout essentiel dans l'analyse des données. Les utilisateurs peuvent utiliser GPT-4V pour parcourir des tableaux, recueillir des informations clés et résoudre des questions basées sur les données, ce qui en fait un outil robuste pour les analystes de données et autres professionnels.
Comprendre le pointage visuel
La capacitĂ© unique du GPT-4V Ă comprendre le pointage visuel ajoute une nouvelle dimension Ă l'interaction de l'utilisateur. En comprenant les signaux visuels, GPT-4V peut rĂ©pondre aux requĂȘtes avec une meilleure comprĂ©hension contextuelle.
Création de sites Web simples à l'aide d'un dessin
Motivé par cela Tweet, j'ai tenté de créer une maquette pour le site unite.ai.
MĂȘme si le rĂ©sultat ne correspondait pas tout Ă fait Ă ma vision initiale, voici le rĂ©sultat que j'ai obtenu.
Limites et défauts de GPT-4V (sion)
Pour analyser GPT-4V, lâĂ©quipe Open AI a rĂ©alisĂ© des Ă©valuations qualitatives et quantitatives. Les tests qualitatifs comprenaient des tests internes et des examens d'experts externes, tandis que les tests quantitatifs mesuraient les refus et l'exactitude des modĂšles dans divers scĂ©narios tels que l'identification de contenus prĂ©judiciables, la reconnaissance dĂ©mographique, les problĂšmes de confidentialitĂ©, la gĂ©olocalisation, la cybersĂ©curitĂ© et les jailbreaks multimodaux.
Pourtant, le modĂšle nâest pas parfait.
Pour papier met en Ă©vidence les limites de GPT-4V, telles que des infĂ©rences incorrectes et du texte ou des caractĂšres manquants dans les images. Il peut halluciner ou inventer des faits. En particulier, il nâest pas adaptĂ© Ă lâidentification de substances dangereuses dans des images, les identifiant souvent Ă tort.
En imagerie médicale, le GPT-4V peut fournir des réponses incohérentes et ne connaßt pas les pratiques standard, ce qui entraßne des erreurs de diagnostic potentielles.

Performances peu fiables à des fins médicales (Source)
Il ne parvient pas non plus à saisir les nuances de certains symboles de haine et peut générer un contenu inapproprié basé sur les entrées visuelles. OpenAI déconseille d'utiliser GPT-4V pour des interprétations critiques, en particulier dans des contextes médicaux ou sensibles.
Récapitulation

Créé avec Fast Stable Diffusion XL https://huggingface.co/spaces/google/sdxl
L'arrivée de GPT-4 Vision (GPT-4V) apporte un tas de possibilités intéressantes et de nouveaux obstacles à franchir. Avant de le déployer, de nombreux efforts ont été déployés pour garantir que les risques, notamment lorsqu'il s'agit de photos de personnes, soient bien étudiés et réduits. Il est impressionnant de voir à quel point GPT-4V s'est développé, se montrant trÚs prometteur dans des domaines délicats comme la médecine et la science.
Aujourdâhui, de grandes questions sont sur la table. Par exemple, ces modĂšles devraient-ils ĂȘtre capables dâidentifier des personnes cĂ©lĂšbres Ă partir de photos ? Doivent-ils deviner le sexe, la race ou les sentiments dâune personne Ă partir dâune photo ? Et devrait-il y avoir des ajustements spĂ©ciaux pour aider les personnes malvoyantes ? Ces questions ouvrent une boĂźte de Pandore sur la vie privĂ©e, lâĂ©quitĂ© et la maniĂšre dont lâIA devrait sâintĂ©grer dans nos vies, une question sur laquelle tout le monde devrait avoir son mot Ă dire.