Intelligence artificielle

Intelligence Artificielle Générative : L’idée derrière CHATGPT, DALL-E, Midjourney et plus

Publié le 8 août 2023

Mis à jour le 23 mai 2026

Par

Aayush Mittal Mittal

Le monde de l’art, de la communication et de la façon dont nous percevons la réalité est en pleine transformation. Si l’on regarde en arrière l’histoire de l’innovation humaine, on pourrait considérer l’invention de la roue ou la découverte de l’électricité comme des bonds monumentaux. Aujourd’hui, une nouvelle révolution est en cours — elle relie le fossé entre la créativité humaine et le calcul machine. C’est l’Intelligence Artificielle Générative.

Les modèles génératifs ont brouillé la frontière entre les humains et les machines. Avec l’avènement de modèles comme GPT-4, qui emploie des modules de transformation, nous avons fait un pas de plus vers la génération de langage naturel et riche en contexte. Ces progrès ont alimenté des applications dans la création de documents, les systèmes de dialogue de chatbot et même la composition musicale synthétique.

Les décisions récentes des grandes entreprises soulignent son importance. Microsoft est déjà en train d’abandonner son application Cortana ce mois-ci pour donner la priorité à de nouvelles innovations d’IA générative, comme Bing Chat. Apple a également consacré une partie importante de son $22,6 milliards de budget de R&D à l’IA générative, comme l’a indiqué le PDG Tim Cook.

Une nouvelle ère de modèles : Générative contre Discriminative

L’histoire de l’IA générative ne concerne pas seulement ses applications, mais fondamentalement son fonctionnement interne. Dans l’écosystème de l’intelligence artificielle, deux modèles existent : discriminatif et génératif.

Les modèles discriminatifs sont ceux que la plupart des gens rencontrent dans la vie quotidienne. Ces algorithmes prennent des données de saisie, telles qu’un texte ou une image, et les associent à une sortie cible, comme une traduction de mot ou un diagnostic médical. Ils sont liés à la cartographie et à la prédiction.

Les modèles génératifs, en revanche, sont des créateurs. Ils ne se contentent pas d’interpréter ou de prédire ; ils génèrent de nouvelles sorties complexes à partir de vecteurs de nombres qui ne sont souvent même pas liés à des valeurs du monde réel.

Les technologies derrière les modèles génératifs

Les modèles génératifs doivent leur existence à des réseaux de neurones profonds, des structures sophistiquées conçues pour imiter le fonctionnement du cerveau humain. En capturant et en traitant les variations multifacettes des données, ces réseaux servent de colonne vertébrale à de nombreux modèles génératifs.

Comment ces modèles génératifs prennent-ils vie ? Habituellement, ils sont construits avec des réseaux de neurones profonds, optimisés pour capturer les variations multifacettes des données. Un exemple primordial est le Réseau Adversatif Génératif (GAN), où deux réseaux de neurones, le générateur et le discriminateur, s’affrontent et apprennent l’un de l’autre dans une relation enseignant-élève unique. Des peintures à des transferts de style, de la composition musicale à des jeux, ces modèles évoluent et s’étendent de manière Previously inimaginable.

Cela ne s’arrête pas avec les GAN. Les Autoencodeurs Variationnels (VAE), sont un autre joueur clé dans le domaine des modèles génératifs. Les VAE se distinguent par leur capacité à créer des images photoréalistes à partir de nombres apparemment aléatoires. Comment ? En traitant ces nombres à travers un vecteur latent, ce qui donne naissance à une œuvre d’art qui reflète les complexités de l’esthétique humaine.

Types d’IA générative : Texte à texte, texte à image

Transformateurs et LLM

L’article « L’attention est tout ce dont vous avez besoin » du Google Brain a marqué un tournant dans la façon dont nous pensons la modélisation du texte. Au lieu d’architectures complexes et séquentielles comme les Réseaux Neuronaux Récurrents (RNN) ou les Réseaux de Neurones Convolutionnels (CNN), le modèle de transformation a introduit le concept d’attention, qui signifie essentiellement se concentrer sur différentes parties du texte de saisie en fonction du contexte. L’un des principaux avantages de cela était la facilité de parallélisation. Contrairement aux RNN qui traitent le texte de manière séquentielle, ce qui les rend plus difficiles à mettre à l’échelle, les Transformateurs peuvent traiter des parties du texte simultanément, ce qui rend la formation plus rapide et plus efficace sur de grands ensembles de données.

: Architecture du modèle de transformation

Dans un long texte, chaque mot ou phrase que vous lisez n’a pas la même importance. Certaines parties exigent plus d’attention en fonction du contexte. Cette capacité à déplacer notre attention en fonction de la pertinence est ce que le mécanisme d’attention imite.

Pour comprendre cela, pensez à une phrase : “Unite AI Publie des actualités sur l’IA et la robotique.” Prévoir le mot suivant nécessite une compréhension de ce qui compte le plus dans le contexte précédent. Le terme ‘Robotique’ pourrait suggérer que le mot suivant pourrait être lié à une avancée spécifique ou à un événement dans le domaine de la robotique, tandis que ‘Publie’ pourrait indiquer que le contexte suivant pourrait se pencher sur une publication récente ou un article.

: Illustration de l’auto-attention

Les mécanismes d’attention dans les Transformateurs sont conçus pour atteindre ce focus sélectif. Ils évaluent l’importance des différentes parties du texte de saisie et décident où « regarder » lors de la génération d’une réponse. C’est un écart par rapport aux anciennes architectures comme les RNN qui essayaient de comprimer l’essence de tout le texte de saisie dans un seul « état » ou « mémoire ».

Le fonctionnement de l’attention peut être assimilé à un système de récupération de clés-valeurs. Lors de la prédiction du mot suivant dans une phrase, chaque mot précédent offre une « clé » suggérant sa pertinence potentielle, et en fonction de la façon dont ces clés correspondent au contexte actuel (ou requête), ils contribuent une « valeur » ou un poids à la prédiction.

Ces modèles d’apprentissage automatique avancés se sont intégrés sans heurt dans diverses applications, des améliorations du moteur de recherche de Google avec BERT aux capacités de GitHub Copilot, qui exploite la capacité des grands modèles de langage (LLM) pour convertir de simples extraits de code en codes source complets.

Les grands modèles de langage (LLM) comme GPT-4, Bard et LLaMA, sont des constructions colossales conçues pour déchiffrer et générer le langage humain, le code et plus encore. Leur taille immense, allant de milliards à des trillions de paramètres, est l’une de leurs caractéristiques définissantes. Ces LLM sont nourris avec d’énormes quantités de données textuelles, leur permettant de saisir les complexités du langage humain. Une caractéristique frappante de ces modèles est leur aptitude à l’« apprentissage à quelques exemples ». Contrairement aux modèles conventionnels qui nécessitent de vastes quantités de données de formation spécifiques, les LLM peuvent généraliser à partir d’un très petit nombre d’exemples (ou « tirs »)

État des grands modèles de langage (LLM) à la mi-2023

Nom du modèle	Développeur	Paramètres	Disponibilité et accès	Caractéristiques et remarques notables
GPT-4	OpenAI	1,5 billion	Non open source, accès API uniquement	Performance impressionnante sur une variété de tâches, peut traiter des images et du texte, longueur d’entrée maximale de 32 768 jetons
GPT-3	OpenAI	175 milliards	Non open source, accès API uniquement	A démontré des capacités d’apprentissage à quelques exemples et sans exemples. Effectue des compléments de texte en langage naturel.
BLOOM	BigScience	176 milliards	Modèle téléchargeable, API hébergée disponible	LLM multilingue développé par une collaboration mondiale. Prend en charge 13 langages de programmation.
LaMDA	Google	173 milliards	Non open source, pas d’API ou de téléchargement	Formé sur des dialogues, pourrait apprendre à discuter de pratiquement tout.
MT-NLG	Nvidia/Microsoft	530 milliards	Accès API sur demande	Utilise l’architecture Megatron basée sur les transformateurs pour diverses tâches de traitement du langage naturel.
LLaMA	Meta AI	7B à 65B)	Téléchargement sur demande	Conçu pour démocratiser l’IA en offrant l’accès à ceux qui sont dans la recherche, le gouvernement et l’académie.

Comment les LLM sont-ils utilisés ?

Les LLM peuvent être utilisés de plusieurs manières, notamment :

Utilisation directe : Utiliser simplement un LLM pré-entraîné pour la génération de texte ou le traitement. Par exemple, utiliser GPT-4 pour écrire un article de blog sans aucune formation supplémentaire.
Affinage : Adapter un LLM pré-entraîné pour une tâche spécifique, une méthode connue sous le nom d’apprentissage de transfert. Un exemple serait de personnaliser T5 pour générer des résumés pour des documents dans une industrie spécifique.
Récupération d’informations : Utiliser les LLM, comme BERT ou GPT, dans le cadre d’architectures plus grandes pour développer des systèmes capables de récupérer et de catégoriser des informations.

: Architecture d’affinage de ChatGPT

Attention multi-tête : Pourquoi un seul lorsqu’on peut avoir plusieurs ?

Cependant, s’appuyer sur un seul mécanisme d’attention peut être limitant. Différents mots ou séquences dans un texte peuvent avoir des types de pertinence ou d’associations variés. C’est là que l’attention multi-tête intervient. Au lieu d’un seul ensemble de poids d’attention, l’attention multi-tête emploie plusieurs ensembles, permettant au modèle de capturer une variété plus riche de relations dans le texte de saisie. Chaque « tête » d’attention peut se concentrer sur différentes parties ou aspects du texte, et leurs connaissances combinées sont utilisées pour la prédiction finale.

ChatGPT : L’outil d’IA générative le plus populaire

En commençant par la création de GPT en 2018, le modèle a été essentiellement construit sur une fondation de 12 couches, 12 têtes d’attention et 120 millions de paramètres, principalement formé sur un ensemble de données appelé BookCorpus. C’était un début impressionnant, offrant un aperçu de l’avenir des modèles de langage.

GPT-2, dévoilé en 2019, a fait étalage d’une augmentation quadruple du nombre de couches et de têtes d’attention. De manière significative, son nombre de paramètres a explosé à 1,5 milliard. Cette version améliorée a été formée à partir de WebText, un ensemble de données enrichi avec 40 Go de texte provenant de divers liens Reddit.

GPT-3, lancé en mai 2020, comptait 96 couches, 96 têtes d’attention et un nombre massif de paramètres de 175 milliards. Ce qui a distingué GPT-3, c’était sa diversité de données de formation, comprenant CommonCrawl, WebText, Wikipedia en anglais, des corpus de livres et d’autres sources, totalisant 570 Go.

Les complexités du fonctionnement de ChatGPT restent un secret bien gardé. Cependant, un processus appelé « apprentissage par renforcement à partir de rétroaction humaine » (RLHF) est connu pour être crucial. Issu d’un projet ChatGPT antérieur, cette technique a été instrumentale dans l’affinement du modèle GPT-3.5 pour le rendre plus conforme aux instructions écrites.

La formation de ChatGPT comprend une approche à trois niveaux :

Affinage supervisé : Cela implique de créer des entrées et des sorties de conversation écrites par des humains pour affiner le modèle GPT-3.5 sous-jacent.
Modélisation de récompense : Les humains classent diverses sorties du modèle en fonction de la qualité, aidant ainsi à former un modèle de récompense qui évalue chaque sortie en fonction du contexte de la conversation.
Apprentissage par renforcement : Le contexte de la conversation sert de toile de fond où le modèle sous-jacent propose une réponse. Cette réponse est évaluée par le modèle de récompense, et le processus est optimisé en utilisant un algorithme appelé optimisation de la politique proximale (PPO).

Pour ceux qui découvrent ChatGPT, un guide de démarrage complet peut être trouvé ici. Si vous souhaitez approfondir l’ingénierie de prompt avec ChatGPT, nous avons également un guide avancé qui met en lumière les dernières et les meilleures techniques, disponible sur ‘ChatGPT & Ingénierie de prompt avancée : Pousser l’évolution de l’IA‘.

Diffusion et modèles multimodaux

Alors que des modèles comme les VAE et les GAN génèrent leurs sorties à travers un seul passage, donc bloqués dans ce qu’ils produisent, les modèles de diffusion ont introduit le concept de « raffinement itératif ». À travers cette méthode, ils reviennent sur leurs erreurs des étapes précédentes et produisent progressivement un résultat plus raffiné.

Au cœur des modèles de diffusion se trouve l’art de la « corruption » et du « raffinement ». Lors de leur phase de formation, une image typique est progressivement corrompue par l’ajout de niveaux de bruit variables. Cette version bruyante est ensuite présentée au modèle, qui tente de « débruiter » ou de « décorrompre » l’image. À travers plusieurs cycles de ce processus, le modèle devient habile dans la restauration, comprenant à la fois les aberrations subtiles et significatives.

: Image générée à partir de Midjourney

Le processus de génération de nouvelles images après la formation est intrigant. En commençant par une entrée complètement aléatoire, elle est continuellement raffinée en utilisant les prédictions du modèle. L’objectif est d’atteindre une image parfaite avec un minimum de pas. Le contrôle du niveau de corruption est effectué à l’aide d’un « calendrier de bruit », un mécanisme qui régit la quantité de bruit appliquée à différentes étapes. Un programme, tel que ceux trouvés dans des bibliothèques comme « diffusers », dicte la nature de ces versions bruyantes en fonction d’algorithmes établis.

Un élément architectural fondamental pour de nombreux modèles de diffusion est le UNet — un réseau de neurones convolutionnel conçu pour les tâches nécessitant des sorties qui reflètent les dimensions spatiales des entrées. Il s’agit d’un mélange de couches de sous-échantillonnage et de sur-échantillonnage, connectées de manière complexe pour conserver les données à haute résolution, essentielles pour les sorties d’images.

En plongeant plus profondément dans le domaine des modèles génératifs, DALL-E 2 d’OpenAI émerge comme un exemple éblouissant de la fusion des capacités d’IA textuelle et visuelle. Il emploie une structure à trois niveaux :

DALL-E 2 présente une architecture à trois niveaux :

Encodeur de texte : Il transforme la invite de texte en une embedding conceptuel dans un espace latent. Ce modèle ne part pas de zéro. Il s’appuie sur le jeu de données d’apprentissage préalable Contraste Language–Image (CLIP) d’OpenAI comme fondation. CLIP sert de pont entre les données visuelles et textuelles en apprenant des concepts visuels à l’aide du langage naturel. À travers un mécanisme appelé apprentissage contrastif, il identifie et correspond des images avec leurs descriptions textuelles.
Le modèle prioritaire : L’embedding de texte dérivé de l’encodeur est ensuite converti en un embedding d’image. DALL-E 2 a testé à la fois les méthodes autoregressives et de diffusion pour cette tâche, la seconde montrant de meilleurs résultats. Les modèles autoregressifs, tels que ceux trouvés dans les Transformateurs et PixelCNN, génèrent des sorties de manière séquentielle. D’un autre côté, les modèles de diffusion, comme celui utilisé dans DALL-E 2, transforment le bruit aléatoire en embeddings d’images prédites avec l’aide d’embeddings de texte.
Le décodeur : La phase finale du processus, cette partie génère la sortie visuelle finale en fonction de l’invite de texte et de l’embedding d’image de la phase précédente. Le décodeur de DALL-E 2 doit son architecture à un autre modèle, GLIDE, qui peut également produire des images réalistes à partir de invites textuelles.

: Architecture simplifiée du modèle DALL-E

Les utilisateurs de Python intéressés par Langchain devraient consulter notre didacticiel détaillé couvrant tout, des fondamentaux aux techniques avancées.

Applications de l’IA générative

Domaines textuels

En commençant par le texte, l’IA générative a été fondamentalement modifiée par des chatbots comme ChatGPT. S’appuyant fortement sur le traitement du langage naturel (NLP) et les grands modèles de langage (LLM), ces entités sont capables de réaliser des tâches allant de la génération de code et de la traduction de langues à la résumé et à l’analyse de sentiments. ChatGPT, par exemple, a connu une adoption généralisée, devenant un incontournable pour des millions de personnes. Cela est encore renforcé par des plateformes de conversation basées sur les LLM, comme GPT-4, PaLM et BLOOM, qui produisent sans effort du texte, aident à la programmation et offrent même une raison mathématique.

Du point de vue commercial, ces modèles deviennent inestimables. Les entreprises les emploient pour une myriade d’opérations, notamment la gestion des risques, l’optimisation des stocks et la prévision de la demande. Des exemples notables incluent Bing AI, le BARD de Google et l’API ChatGPT.

Art

Le monde des images a connu des transformations dramatiques avec l’IA générative, en particulier depuis l’introduction de DALL-E 2 en 2022. Cette technologie, capable de générer des images à partir d’invites textuelles, a des implications à la fois artistiques et professionnelles. Par exemple, Midjourney a exploité cette technologie pour produire des images réaliste impressionnantes. Un article récent démystifie Midjourney dans un guide détaillé, éclairant à la fois la plateforme et les complexités de l’ingénierie de prompt. De plus, des plateformes comme Alpaca AI et Photoroom AI utilisent l’IA générative pour des fonctionnalités de modification d’images avancées, telles que la suppression d’arrière-plan, la suppression d’objets et même la restauration de visages.

Production de vidéos

La production de vidéos, bien qu’en phase embryonnaire dans le domaine de l’IA générative, montre des progrès prometteurs. Des plateformes comme Imagen Video, Meta Make A Video et Runway Gen-2 poussent les limites de ce qui est possible, même si des sorties réellement réalistes sont encore à l’horizon. Ces modèles offrent une utilité considérable pour la création de vidéos numériques humaines, avec des applications comme Synthesia et SuperCreator à la pointe. Notamment, Tavus AI propose une valeur de vente unique en personnalisant les vidéos pour les membres individuels du public, un atout pour les entreprises.

Création de code

La programmation, un aspect indispensable de notre monde numérique, n’a pas échappé à l’IA générative. Même si ChatGPT est un outil favori, plusieurs autres applications d’IA ont été développées à des fins de programmation. Ces plateformes, telles que GitHub Copilot, Alphacode et CodeComplete, servent d’assistants de codage et peuvent même produire du code à partir d’invites textuelles. Ce qui est intrigant, c’est l’adaptabilité de ces outils. Codex, la force motrice derrière GitHub Copilot, peut être personnalisé pour correspondre au style de codage d’un individu, soulignant le potentiel de personnalisation de l’IA générative.

Conclusion

En fusionnant la créativité humaine avec le calcul machine, l’IA générative est devenue un outil inestimable, avec des plateformes comme ChatGPT et DALL-E 2 qui poussent les limites de ce qui est concevable. De la création de contenu textuel à la sculpture de chefs-d’œuvre visuels, leurs applications sont vastes et variées.

Comme pour toute technologie, les implications éthiques sont primordiales. Alors que l’IA générative promet une créativité sans limites, il est crucial de l’utiliser de manière responsable, en étant conscient des préjugés potentiels et du pouvoir de manipulation des données.

Avec des outils comme ChatGPT qui deviennent plus accessibles, c’est maintenant le moment idéal pour tester les eaux et expérimenter. Que vous soyez un artiste, un programmeur ou un passionné de technologie, le domaine de l’IA générative regorge de possibilités qui attendent d’être explorées. La révolution n’est pas à l’horizon ; elle est ici et maintenant. Alors, plongez !

Aayush Mittal, Mittal

J'ai passé les cinq dernières années à plonger dans le monde fascinant de l'apprentissage automatique et du deep learning. Ma passion et mon expertise m'ont conduit à contribuer à plus de 50 projets de génie logiciel divers, avec un focus particulier sur l'IA/ML. Ma curiosité continue m'a également attiré vers le traitement automatique des langues, un domaine que je suis impatient d'explorer plus en profondeur.