Intelligence artificielle

Intelligence Artificielle Générative : L’idée derrière CHATGPT, Dall-E, Midjourney et plus

Published August 8, 2023

Updated April 28, 2026

Aayush Mittal Mittal

Le monde de l’art, de la communication et de la façon dont nous percevons la réalité est en train de se transformer rapidement. Si l’on regarde en arrière sur l’histoire de l’innovation humaine, on pourrait considérer l’invention de la roue ou la découverte de l’électricité comme des bonds monumentaux. Aujourd’hui, une nouvelle révolution a lieu – en reliant le fossé entre la créativité humaine et le calcul machine. C’est l’Intelligence Artificielle Générative.

Les modèles génératifs ont estompé la ligne entre les humains et les machines. Avec l’avènement de modèles comme GPT-4, qui emploie des modules de transformateurs, nous nous sommes rapprochés d’une génération de langage naturel et riche en contexte. Ces progrès ont alimenté des applications dans la création de documents, les systèmes de dialogue de chatbot et même la composition de musique synthétique.

Les décisions récentes des grandes entreprises soulignent son importance. Microsoft supprime déjà son application Cortana ce mois-ci pour donner la priorité à de nouvelles innovations d’Intelligence Artificielle Générative, comme Bing Chat. Apple a également consacré une partie importante de son budget de R&D de 22,6 milliards de dollars à l’Intelligence Artificielle Générative, comme l’a indiqué le PDG Tim Cook.

Une nouvelle ère de modèles : Génératif vs Discriminatif

L’histoire de l’Intelligence Artificielle Générative ne concerne pas seulement ses applications, mais fondamentalement ses mécanismes internes. Dans l’écosystème de l’intelligence artificielle, deux modèles existent : discriminatif et génératif.

Les modèles discriminatifs sont ceux que la plupart des gens rencontrent dans la vie quotidienne. Ces algorithmes prennent des données d’entrée, telles qu’un texte ou une image, et les associent à une sortie cible, comme une traduction de mot ou un diagnostic médical. Ils concernent la mise en correspondance et la prédiction.

Les modèles génératifs, en revanche, sont des créateurs. Ils ne se contentent pas d’interpréter ou de prédire ; ils génèrent de nouvelles sorties complexes à partir de vecteurs de nombres qui sont souvent sans rapport avec les valeurs du monde réel.

Les technologies derrière les modèles génératifs

Les modèles génératifs doivent leur existence à des réseaux de neurones profonds, des structures sophistiquées conçues pour imiter la fonctionnalité du cerveau humain. En capturant et en traitant les variations multifacettes des données, ces réseaux servent de colonne vertébrale à de nombreux modèles génératifs.

Comment ces modèles génératifs prennent-ils vie ? Habituellement, ils sont construits avec des réseaux de neurones profonds, optimisés pour capturer les variations multifacettes des données. Un exemple de premier plan est le Réseau Adversatif Génératif (GAN), où deux réseaux de neurones, le générateur et le discriminateur, s’affrontent et apprennent les uns des autres dans une relation enseignant-élève unique. Des peintures à des transferts de style, de la composition musicale à des jeux, ces modèles évoluent et s’étendent de manière Previously inimaginable.

Cela ne s’arrête pas avec les GAN. Les Autoencodeurs Variationnels (VAE) sont un autre acteur clé dans le domaine des modèles génératifs. Les VAE se démarquent par leur capacité à créer des images photoréalistes à partir de nombres apparemment aléatoires. Comment ? En traitant ces nombres à travers un vecteur latent, ce qui donne naissance à une œuvre d’art qui reflète les complexités de l’esthétique humaine.

Types d’Intelligence Artificielle Générative : Texte à Texte, Texte à Image

Transformateurs et LLM

L’article « L’attention est tout ce dont vous avez besoin » de Google Brain a marqué un tournant dans la façon dont nous réfléchissons à la modélisation du texte. Au lieu d’architectures complexes et séquentielles comme les Réseaux de Neurones Récurrents (RNN) ou les Réseaux de Neurones Convolutionnels (CNN), le modèle de transformateur a introduit le concept d’attention, qui signifie essentiellement se concentrer sur différentes parties du texte d’entrée en fonction du contexte. L’un des principaux avantages était la facilité de parallélisation. Contrairement aux RNN qui traitent le texte de manière séquentielle, ce qui les rend plus difficiles à mettre à l’échelle, les Transformateurs peuvent traiter des parties du texte simultanément, ce qui rend la formation plus rapide et plus efficace sur de grands ensembles de données.

: Architecture du modèle de transformateur

Dans un long texte, pas chaque mot ou phrase que vous lisez a la même importance. Certaines parties exigent plus d’attention en fonction du contexte. C’est ce que le mécanisme d’attention imite.

Pour comprendre cela, pensez à une phrase : “Unite AI Publie des actualités sur l’IA et la robotique.” Maintenant, prédire le mot suivant nécessite une compréhension de ce qui compte le plus dans le contexte précédent. Le terme ‘Robotique’ pourrait suggérer que le mot suivant pourrait être lié à une avancée spécifique ou à un événement dans le domaine de la robotique, tandis que ‘Publie’ pourrait indiquer que le contexte suivant pourrait se concentrer sur une publication récente ou un article.

: Illustration de l’auto-attention

Les mécanismes d’attention dans les Transformateurs sont conçus pour atteindre cet objectif de focalisation sélective. Ils évaluent l’importance de différentes parties du texte d’entrée et décident où “regarder” lors de la génération d’une réponse. C’est un départ des anciennes architectures comme les RNN qui ont essayé de comprimer l’essence de tout le texte d’entrée dans un seul “état” ou “mémoire”.

Le fonctionnement de l’attention peut être comparé à un système de récupération de clés-valeurs. Lors de la prédiction du mot suivant dans une phrase, chaque mot précédent offre une “clé” suggérant sa pertinence potentielle, et en fonction de la façon dont ces clés correspondent au contexte actuel (ou requête), ils contribuent une “valeur” ou un poids à la prédiction.

Ces modèles d’apprentissage automatique avancés se sont intégrés sans heurt dans diverses applications, des améliorations du moteur de recherche de Google avec BERT aux capacités de GitHub’s Copilot, qui exploite la capacité des Modèles de Langue à Grande Échelle (LLM) pour convertir de simples extraits de code en codes source complets.

Les Modèles de Langue à Grande Échelle (LLM) comme GPT-4, Bard et LLaMA sont des constructions colossales conçues pour déchiffrer et générer le langage humain, le code et plus encore. Leur taille immense, allant de milliards à des trillions de paramètres, est l’une des caractéristiques définissantes. Ces LLM sont nourris avec d’énormes quantités de données textuelles, leur permettant de saisir les complexités du langage humain. Une caractéristique frappante de ces modèles est leur aptitude pour l’apprentissage “à quelques exemples” ou “few-shot”. Contrairement aux modèles conventionnels qui nécessitent d’énormes quantités de données d’entraînement spécifiques, les LLM peuvent généraliser à partir d’un très petit nombre d’exemples (ou “shots”).

État des Modèles de Langue à Grande Échelle (LLM) à partir de la mi-2023

Nom du modèle	Développeur	Paramètres	Disponibilité et accès	Caractéristiques et remarques notables
GPT-4	OpenAI	1,5 billion	Non open source, accès API uniquement	Performances impressionnantes sur une variété de tâches, peut traiter des images et du texte, longueur d’entrée maximale de 32 768 jetons
GPT-3	OpenAI	175 milliards	Non open source, accès API uniquement	A démontré des capacités d’apprentissage à quelques exemples et sans exemple. Effectue la complétion de texte en langage naturel.
BLOOM	BigScience	176 milliards	Modèle téléchargeable, API hébergée disponible	Modèle de langage multilingue développé par une collaboration mondiale. Prend en charge 13 langages de programmation.
LaMDA	Google	173 milliards	Non open source, pas d’API ou de téléchargement	Formé sur des dialogues, pourrait apprendre à parler de presque tout.
MT-NLG	Nvidia/Microsoft	530 milliards	Accès API sur demande	Utilise l’architecture Megatron basée sur des transformateurs pour diverses tâches de traitement du langage naturel.
LLaMA	Meta AI	7B à 65B)	Téléchargement sur demande	Conçu pour démocratiser l’IA en offrant l’accès à ceux de la recherche, du gouvernement et de l’académie.

Comment les LLM sont-ils utilisés ?

Les LLM peuvent être utilisés de plusieurs manières, notamment :

Utilisation directe : Utiliser simplement un LLM pré-entraîné pour la génération de texte ou le traitement. Par exemple, utiliser GPT-4 pour écrire un article de blog sans aucune fine-tuning supplémentaire.
Fine-tuning : Adapter un LLM pré-entraîné pour une tâche spécifique, une méthode connue sous le nom d’apprentissage par transfert. Un exemple serait de personnaliser T5 pour générer des résumés pour des documents dans une industrie spécifique.
Récupération d’informations : Utiliser les LLM, tels que BERT ou GPT, comme partie d’architectures plus grandes pour développer des systèmes capables de récupérer et de catégoriser des informations.

: Architecture de fine-tuning de ChatGPT

Attention multi-tête : Pourquoi un seul quand vous pouvez en avoir plusieurs ?

Cependant, s’appuyer sur un seul mécanisme d’attention peut être limitant. Différents mots ou séquences dans un texte peuvent avoir des types de pertinence ou d’associations variés. C’est là que l’attention multi-tête intervient. Au lieu d’un seul ensemble de poids d’attention, l’attention multi-tête emploie plusieurs ensembles, permettant au modèle de capturer une variété plus riche de relations dans le texte d’entrée. Chaque “tête” d’attention peut se concentrer sur différentes parties ou aspects de l’entrée, et leurs connaissances combinées sont utilisées pour la prédiction finale.

ChatGPT : L’outil d’Intelligence Artificielle Générative le plus populaire

En commençant par l’origine de GPT en 2018, le modèle était essentiellement construit sur une fondation de 12 couches, 12 têtes d’attention et 120 millions de paramètres, principalement formé sur un ensemble de données appelé BookCorpus. C’était un début impressionnant, offrant un aperçu de l’avenir des modèles de langage.

GPT-2, présenté en 2019, affichait une augmentation quatre fois supérieure du nombre de couches et de têtes d’attention. De manière significative, son nombre de paramètres a explosé à 1,5 milliard. Cette version améliorée dérivait son entraînement d’un ensemble de données appelé WebText, enrichi de 40 Go de texte provenant de divers liens Reddit.

GPT-3, lancé en mai 2020, comptait 96 couches, 96 têtes d’attention et un nombre massif de paramètres de 175 milliards. Ce qui distinguait GPT-3 était ses données d’entraînement diversifiées, comprenant CommonCrawl, WebText, Wikipedia en anglais, des corpus de livres et d’autres sources, totalisant 570 Go.

Les complexités du fonctionnement de ChatGPT restent un secret bien gardé. Cependant, un processus appelé “apprentissage par rétroaction humaine” (RLHF) est connu pour être crucial. Issu d’un projet ChatGPT antérieur, cette technique a été instrumentale dans l’affinement du modèle GPT-3.5 pour le rendre plus conforme aux instructions écrites.

La formation de ChatGPT comprend une approche à trois niveaux :

Fine-tuning supervisé : Consiste à curer des entrées et des sorties de conversation écrites par des humains pour affiner le modèle GPT-3.5 sous-jacent.
Modélisation de récompense : Les humains classent diverses sorties de modèle en fonction de la qualité, aidant à former un modèle de récompense qui évalue chaque sortie en considérant le contexte de la conversation.
Apprentissage par renforcement : Le contexte de la conversation sert de toile de fond où le modèle sous-jacent propose une réponse. Cette réponse est évaluée par le modèle de récompense, et le processus est optimisé à l’aide d’un algorithme appelé optimisation de politique proximale (PPO).

Pour ceux qui découvrent juste ChatGPT, un guide de démarrage complet peut être trouvé ici. Si vous souhaitez approfondir l’ingénierie de prompt avec ChatGPT, nous avons également un guide avancé qui met en lumière les dernières et les meilleures techniques de prompt, disponible à ‘ChatGPT et ingénierie de prompt avancée : conduire l’évolution de l’IA‘.

Diffusion et modèles multimodaux

Alors que des modèles comme les VAE et les GAN génèrent leurs sorties via un seul passage, donc verrouillés dans ce qu’ils produisent, les modèles de diffusion ont introduit le concept de “rafinement itératif”. À travers cette méthode, ils font demi-tour, raffinent les erreurs des étapes précédentes et produisent progressivement un résultat plus poli.

Central aux modèles de diffusion est l’art de la “corruption” et du “rafinement”. Lors de leur phase d’entraînement, une image typique est progressivement corrompue par l’ajout de niveaux de bruit variables. Cette version bruyante est ensuite alimentée au modèle, qui tente de “débruir” ou de “décorrompre” l’image. À travers plusieurs cycles de ce processus, le modèle devient habile dans la restauration, en comprenant à la fois les aberrations subtiles et significatives.

: Image générée à partir de Midjourney

Le processus de génération de nouvelles images après l’entraînement est intrigant. En partant d’une entrée complètement aléatoire, elle est continuellement raffinée en utilisant les prédictions du modèle. L’objectif est d’atteindre une image parfaite avec un minimum de pas. Le contrôle du niveau de corruption est effectué via un “calendrier de bruit”, un mécanisme qui régit la quantité de bruit appliquée à différents stades. Un planificateur, comme on le voit dans des bibliothèques comme “diffusers“, dicte la nature de ces versions bruyantes en fonction d’algorithmes établis.

Un élément architectural de base pour de nombreux modèles de diffusion est le U-Net – un réseau de neurones convolutionnel conçu pour les tâches nécessitant des sorties qui miroitent la dimension spatiale des entrées. Il s’agit d’un mélange de couches de sous-échantillonnage et de sur-échantillonnage, étroitement connectées pour conserver les données à haute résolution, essentielles pour les sorties d’images.

En plongeant plus profondément dans le domaine des modèles génératifs, DALL-E 2 d’OpenAI émerge comme un exemple éblouissant de la fusion des capacités d’IA textuelles et visuelles. Il emploie une structure à trois niveaux :

DALL-E 2 présente une architecture à trois niveaux :

Encodeur de texte : Il transforme la invite de texte en une mise en correspondance conceptuelle dans un espace latent. Ce modèle ne commence pas à zéro. Il s’appuie sur le jeu de données de pré-entraînement Contraste de Langage-Image d’OpenAI (CLIP) comme fondation. CLIP sert de pont entre les données visuelles et textuelles en apprenant des concepts visuels à l’aide du langage naturel. À travers un mécanisme appelé apprentissage contrastif, il identifie et correspond des images avec leurs descriptions textuelles correspondantes.
Le modèle prioritaire : La mise en correspondance de texte dérivée de l’encodeur est ensuite convertie en une mise en correspondance d’image. DALL-E 2 a testé à la fois les méthodes autoregressives et de diffusion pour cette tâche, la dernière montrant de meilleurs résultats. Les modèles autoregressifs, comme on le voit dans les Transformateurs et PixelCNN, génèrent des sorties en séquences. D’un autre côté, les modèles de diffusion, comme celui utilisé dans DALL-E 2, transforment le bruit aléatoire en mises en correspondance d’images prédites avec l’aide de mises en correspondance de texte.
Le décodeur : L’apothéose du processus, cette partie génère la sortie visuelle finale en fonction de l’invite de texte et de la mise en correspondance d’image de la phase précédente. L’architecture du décodeur de DALL-E 2 doit son architecture à un autre modèle, GLIDE, qui peut également produire des images réalistes à partir d’invites textuelles.

: Architecture simplifiée du modèle DALL-E

Les utilisateurs de Python intéressés par Langchain devraient consulter notre didacticiel détaillé couvrant tout, des fondamentaux aux techniques avancées.

Applications de l’Intelligence Artificielle Générative

Domaines textuels

En commençant par le texte, l’Intelligence Artificielle Générative a été fondamentalement modifiée par des chatbots comme ChatGPT. S’appuyant lourdement sur le traitement du langage naturel (NLP) et les modèles de langage à grande échelle (LLM), ces entités sont habilitées à effectuer des tâches allant de la génération de code et de la traduction de langage à la synthèse et à l’analyse de sentiments. ChatGPT, par exemple, a connu une adoption généralisée, devenant un élément essentiel pour des millions. Cela est encore renforcé par des plateformes de conversation IA, ancrées dans des LLM comme GPT-4, PaLM et BLOOM, qui produisent sans effort du texte, aident à la programmation et offrent même une raison mathématique.

D’un point de vue commercial, ces modèles deviennent inestimables. Les entreprises les emploient pour une myriade d’opérations, notamment la gestion des risques, l’optimisation des stocks et la prévision des demandes. Des exemples notables incluent Bing AI, Google’s BARD et l’API ChatGPT.

Art

Le monde des images a connu des transformations dramatiques avec l’Intelligence Artificielle Générative, en particulier depuis l’introduction de DALL-E 2 en 2022. Cette technologie, qui peut générer des images à partir d’invites textuelles, a des implications à la fois artistiques et professionnelles. Par exemple, Midjourney a exploité cette technologie pour produire des images réaliste impressionnantes. Un article récent démystifie Midjourney dans un guide détaillé, éclairant à la fois la plateforme et les complexités de l’ingénierie de prompt. De plus, des plateformes comme Alpaca AI et Photoroom AI utilisent l’Intelligence Artificielle Générative pour des fonctionnalités avancées d’édition d’images telles que la suppression d’arrière-plan, la suppression d’objets et même la restauration de visage.

Production de vidéos

La production de vidéos, bien qu’elle soit encore à ses débuts dans le domaine de l’Intelligence Artificielle Générative, montre des progrès prometteurs. Des plateformes comme Imagen Video, Meta Make A Video et Runway Gen-2 poussent les limites de ce qui est possible, même si des sorties réellement réalistes sont encore à l’horizon. Ces modèles offrent une utilité considérable pour la création de vidéos numériques humaines, avec des applications comme Synthesia et SuperCreator à la pointe. Notamment, Tavus AI offre une proposition de valeur unique en personnalisant les vidéos pour chaque membre du public, un atout pour les entreprises.

Création de code

La programmation, un aspect indispensable de notre monde numérique, n’a pas été épargnée par l’Intelligence Artificielle Générative. Bien que ChatGPT soit un outil favori, plusieurs autres applications d’IA ont été développées à des fins de programmation. Ces plateformes, telles que GitHub Copilot, Alphacode et CodeComplete, servent d’assistants de programmation et peuvent même produire du code à partir d’invites textuelles. Ce qui est intrigant est l’adaptabilité de ces outils. Codex, la force motrice derrière GitHub Copilot, peut être adapté au style de programmation d’un individu, soulignant le potentiel de personnalisation de l’Intelligence Artificielle Générative.

Conclusion

En combinant la créativité humaine avec le calcul machine, l’Intelligence Artificielle Générative est devenue un outil inestimable, avec des plateformes comme ChatGPT et DALL-E 2 qui poussent les limites de ce qui est concevable. De la création de contenu textuel à la sculpture de chefs-d’œuvre visuels, leurs applications sont vastes et variées.

Comme pour toute technologie, les implications éthiques sont primordiales. Alors que l’Intelligence Artificielle Générative promet une créativité sans limite, il est crucial de l’utiliser de manière responsable, en étant conscient des préjugés potentiels et du pouvoir de manipulation des données.

Avec des outils comme ChatGPT qui deviennent plus accessibles, c’est le moment idéal pour tester les eaux et expérimenter. Que vous soyez un artiste, un programmeur ou un passionné de technologie, le domaine de l’Intelligence Artificielle Générative regorge de possibilités à explorer. La révolution n’est pas à l’horizon ; elle est ici et maintenant. Alors, plongez !

Related Topics:chatgpt DALL-E deep learning generative ai LLM Midjourney

Aayush Mittal

J'ai passé les cinq dernières années à me plonger dans le monde fascinant de l'apprentissage automatique et de l'apprentissage profond. Ma passion et mon expertise m'ont conduit à contribuer à plus de 50 projets de génie logiciel divers, avec un accent particulier sur l'IA/ML. Ma curiosité permanente m'a également attiré vers le traitement automatique des langues, un domaine que je suis impatient d'explorer plus en détail.