Intelligence Artificielle

IA générative : l'idée derrière CHATGPT, Dall-E, Midjourney et plus encore

Publié 8 août 2023

Ayush Mittal mital

Le monde de l'art, de la communication et de la façon dont nous percevons la réalité se transforme rapidement. Si nous regardons l'histoire de l'innovation humaine, nous pourrions considérer l'invention de la roue ou la découverte de l'électricité comme des sauts monumentaux. Aujourd'hui, une nouvelle révolution est en cours : combler le fossé entre la créativité humaine et le calcul automatique. C'est l'IA générative.

Les modèles génératifs ont brouillé la frontière entre les humains et les machines. Avec l'avènement de modèles comme GPT-4, qui utilise des modules de transformation, nous nous sommes rapprochés de la génération de langage naturel et riche en contexte. Ces avancées ont alimenté des applications dans la création de documents, les systèmes de dialogue chatbot et même la composition de musique synthétique.

Les décisions récentes des Big-Tech soulignent son importance. Microsoft est déjà abandon de son application Cortana ce mois-ci pour donner la priorité aux nouvelles innovations de l'IA générative, comme Bing Chat. Apple a également consacré une partie importante de son Budget R&D de 22.6 milliards de dollars à l'IA générative, comme l'a indiqué le PDG Tim Cook.

Une nouvelle ère de modèles : génératifs vs. Discriminatif

L'histoire de l'IA générative ne concerne pas seulement ses applications, mais fondamentalement son fonctionnement interne. Dans l'écosystème de l'intelligence artificielle, deux modèles existent : discriminatif et génératif.

Les modèles discriminants sont ce que la plupart des gens rencontrent au quotidien. Ces algorithmes prennent des données d'entrée, comme un texte ou une image, et les associent à un résultat cible, comme une traduction de mot ou un diagnostic médical. Ils fonctionnent à la fois comme cartographie et comme prédiction.

Les modèles génératifs, quant à eux, sont des créateurs. Ils ne se contentent pas d'interpréter ou de prédire ; ils génèrent de nouvelles sorties complexes à partir de vecteurs de nombres qui, souvent, ne sont même pas liés à des valeurs réelles.

Les technologies derrière les modèles génératifs

Les modèles génératifs doivent leur existence aux réseaux neuronaux profonds, des structures sophistiquées conçues pour imiter le fonctionnement du cerveau humain. En capturant et en traitant les variations multidimensionnelles des données, ces réseaux constituent l'épine dorsale de nombreux modèles génératifs.

Comment ces modèles génératifs prennent-ils vie ? Habituellement, ils sont construits avec des réseaux de neurones profonds, optimisés pour capturer les variations multiformes des données. Un excellent exemple est le Réseau d'adversaire génératif (GAN), où deux réseaux de neurones, le générateur et le discriminateur, rivalisent et apprennent l'un de l'autre dans une relation enseignant-élève unique. De la peinture au transfert de style, de la composition musicale au jeu, ces modèles évoluent et se développent d'une manière inimaginable auparavant.

Cela ne s’arrête pas aux GAN. Autoencodeurs variationnels (VAE), sont un autre acteur incontournable dans le domaine des modèles génératifs. Les VAE se distinguent par leur capacité à créer des images photoréalistes à partir de nombres apparemment aléatoires. Comment? Le traitement de ces nombres à travers un vecteur latent donne naissance à un art qui reflète les complexités de l'esthétique humaine.

Types d'IA générative : texte à texte, texte à image

Transformateurs et LLM

Le papier "L'attention est tout ce dont vous avez besoin» de Google Brain a marqué un changement dans notre façon de penser la modélisation de texte. Au lieu d'architectures complexes et séquentielles comme les réseaux de neurones récurrents (RNN) ou les réseaux de neurones convolutifs (CNN), le modèle Transformer a introduit le concept d'attention, qui signifiait essentiellement se concentrer sur différentes parties du texte saisi en fonction du contexte. L’un des principaux avantages de cette solution était la facilité de parallélisation. Contrairement aux RNN qui traitent le texte de manière séquentielle, ce qui les rend plus difficiles à mettre à l'échelle, les Transformers peuvent traiter des parties du texte simultanément, ce qui rend la formation plus rapide et plus efficace sur de grands ensembles de données.

: Modèle de transformateur architecture

Dans un texte long, tous les mots ou phrases que vous lisez n'ont pas la même importance. Certaines parties demandent plus d'attention en fonction du contexte. Cette capacité à déplacer notre attention en fonction de la pertinence est ce que le mécanisme d'attention imite.

Pour comprendre cela, imaginez la phrase suivante : « Unite AI, Publier des actualités sur l'IA et la robotique ». Prédire le mot suivant nécessite de comprendre ce qui compte le plus dans le contexte précédent. Le terme « Robotique » pourrait suggérer que le mot suivant pourrait être lié à une avancée ou un événement spécifique dans le domaine de la robotique, tandis que « Publier » pourrait indiquer que le contexte suivant pourrait se pencher sur une publication ou un article récent.

: Illustration de l'attention personnelle

Les mécanismes d'attention des Transformers sont conçus pour atteindre cette focalisation sélective. Ils évaluent l'importance des différentes parties du texte saisi et décident où « regarder » lors de la génération d'une réponse. Il s'agit d'une rupture avec les architectures plus anciennes, comme les RNN, qui tentaient de concentrer l'essentiel du texte saisi dans un seul « état » ou « mémoire ».

Le fonctionnement de l'attention peut être comparé à un système de recherche clé-valeur. Pour prédire le mot suivant dans une phrase, chaque mot précédent offre une « clé » suggérant sa pertinence potentielle. Selon leur adéquation au contexte (ou à la requête), ces clés confèrent une « valeur » ou un poids à la prédiction.

Ces modèles avancés d'apprentissage en profondeur de l'IA s'intègrent parfaitement dans diverses applications, des améliorations du moteur de recherche de Google avec BERT à Copilot de GitHub, qui exploite la capacité des grands modèles de langage (LLM) à convertir de simples extraits de code en codes sources entièrement fonctionnels.

Les grands modèles de langage (LLM) tels que GPT-4, Bard et LLaMA sont des constructions colossales conçues pour déchiffrer et générer du langage humain, du code, etc. Leur taille immense, allant de milliards à des billions de paramètres, est l'une des caractéristiques déterminantes. Ces LLM sont alimentés avec de grandes quantités de données textuelles, ce qui leur permet de saisir les subtilités du langage humain. Une caractéristique frappante de ces modèles est leur aptitude à «quelques coups" apprentissage. Contrairement aux modèles conventionnels qui nécessitent de grandes quantités de données de formation spécifiques, les LLM peuvent généraliser à partir d'un nombre très limité d'exemples (ou "coups")

État des grands modèles linguistiques (LLM) après la mi-2023

Nom du modèle	Développeur	Paramètres	Disponibilité et accès	Caractéristiques et remarques notables
GPT-4	OpenAI	1.5 Trillions	Pas Open Source, accès API uniquement	Des performances impressionnantes sur une variété de tâches peuvent traiter des images et du texte, longueur d'entrée maximale de 32,768 XNUMX jetons
GPT-3	OpenAI	175 milliards	Pas Open Source, accès API uniquement	Capacités d'apprentissage démontrées à quelques coups et à zéro coup. Effectue la complétion de texte en langage naturel.
BLOOM	GrandeScience	176 milliards	Modèle téléchargeable, API hébergée disponible	LLM multilingue développé par une collaboration mondiale. Prend en charge 13 langages de programmation.
LeMDA	Google	173 milliards	Pas Open Source, pas d'API ni de téléchargement	Formé au dialogue pourrait apprendre à parler de pratiquement n'importe quoi
MT-NLG	NVIDIA/Microsoft	530 milliards	Accès API par application	Utilise l'architecture Megatron basée sur un transformateur pour diverses tâches NLP.
Lama	Méta IA	7B à 65B)	Téléchargeable par application	Destiné à démocratiser l'IA en offrant un accès aux chercheurs, aux gouvernements et aux universités.

Comment les LLM sont-ils utilisés ?

Les LLM peuvent être utilisés de plusieurs manières, notamment :

Utilisation directe : Utilisation simple d'un LLM pré-formé pour la génération ou le traitement de texte. Par exemple, utiliser GPT-4 pour écrire un article de blog sans aucun réglage supplémentaire.
Mise au point : adapter un LLM pré-entraîné à une tâche spécifique, une méthode connue sous le nom d'apprentissage par transfert. Un exemple serait de personnaliser T5 pour générer des résumés de documents dans un secteur spécifique.
Récupération d'informations : utilisation de LLM, tels que BERT ou GPT, dans le cadre d'architectures plus vastes pour développer des systèmes capables de récupérer et de catégoriser des informations.

: Architecture de réglage fin de ChatGPT

Attention multi-tête : pourquoi une quand on peut en avoir plusieurs ?

Cependant, s'appuyer sur un seul mécanisme d'attention peut être limitant. Différents mots ou séquences dans un texte peuvent avoir différents types de pertinence ou d'associations. C'est là qu'intervient l'attention multi-têtes. Au lieu d'un ensemble de pondérations d'attention, l'attention multi-têtes utilise plusieurs ensembles, permettant au modèle de capturer une plus grande variété de relations dans le texte d'entrée. Chaque "tête" d'attention peut se concentrer sur différentes parties ou aspects de l'entrée, et leurs connaissances combinées sont utilisées pour la prédiction finale.

ChatGPT : l'outil d'IA générative le plus populaire

Dès sa création en 2018, le modèle GPT reposait essentiellement sur 12 couches, 12 têtes d'attention et 120 millions de paramètres, principalement entraînés sur un jeu de données appelé BookCorpus. Ce fut un début impressionnant, offrant un aperçu de l'avenir des modèles linguistiques.

Le GPT-2, dévoilé en 2019, affichait une multiplication par quatre des couches et des têtes d'attention. De manière significative, son nombre de paramètres est monté en flèche à 1.5 milliard. Cette version améliorée tire sa formation de WebText, un ensemble de données enrichi de 40 Go de texte provenant de divers liens Reddit.

GPT-3, lancé en mai 2020, avait 96 couches, 96 têtes d'attention et un nombre massif de paramètres de 175 milliards. Ce qui distingue GPT-3, ce sont ses diverses données de formation, englobant CommonCrawl, WebText, Wikipedia anglais, des corpus de livres et d'autres sources, combinant pour un total de 570 Go.

Les subtilités du fonctionnement de ChatGPT restent un secret bien gardé. Cependant, un processus appelé « apprentissage par renforcement à partir du feedback humain » (RLHF) est reconnu comme essentiel. Issue d'un précédent projet ChatGPT, cette technique a contribué à affiner le modèle GPT-3.5 afin de mieux l'aligner sur les instructions écrites.

La formation de ChatGPT comprend une approche à trois niveaux :

Réglage fin supervisé : implique la conservation d'entrées et de sorties conversationnelles écrites par l'homme pour affiner le modèle GPT-3.5 sous-jacent.
Modélisation de récompense : les humains classent les différents résultats du modèle en fonction de leur qualité, ce qui contribue à former un modèle de récompense qui note chaque résultat en tenant compte du contexte de la conversation.
Apprentissage par renforcement : Le contexte conversationnel sert de toile de fond où le modèle sous-jacent propose une réponse. Cette réponse est évaluée par le modèle de récompense et le processus est optimisé à l'aide d'un algorithme nommé optimisation de la politique proximale (PPO).

Pour ceux qui ne font que plonger leurs orteils dans ChatGPT, un guide de démarrage complet peut être trouvé en cliquant ici. Si vous souhaitez approfondir l'ingénierie des invites avec ChatGPT, nous avons également un guide avancé qui met en lumière les techniques d'invite les plus récentes et les plus avancées, disponible à l'adresse 'ChatGPT et ingénierie avancée des invites : conduire l'évolution de l'IA'.

Modèles de diffusion et multimodaux

Alors que des modèles comme les VAE et les GAN génèrent leurs sorties en un seul passage, donc enfermés dans tout ce qu'ils produisent, les modèles de diffusion ont introduit le concept de 'raffinement itératif'. Grâce à cette méthode, ils reviennent en arrière, affinant les erreurs des étapes précédentes et produisant progressivement un résultat plus raffiné.

Au centre des modèles de diffusion se trouve l'art de « la corruption« » et « affinement ». Lors de leur phase d'apprentissage, une image typique est progressivement corrompue par l'ajout de niveaux de bruit variables. Cette version bruitée est ensuite transmise au modèle, qui tente de la « débruiter » ou de la « décorrompre ». Grâce à plusieurs cycles, le modèle devient expert en restauration, comprenant les aberrations subtiles comme significatives.

: Image générée à partir de Midjourney

Le processus de génération de nouvelles images après l'entraînement est fascinant. Partant d'une entrée entièrement aléatoire, le modèle est continuellement affiné grâce aux prédictions. L'objectif est d'obtenir une image parfaite en un minimum d'étapes. Le contrôle du niveau de corruption s'effectue grâce à un « programme de bruit », un mécanisme qui régit la quantité de bruit appliquée à différentes étapes. Un planificateur, comme on en trouve dans des bibliothèques comme « De parfum D'intérieur», dicte la nature de ces restitutions bruitées basées sur des algorithmes établis.

Une colonne vertébrale architecturale essentielle pour de nombreux modèles de diffusion est le UNet— un réseau neuronal convolutif conçu pour les tâches nécessitant des sorties reflétant la dimension spatiale des entrées. Il s'agit d'un mélange de couches de sous-échantillonnage et de suréchantillonnage, étroitement connectées pour conserver des données haute résolution, essentielles aux sorties liées aux images.

En approfondissant le domaine des modèles génératifs, OpenAI DALL-E2 apparaît comme un brillant exemple de la fusion des capacités textuelles et visuelles de l'IA. Il utilise une structure à trois niveaux :

DALL-E 2 présente une architecture en trois volets :

Encodeur de texte : Il transforme l'invite textuelle en une intégration conceptuelle dans un espace latent. Ce modèle ne part pas de zéro. Il s'appuie sur le pré-entraînement Contrastive Language–Image d'OpenAI (CLIP) jeu de données comme base. CLIP sert de pont entre les données visuelles et textuelles en apprenant des concepts visuels en utilisant le langage naturel. Grâce à un mécanisme connu sous le nom d'apprentissage contrastif, il identifie et associe les images à leurs descriptions textuelles correspondantes.
Le Prior : L'incorporation de texte dérivée de l'encodeur est ensuite convertie en une incorporation d'image. DALL-E 2 a testé à la fois les méthodes autorégressives et de diffusion pour cette tâche, cette dernière présentant des résultats supérieurs. Les modèles autorégressifs, comme on le voit dans Transformers et PixelCNN, génèrent des sorties en séquences. D'autre part, les modèles de diffusion, comme celui utilisé dans DALL-E 2, transforment le bruit aléatoire en incorporations d'images prédites à l'aide d'incorporations de texte.
Le décodeur : Point culminant du processus, cette partie génère le rendu visuel final à partir du texte et de l'image incorporée lors de la phase précédente. Le décodeur de DALL.E 2 doit son architecture à un autre modèle, GLISSER, qui peut également produire des images réalistes à partir d'indices textuels.

: Architecture simplifiée du modèle DALL-E

Les utilisateurs de Python intéressés par Langchain devriez consulter notre didacticiel détaillé couvrant tout, des principes de base aux techniques avancées.

Applications de l'IA générative

Domaines textuels

En commençant par le texte, l'IA générative a été fondamentalement modifiée par des chatbots comme ChatGPT. S'appuyant fortement sur le traitement du langage naturel (NLP) et les grands modèles de langage (LLM), ces entités sont habilitées à effectuer des tâches allant de la génération de code et de la traduction du langage à la synthèse et à l'analyse des sentiments. ChatGPT, par exemple, a été largement adopté, devenant un incontournable pour des millions de personnes. Ceci est encore renforcé par les plates-formes d'IA conversationnelle, fondées sur des LLM comme GPT-4, Palmierou BLOOM, qui produisent du texte sans effort, aident à la programmation et offrent même un raisonnement mathématique.

D'un point de vue commercial, ces modèles deviennent précieux. Les entreprises les utilisent pour une multitude d'opérations, notamment la gestion des risques, l'optimisation des stocks et la prévision des besoins. Parmi les exemples notables, citons l'IA de Bing, BARD de Google et l'API ChatGPT.

Art

Le monde de l'image a connu des transformations spectaculaires grâce à l'IA générative, notamment depuis le lancement de DALL-E 2 en 2022. Cette technologie, capable de générer des images à partir de textes, a des implications à la fois artistiques et professionnelles. Midjourney, par exemple, a exploité cette technologie pour produire des images d'un réalisme impressionnant. Cet article récent démystifie Midjourney dans un guide détaillé, élucidant à la fois la plate-forme et ses subtilités d'ingénierie rapide. De plus, des plates-formes comme Alpaca AI et Photoroom AI utilisent l'IA générative pour des fonctionnalités avancées d'édition d'images telles que la suppression d'arrière-plan, la suppression d'objets et même la restauration de visage.

Production vidéo

La production vidéo, bien qu'encore balbutiante dans le domaine de l'IA générative, présente des avancées prometteuses. Des plateformes comme Imagen Video, Meta Make A Video et Runway Gen-2 repoussent les limites du possible, même si des résultats véritablement réalistes restent à venir. Ces modèles offrent une utilité considérable pour la création de vidéos numériques, avec des applications comme Synthesia et SuperCreator en tête. Tavus AI, notamment, offre un argument de vente unique en personnalisant les vidéos pour chaque public, une véritable aubaine pour les entreprises.

Création de code

Le codage, aspect indispensable de notre monde numérique, n'a pas échappé à l'IA générative. Bien que ChatGPT soit un outil privilégié, plusieurs autres applications d'IA ont été développées à cette fin. Ces plateformes, telles que GitHub Copilot, Alphacode et CodeComplete, servent d'assistants de codage et peuvent même générer du code à partir d'invites textuelles. L'adaptabilité de ces outils est fascinante. Codex, moteur de GitHub Copilot, peut être adapté au style de codage de chacun, soulignant ainsi le potentiel de personnalisation de l'IA générative.

Conclusion

Alliant créativité humaine et calcul machine, il est devenu un outil précieux, avec des plateformes comme ChatGPT et DALL-E 2 qui repoussent les limites du possible. De la création de contenu textuel à la création de chefs-d'œuvre visuels, leurs applications sont vastes et variées.

Comme pour toute technologie, les implications éthiques sont primordiales. Si l'IA générative promet une créativité sans limites, il est crucial de l'utiliser de manière responsable, en étant conscient des biais potentiels et du potentiel de manipulation des données.

Avec des outils comme ChatGPT de plus en plus accessibles, c'est le moment idéal pour tâter le terrain et expérimenter. Que vous soyez artiste, codeur ou passionné de technologie, le monde de l'IA générative regorge de possibilités à explorer. La révolution n'est pas à l'horizon ; elle est là, maintenant. Alors, lancez-vous !

Rubriques connexes:chat gpt DALL-E l'apprentissage en profondeur IA générative LLM À mi-parcours

L'IA générative occupe le devant de la scène à la conférence Ai2023 4

Ne manquez pas

Capacités de raisonnement analogique de l'IA : défier l'intelligence humaine ?

Ayush Mittal

J'ai passé les cinq dernières années à m'immerger dans le monde fascinant du Machine Learning et du Deep Learning. Ma passion et mon expertise m'ont amené à contribuer à plus de 50 projets de génie logiciel divers, avec un accent particulier sur l'IA/ML. Ma curiosité continue m'a également attiré vers le traitement automatique du langage naturel, un domaine que j'ai hâte d'explorer davantage.