Suivez nous sur

IA gĂ©nĂ©rative : l'idĂ©e derrière CHATGPT, Dall-E, Midjourney et plus encore

Intelligence Artificielle

IA gĂ©nĂ©rative : l'idĂ©e derrière CHATGPT, Dall-E, Midjourney et plus encore

mm
IA générative - Invite de mi-parcours

Le monde de l'art, de la communication et de la façon dont nous percevons la réalité se transforme rapidement. Si nous regardons l'histoire de l'innovation humaine, nous pourrions considérer l'invention de la roue ou la découverte de l'électricité comme des sauts monumentaux. Aujourd'hui, une nouvelle révolution est en cours : combler le fossé entre la créativité humaine et le calcul automatique. C'est l'IA générative.

Les modèles génératifs ont brouillé la frontière entre les humains et les machines. Avec l'avènement de modèles comme GPT-4, qui utilise des modules de transformation, nous nous sommes rapprochés de la génération de langage naturel et riche en contexte. Ces avancées ont alimenté des applications dans la création de documents, les systèmes de dialogue chatbot et même la composition de musique synthétique.

Les décisions récentes des Big-Tech soulignent son importance. Microsoft est déjà abandon de son application Cortana ce mois-ci pour donner la priorité aux nouvelles innovations de l'IA générative, comme Bing Chat. Apple a également consacré une partie importante de son Budget R&D de 22.6 milliards de dollars à l'IA générative, comme l'a indiqué le PDG Tim Cook.

Une nouvelle ère de modèles : génératifs vs. Discriminatif

L'histoire de l'IA générative ne concerne pas seulement ses applications, mais fondamentalement son fonctionnement interne. Dans l'écosystème de l'intelligence artificielle, deux modèles existent : discriminatif et génératif.

Les modèles discriminants sont ce que la plupart des gens rencontrent au quotidien. Ces algorithmes prennent des données d'entrée, comme un texte ou une image, et les associent à un résultat cible, comme une traduction de mot ou un diagnostic médical. Ils fonctionnent à la fois comme cartographie et comme prédiction.

Les modèles gĂ©nĂ©ratifs, quant Ă  eux, sont des crĂ©ateurs. Ils ne se contentent pas d'interprĂ©ter ou de prĂ©dire ; ils gĂ©nèrent de nouvelles sorties complexes Ă  partir de vecteurs de nombres qui, souvent, ne sont mĂŞme pas liĂ©s Ă  des valeurs rĂ©elles.

 

Types d'IA gĂ©nĂ©rative : texte Ă  texte, texte Ă  image (GPT, DALL-E, Midjourney)

Les technologies derrière les modèles génératifs

Les modèles génératifs doivent leur existence aux réseaux neuronaux profonds, des structures sophistiquées conçues pour imiter le fonctionnement du cerveau humain. En capturant et en traitant les variations multidimensionnelles des données, ces réseaux constituent l'épine dorsale de nombreux modèles génératifs.

Comment ces modèles génératifs prennent-ils vie ? Habituellement, ils sont construits avec des réseaux de neurones profonds, optimisés pour capturer les variations multiformes des données. Un excellent exemple est le Réseau d'adversaire génératif (GAN), où deux réseaux de neurones, le générateur et le discriminateur, rivalisent et apprennent l'un de l'autre dans une relation enseignant-élève unique. De la peinture au transfert de style, de la composition musicale au jeu, ces modèles évoluent et se développent d'une manière inimaginable auparavant.

Cela ne s’arrête pas aux GAN. Autoencodeurs variationnels (VAE), sont un autre acteur incontournable dans le domaine des modèles génératifs. Les VAE se distinguent par leur capacité à créer des images photoréalistes à partir de nombres apparemment aléatoires. Comment? Le traitement de ces nombres à travers un vecteur latent donne naissance à un art qui reflète les complexités de l'esthétique humaine.

Types d'IA gĂ©nĂ©rative : texte Ă  texte, texte Ă  image

Transformateurs et LLM

Le papier "L'attention est tout ce dont vous avez besoin» de Google Brain a marqué un changement dans notre façon de penser la modélisation de texte. Au lieu d'architectures complexes et séquentielles comme les réseaux de neurones récurrents (RNN) ou les réseaux de neurones convolutifs (CNN), le modèle Transformer a introduit le concept d'attention, qui signifiait essentiellement se concentrer sur différentes parties du texte saisi en fonction du contexte. L’un des principaux avantages de cette solution était la facilité de parallélisation. Contrairement aux RNN qui traitent le texte de manière séquentielle, ce qui les rend plus difficiles à mettre à l'échelle, les Transformers peuvent traiter des parties du texte simultanément, ce qui rend la formation plus rapide et plus efficace sur de grands ensembles de données.

Dans un texte long, tous les mots ou phrases que vous lisez n'ont pas la même importance. Certaines parties demandent plus d'attention en fonction du contexte. Cette capacité à déplacer notre attention en fonction de la pertinence est ce que le mécanisme d'attention imite.

Pour comprendre cela, imaginez la phrase suivante : « Unite AI, Publier des actualitĂ©s sur l'IA et la robotique Â». PrĂ©dire le mot suivant nĂ©cessite de comprendre ce qui compte le plus dans le contexte prĂ©cĂ©dent. Le terme « Robotique Â» pourrait suggĂ©rer que le mot suivant pourrait ĂŞtre liĂ© Ă  une avancĂ©e ou un Ă©vĂ©nement spĂ©cifique dans le domaine de la robotique, tandis que « Publier Â» pourrait indiquer que le contexte suivant pourrait se pencher sur une publication ou un article rĂ©cent.

Explication du mécanisme d'auto-attention sur une phrase de démonstration
Illustration de l'attention personnelle

Les mécanismes d'attention des Transformers sont conçus pour atteindre cette focalisation sélective. Ils évaluent l'importance des différentes parties du texte saisi et décident où « regarder » lors de la génération d'une réponse. Il s'agit d'une rupture avec les architectures plus anciennes, comme les RNN, qui tentaient de concentrer l'essentiel du texte saisi dans un seul « état » ou « mémoire ».

Le fonctionnement de l'attention peut ĂŞtre comparĂ© Ă  un système de recherche clĂ©-valeur. Pour prĂ©dire le mot suivant dans une phrase, chaque mot prĂ©cĂ©dent offre une « clĂ© Â» suggĂ©rant sa pertinence potentielle. Selon leur adĂ©quation au contexte (ou Ă  la requĂŞte), ces clĂ©s confèrent une « valeur Â» ou un poids Ă  la prĂ©diction.

Ces modèles avancés d'apprentissage en profondeur de l'IA s'intègrent parfaitement dans diverses applications, des améliorations du moteur de recherche de Google avec BERT à Copilot de GitHub, qui exploite la capacité des grands modèles de langage (LLM) à convertir de simples extraits de code en codes sources entièrement fonctionnels.

Les grands modèles de langage (LLM) tels que GPT-4, Bard et LLaMA sont des constructions colossales conçues pour déchiffrer et générer du langage humain, du code, etc. Leur taille immense, allant de milliards à des billions de paramètres, est l'une des caractéristiques déterminantes. Ces LLM sont alimentés avec de grandes quantités de données textuelles, ce qui leur permet de saisir les subtilités du langage humain. Une caractéristique frappante de ces modèles est leur aptitude à «quelques coups" apprentissage. Contrairement aux modèles conventionnels qui nécessitent de grandes quantités de données de formation spécifiques, les LLM peuvent généraliser à partir d'un nombre très limité d'exemples (ou "coups")

État des grands modèles linguistiques (LLM) après la mi-2023

Nom du modèle Développeur Paramètres Disponibilité et accès Caractéristiques et remarques notables
GPT-4 OpenAI 1.5 Trillions Pas Open Source, accès API uniquement Des performances impressionnantes sur une variété de tâches peuvent traiter des images et du texte, longueur d'entrée maximale de 32,768 XNUMX jetons
GPT-3 OpenAI 175 milliards Pas Open Source, accès API uniquement Capacités d'apprentissage démontrées à quelques coups et à zéro coup. Effectue la complétion de texte en langage naturel.
BLOOM GrandeScience 176 milliards Modèle téléchargeable, API hébergée disponible LLM multilingue développé par une collaboration mondiale. Prend en charge 13 langages de programmation.
LeMDA Google 173 milliards Pas Open Source, pas d'API ni de téléchargement Formé au dialogue pourrait apprendre à parler de pratiquement n'importe quoi
MT-NLG NVIDIA/Microsoft 530 milliards Accès API par application Utilise l'architecture Megatron basée sur un transformateur pour diverses tâches NLP.
Lama Méta IA 7B à ​​65B) Téléchargeable par application Destiné à démocratiser l'IA en offrant un accès aux chercheurs, aux gouvernements et aux universités.

Comment les LLM sont-ils utilisĂ©s ?

Les LLM peuvent ĂŞtre utilisĂ©s de plusieurs manières, notamment :

  1. Utilisation directe : Utilisation simple d'un LLM pré-formé pour la génération ou le traitement de texte. Par exemple, utiliser GPT-4 pour écrire un article de blog sans aucun réglage supplémentaire.
  2. Mise au point : adapter un LLM prĂ©-entraĂ®nĂ© Ă  une tâche spĂ©cifique, une mĂ©thode connue sous le nom d'apprentissage par transfert. Un exemple serait de personnaliser T5 pour gĂ©nĂ©rer des rĂ©sumĂ©s de documents dans un secteur spĂ©cifique.
  3. RĂ©cupĂ©ration d'informations : utilisation de LLM, tels que BERT ou GPT, dans le cadre d'architectures plus vastes pour dĂ©velopper des systèmes capables de rĂ©cupĂ©rer et de catĂ©goriser des informations.
Réglage fin de ChatGPT par IA générative
Architecture de réglage fin de ChatGPT

Attention multi-tĂŞte : pourquoi une quand on peut en avoir plusieurs ?

Cependant, s'appuyer sur un seul mécanisme d'attention peut être limitant. Différents mots ou séquences dans un texte peuvent avoir différents types de pertinence ou d'associations. C'est là qu'intervient l'attention multi-têtes. Au lieu d'un ensemble de pondérations d'attention, l'attention multi-têtes utilise plusieurs ensembles, permettant au modèle de capturer une plus grande variété de relations dans le texte d'entrée. Chaque "tête" d'attention peut se concentrer sur différentes parties ou aspects de l'entrée, et leurs connaissances combinées sont utilisées pour la prédiction finale.

ChatGPT : l'outil d'IA gĂ©nĂ©rative le plus populaire

Dès sa création en 2018, le modèle GPT reposait essentiellement sur 12 couches, 12 têtes d'attention et 120 millions de paramètres, principalement entraînés sur un jeu de données appelé BookCorpus. Ce fut un début impressionnant, offrant un aperçu de l'avenir des modèles linguistiques.

Le GPT-2, dévoilé en 2019, affichait une multiplication par quatre des couches et des têtes d'attention. De manière significative, son nombre de paramètres est monté en flèche à 1.5 milliard. Cette version améliorée tire sa formation de WebText, un ensemble de données enrichi de 40 Go de texte provenant de divers liens Reddit.

GPT-3, lancé en mai 2020, avait 96 couches, 96 têtes d'attention et un nombre massif de paramètres de 175 milliards. Ce qui distingue GPT-3, ce sont ses diverses données de formation, englobant CommonCrawl, WebText, Wikipedia anglais, des corpus de livres et d'autres sources, combinant pour un total de 570 Go.

Les subtilitĂ©s du fonctionnement de ChatGPT restent un secret bien gardĂ©. Cependant, un processus appelĂ© « apprentissage par renforcement Ă  partir du feedback humain Â» (RLHF) est reconnu comme essentiel. Issue d'un prĂ©cĂ©dent projet ChatGPT, cette technique a contribuĂ© Ă  affiner le modèle GPT-3.5 afin de mieux l'aligner sur les instructions Ă©crites.

La formation de ChatGPT comprend une approche Ă  trois niveaux :

  1. RĂ©glage fin supervisĂ© : implique la conservation d'entrĂ©es et de sorties conversationnelles Ă©crites par l'homme pour affiner le modèle GPT-3.5 sous-jacent.
  2. Modélisation de récompense : les humains classent les différents résultats du modèle en fonction de leur qualité, ce qui contribue à former un modèle de récompense qui note chaque résultat en tenant compte du contexte de la conversation.
  3. Apprentissage par renforcement : Le contexte conversationnel sert de toile de fond où le modèle sous-jacent propose une réponse. Cette réponse est évaluée par le modèle de récompense et le processus est optimisé à l'aide d'un algorithme nommé optimisation de la politique proximale (PPO).

Pour ceux qui ne font que plonger leurs orteils dans ChatGPT, un guide de dĂ©marrage complet peut ĂŞtre trouvĂ© en cliquant ici. Si vous souhaitez approfondir l'ingĂ©nierie des invites avec ChatGPT, nous avons Ă©galement un guide avancĂ© qui met en lumière les techniques d'invite les plus rĂ©centes et les plus avancĂ©es, disponible Ă  l'adresse 'ChatGPT et ingĂ©nierie avancĂ©e des invites : conduire l'Ă©volution de l'IA'.

Modèles de diffusion et multimodaux

Alors que des modèles comme les VAE et les GAN génèrent leurs sorties en un seul passage, donc enfermés dans tout ce qu'ils produisent, les modèles de diffusion ont introduit le concept de 'raffinement itératif'. Grâce à cette méthode, ils reviennent en arrière, affinant les erreurs des étapes précédentes et produisant progressivement un résultat plus raffiné.

Au centre des modèles de diffusion se trouve l'art de « la corruption« Â» et « affinement Â». Lors de leur phase d'apprentissage, une image typique est progressivement corrompue par l'ajout de niveaux de bruit variables. Cette version bruitĂ©e est ensuite transmise au modèle, qui tente de la « dĂ©bruiter Â» ou de la « dĂ©corrompre Â». Grâce Ă  plusieurs cycles, le modèle devient expert en restauration, comprenant les aberrations subtiles comme significatives.

IA générative - Invite de mi-parcours
Image générée à partir de Midjourney

Le processus de gĂ©nĂ©ration de nouvelles images après l'entraĂ®nement est fascinant. Partant d'une entrĂ©e entièrement alĂ©atoire, le modèle est continuellement affinĂ© grâce aux prĂ©dictions. L'objectif est d'obtenir une image parfaite en un minimum d'Ă©tapes. Le contrĂ´le du niveau de corruption s'effectue grâce Ă  un « programme de bruit Â», un mĂ©canisme qui rĂ©git la quantitĂ© de bruit appliquĂ©e Ă  diffĂ©rentes Ă©tapes. Un planificateur, comme on en trouve dans des bibliothèques comme « De parfum D'intĂ©rieur», dicte la nature de ces restitutions bruitĂ©es basĂ©es sur des algorithmes Ă©tablis.

Une colonne vertébrale architecturale essentielle pour de nombreux modèles de diffusion est le UNet— un réseau neuronal convolutif conçu pour les tâches nécessitant des sorties reflétant la dimension spatiale des entrées. Il s'agit d'un mélange de couches de sous-échantillonnage et de suréchantillonnage, étroitement connectées pour conserver des données haute résolution, essentielles aux sorties liées aux images.

En approfondissant le domaine des modèles génératifs, OpenAI DALL-E2 apparaît comme un brillant exemple de la fusion des capacités textuelles et visuelles de l'IA. Il utilise une structure à trois niveaux :

DALL-E 2 prĂ©sente une architecture en trois volets :

  1. Encodeur de texte : Il transforme l'invite textuelle en une intĂ©gration conceptuelle dans un espace latent. Ce modèle ne part pas de zĂ©ro. Il s'appuie sur le prĂ©-entraĂ®nement Contrastive Language–Image d'OpenAI (CLIP) jeu de donnĂ©es comme base. CLIP sert de pont entre les donnĂ©es visuelles et textuelles en apprenant des concepts visuels en utilisant le langage naturel. Grâce Ă  un mĂ©canisme connu sous le nom d'apprentissage contrastif, il identifie et associe les images Ă  leurs descriptions textuelles correspondantes.
  2. Le Prior : L'incorporation de texte dérivée de l'encodeur est ensuite convertie en une incorporation d'image. DALL-E 2 a testé à la fois les méthodes autorégressives et de diffusion pour cette tâche, cette dernière présentant des résultats supérieurs. Les modèles autorégressifs, comme on le voit dans Transformers et PixelCNN, génèrent des sorties en séquences. D'autre part, les modèles de diffusion, comme celui utilisé dans DALL-E 2, transforment le bruit aléatoire en incorporations d'images prédites à l'aide d'incorporations de texte.
  3. Le dĂ©codeur : Point culminant du processus, cette partie gĂ©nère le rendu visuel final Ă  partir du texte et de l'image incorporĂ©e lors de la phase prĂ©cĂ©dente. Le dĂ©codeur de DALL.E 2 doit son architecture Ă  un autre modèle, GLISSER, qui peut Ă©galement produire des images rĂ©alistes Ă  partir d'indices textuels.
Architecture du modèle DALL-E (diffusion multi modèle)
Architecture simplifiée du modèle DALL-E

Les utilisateurs de Python intéressés par Langchain devriez consulter notre didacticiel détaillé couvrant tout, des principes de base aux techniques avancées.

Applications de l'IA générative

Domaines textuels

En commençant par le texte, l'IA générative a été fondamentalement modifiée par des chatbots comme ChatGPT. S'appuyant fortement sur le traitement du langage naturel (NLP) et les grands modèles de langage (LLM), ces entités sont habilitées à effectuer des tâches allant de la génération de code et de la traduction du langage à la synthèse et à l'analyse des sentiments. ChatGPT, par exemple, a été largement adopté, devenant un incontournable pour des millions de personnes. Ceci est encore renforcé par les plates-formes d'IA conversationnelle, fondées sur des LLM comme GPT-4, Palmierou BLOOM, qui produisent du texte sans effort, aident à la programmation et offrent même un raisonnement mathématique.

D'un point de vue commercial, ces modèles deviennent précieux. Les entreprises les utilisent pour une multitude d'opérations, notamment la gestion des risques, l'optimisation des stocks et la prévision des besoins. Parmi les exemples notables, citons l'IA de Bing, BARD de Google et l'API ChatGPT.

Art

Le monde de l'image a connu des transformations spectaculaires grâce à l'IA générative, notamment depuis le lancement de DALL-E 2 en 2022. Cette technologie, capable de générer des images à partir de textes, a des implications à la fois artistiques et professionnelles. Midjourney, par exemple, a exploité cette technologie pour produire des images d'un réalisme impressionnant. Cet article récent démystifie Midjourney dans un guide détaillé, élucidant à la fois la plate-forme et ses subtilités d'ingénierie rapide. De plus, des plates-formes comme Alpaca AI et Photoroom AI utilisent l'IA générative pour des fonctionnalités avancées d'édition d'images telles que la suppression d'arrière-plan, la suppression d'objets et même la restauration de visage.

Production vidéo

La production vidéo, bien qu'encore balbutiante dans le domaine de l'IA générative, présente des avancées prometteuses. Des plateformes comme Imagen Video, Meta Make A Video et Runway Gen-2 repoussent les limites du possible, même si des résultats véritablement réalistes restent à venir. Ces modèles offrent une utilité considérable pour la création de vidéos numériques, avec des applications comme Synthesia et SuperCreator en tête. Tavus AI, notamment, offre un argument de vente unique en personnalisant les vidéos pour chaque public, une véritable aubaine pour les entreprises.

Création de code

Le codage, aspect indispensable de notre monde numérique, n'a pas échappé à l'IA générative. Bien que ChatGPT soit un outil privilégié, plusieurs autres applications d'IA ont été développées à cette fin. Ces plateformes, telles que GitHub Copilot, Alphacode et CodeComplete, servent d'assistants de codage et peuvent même générer du code à partir d'invites textuelles. L'adaptabilité de ces outils est fascinante. Codex, moteur de GitHub Copilot, peut être adapté au style de codage de chacun, soulignant ainsi le potentiel de personnalisation de l'IA générative.

Conclusion

Alliant créativité humaine et calcul machine, il est devenu un outil précieux, avec des plateformes comme ChatGPT et DALL-E 2 qui repoussent les limites du possible. De la création de contenu textuel à la création de chefs-d'œuvre visuels, leurs applications sont vastes et variées.

Comme pour toute technologie, les implications éthiques sont primordiales. Si l'IA générative promet une créativité sans limites, il est crucial de l'utiliser de manière responsable, en étant conscient des biais potentiels et du potentiel de manipulation des données.

Avec des outils comme ChatGPT de plus en plus accessibles, c'est le moment idĂ©al pour tâter le terrain et expĂ©rimenter. Que vous soyez artiste, codeur ou passionnĂ© de technologie, le monde de l'IA gĂ©nĂ©rative regorge de possibilitĂ©s Ă  explorer. La rĂ©volution n'est pas Ă  l'horizon ; elle est lĂ , maintenant. Alors, lancez-vous !

J'ai passé les cinq dernières années à m'immerger dans le monde fascinant du Machine Learning et du Deep Learning. Ma passion et mon expertise m'ont amené à contribuer à plus de 50 projets de génie logiciel divers, avec un accent particulier sur l'IA/ML. Ma curiosité continue m'a également attiré vers le traitement automatique du langage naturel, un domaine que j'ai hâte d'explorer davantage.