Kunstmatige intelligentie

Generatieve AI: Het Idee Achter CHATGPT, Dall-E, Midjourney en Meer

Published August 8, 2023

Updated April 28, 2026

Aayush Mittal Mittal

De wereld van kunst, communicatie en hoe we de realiteit waarnemen verandert snel. Als we terugkijken op de geschiedenis van menselijke innovatie, kunnen we de uitvinding van het wiel of de ontdekking van elektriciteit beschouwen als monumentale sprongen. Vandaag de dag vindt een nieuwe revolutie plaats – de kloof tussen menselijke creativiteit en machineberekeningen overbruggen. Dat is Generatieve AI.

Generatieve modellen hebben de grens tussen mensen en machines vervaagd. Met de komst van modellen zoals GPT-4, die transformermodules gebruiken, zijn we dichter bij natuurlijke en contextrijke taalgeneratie gekomen. Deze vooruitgang heeft toepassingen mogelijk gemaakt in documentcreatie, chatbotdialoogsystemen en zelfs synthetische muzieksamenstelling.

Recente beslissingen van Big-Tech benadrukken de belangrijkheid ervan. Microsoft stopt deze maand al met de Cortana-app om prioriteit te geven aan nieuwere Generatieve AI-innovaties, zoals Bing Chat. Apple heeft ook een aanzienlijk deel van zijn budget van 22,6 miljard dollar voor onderzoek en ontwikkeling toegewezen aan generatieve AI, zoals aangegeven door CEO Tim Cook.

Een Nieuwe Era van Modellen: Generatief Vs. Discriminatief

Het verhaal van Generatieve AI is niet alleen over zijn toepassingen, maar fundamenteel over zijn interne werking. In het ecosysteem van kunstmatige intelligentie bestaan twee modellen: discriminatief en generatief.

Discriminatieve modellen zijn wat de meeste mensen in het dagelijks leven tegenkomen. Deze algoritmes nemen invoergegevens, zoals tekst of een afbeelding, en koppelen deze aan een doeluitvoer, zoals een woordvertaling of medische diagnose. Ze gaan over kaarten en voorspellingen.

Generatieve modellen zijn daarentegen creators. Ze interpreteren of voorspellen niet alleen; ze genereren nieuwe, complexe uitvoer van vectoren van nummers die vaak niet eens verwant zijn aan werkelijke waarden.

De Technologieën Achter Generatieve Modellen

Generatieve modellen danken hun bestaan aan diepe neurale netwerken, geavanceerde structuren die zijn ontworpen om de functionaliteit van de menselijke hersenen na te bootsen. Door multifacette variaties in gegevens te detecteren en te verwerken, dienen deze netwerken als de ruggengraat van talloze generatieve modellen.

Hoe komen deze generatieve modellen tot leven? Meestal worden ze gebouwd met diepe neurale netwerken, geoptimaliseerd om de multifacette variaties in gegevens te detecteren. Een voorbeeld is het Generatieve Adversarial Network (GAN), waarin twee neurale netwerken, de generator en de discriminator, concurreren en van elkaar leren in een unieke leraar-leerlingrelatie. Van schilderijen tot stijltransfer, van muzieksamenstelling tot game-spelen, deze modellen evolueren en breiden zich uit op manieren die eerder ondenkbaar waren.

Dit stopt niet bij GANs. Variational Autoencoders (VAEs) zijn een andere belangrijke speler in het veld van generatieve modellen. VAEs onderscheiden zich door hun vermogen om fotorealistische afbeeldingen te creëren vanuit ogenschijnlijk willekeurige nummers. Hoe? Door deze nummers te verwerken via een latent vector, wordt kunst geboren die de complexiteit van menselijke esthetiek weerspiegelt.

Generatieve AI Types: Text to Text, Text to Image

Transformers & LLM

Het paper “Attention Is All You Need” van Google Brain markeerde een verschuiving in de manier waarop we over taalmodellering denken. In plaats van complexe en sequentiële architectuur zoals Recurrent Neural Networks (RNNs) of Convolutional Neural Networks (CNNs), introduceerde het Transformer-model het concept van aandacht, wat eigenlijk betekende dat het zich op verschillende delen van de invoertekst richtte, afhankelijk van de context. Een van de belangrijkste voordelen hiervan was de eenvoud van parallelisatie. In tegenstelling tot RNNs, die tekst sequentieel verwerken, waardoor ze moeilijker schaalbaar zijn, kunnen Transformers delen van de tekst gelijktijdig verwerken, waardoor training sneller en efficiënter is op grote datasets.

: Transformer-model architectuur

In een lange tekst heeft niet elk woord of zin dat u leest hetzelfde belang. Sommige delen vereisen meer aandacht op basis van de context. Dit vermogen om onze focus te verleggen op basis van relevantie is wat de aandachtmachine imiteert.

Om dit te begrijpen, denk aan een zin: “Unite AI Publish AI and Robotics news.” Nu moet het voorspellen van het volgende woord een begrip van wat het meest relevant is in de voorgaande context. De term ‘Robotics’ kan suggereren dat het volgende woord gerelateerd is aan een specifieke vooruitgang of gebeurtenis in het veld van robotica, terwijl ‘Publish’ kan aangeven dat de volgende context mogelijk ingaat op een recente publicatie of artikel.

: Self-Attention Illustration

Aandachtmachines in Transformers zijn ontworpen om deze selectieve focus te bereiken. Ze meten het belang van verschillende delen van de invoertekst en beslissen waar ze “naar moeten kijken” bij het genereren van een reactie. Dit is een afwijking van oudere architectuur zoals RNNs die probeerden de essentie van alle invoertekst in een enkele ‘staat’ of ‘geheugen’ te proppen.

De werking van aandacht kan worden vergeleken met een sleutel-waarde-opvragingssysteem. Bij het proberen het volgende woord in een zin te voorspellen, biedt elk voorgaand woord een ‘sleutel’ die zijn potentiële relevantie suggereert, en op basis van hoe goed deze sleutels overeenkomen met de huidige context (of query), dragen ze een ‘waarde’ of gewicht bij aan de voorspelling.

Deze geavanceerde AI-diepe leermodellen zijn naadloos geïntegreerd in diverse toepassingen, van Google’s zoekmachineverbeteringen met BERT tot GitHub’s Copilot, die de mogelijkheden van Large Language Models (LLMs) benut om eenvoudige codefragmenten om te zetten in volledig functionele broncodes.

Large Language Models (LLMs) zoals GPT-4, Bard en LLaMA zijn kolossale constructies ontworpen om menselijke taal, code en meer te ontcijferen en te genereren. Hun immense grootte, variërend van miljarden tot triljarden parameters, is een van de kenmerkende eigenschappen. Deze LLMs worden gevoed met overvloedige hoeveelheden tekstgegevens, waardoor ze de nuances van menselijke taal kunnen begrijpen. Een opvallend kenmerk van deze modellen is hun vermogen tot “few-shot” leren. In tegenstelling tot conventionele modellen die grote hoeveelheden specifieke trainingsgegevens nodig hebben, kunnen LLMs generaliseren vanuit een zeer beperkt aantal voorbeelden (of “shots”)

State of Large Language Models (LLMs) als van post-mid 2023

Model Naam	Ontwikkelaar	Parameters	Beschikbaarheid en Toegang	Opmerkelijke Functies & Opmerkingen
GPT-4	OpenAI	1,5 Triljoen	Niet Open Source, Alleen API-toegang	Indrukwekkende prestaties op een verscheidenheid aan taken, kan afbeeldingen en tekst verwerken, maximum invoerlengte 32.768 tokens
GPT-3	OpenAI	175 miljard	Niet Open Source, Alleen API-toegang	Heeft few-shot en zero-shot learning mogelijkheden gedemonstreerd. Voert tekstvoltooiing in natuurlijke taal uit.
BLOOM	BigScience	176 miljard	Downloadbaar Model, Gastheer API Beschikbaar	Multitalig LLM ontwikkeld door wereldwijde samenwerking. Ondersteunt 13 programmeertalen.
LaMDA	Google	173 miljard	Niet Open Source, Geen API of Download	Getraind op dialoog, kon leren over vrijwel elk onderwerp te praten
MT-NLG	Nvidia/Microsoft	530 miljard	API-toegang op aanvraag	Maakt gebruik van transformer-gebaseerde Megatron-architectuur voor diverse NLP-taken.
LLaMA	Meta AI	7B tot 65B)	Downloadbaar op aanvraag	Bedoeld om AI te democratiseren door toegang te bieden aan onderzoekers, overheden en academici.

Hoe Worden LLMs Gebruikt?

LLMs kunnen op verschillende manieren worden gebruikt, waaronder:

Directe Gebruik: Het gebruik van een vooraf getrainde LLM voor tekstgeneratie of -verwerking. Bijvoorbeeld het gebruik van GPT-4 om een blogpost te schrijven zonder enige verdere fijntuning.
Fijntuning: Het aanpassen van een vooraf getrainde LLM voor een specifieke taak, een methode bekend als transfer learning. Een voorbeeld zou zijn het aanpassen van T5 om samenvattingen te genereren voor documenten in een specifieke industrie.
Informatie-opvraging: Het gebruik van LLMs, zoals BERT of GPT, als onderdeel van grotere architectuur om systemen te ontwikkelen die informatie kunnen ophalen en categoriseren.

: ChatGPT Fijntuning Architectuur

Multi-head Aandacht: Waarom Eén Als Je Meer Kan Hebben?

Echter, afhankelijk zijn van een enkele aandachtmachine kan beperkend zijn. Verschillende woorden of sequenties in een tekst kunnen verschillende soorten relevantie of associaties hebben. Dit is waar multi-head aandacht om de hoek komt. In plaats van één set aandachtsgewichten, gebruikt multi-head aandacht meerdere sets, waardoor het model een rijker scala aan relaties in de invoertekst kan detecteren. Elke aandacht “head” kan zich richten op verschillende delen of aspecten van de invoer, en hun gecombineerde kennis wordt gebruikt voor de definitieve voorspelling.

ChatGPT: Het Meest Populaire Generatieve AI-hulpmiddel

Beginnend met GPT’s introductie in 2018, was het model eigenlijk gebouwd op de basis van 12 lagen, 12 aandachtshoofden en 120 miljoen parameters, voornamelijk getraind op een dataset genaamd BookCorpus. Dit was een indrukwekkende start, die een glimp gaf van de toekomst van taalmodellen.

GPT-2, onthuld in 2019, bood een viermaal grotere toename in lagen en aandachtshoofden. Belangrijk was dat de parametercount naar 1,5 miljard steeg. Deze verbeterde versie was afgeleid van WebText, een dataset verrijkt met 40GB tekst van diverse Reddit-links.

GPT-3, gelanceerd in mei 2020, had 96 lagen, 96 aandachtshoofden en een enorme parametercount van 175 miljard. Wat GPT-3 onderscheidde, was de diverse trainingsdata, die onder andere CommonCrawl, WebText, Engelse Wikipedia, boekcorpora en andere bronnen omvatte, samen goed voor 570 GB.

De intrige van ChatGPT’s werking blijft een goed bewaard geheim. Echter, een proces genaamd ‘reinforcement learning from human feedback’ (RLHF) is bekend als cruciaal. Afkomstig van een eerder ChatGPT-project, was deze techniek essentieel bij het verfijnen van het GPT-3.5-model om meer in overeenstemming te zijn met geschreven instructies.

ChatGPT’s training bestaat uit een driedelige aanpak:

Begeleide fijntuning: Hierbij worden door mensen geschreven conversatie-invoer en -uitvoer gecureerd om het onderliggende GPT-3.5-model te verfijnen.
Beloningsmodellering: Mensen rangschikken verschillende modeluitvoer op basis van kwaliteit, waardoor een beloningsmodel getraind wordt dat elke uitvoer een score geeft met betrekking tot de context van het gesprek.
Versterking van het leerproces: De gesprekscontext dient als achtergrond waarin het onderliggende model een reactie voorstelt. Deze reactie wordt beoordeeld door het beloningsmodel, en het proces wordt geoptimaliseerd met behulp van een algoritme genaamd proximal policy optimization (PPO).

Voor diegenen die voor het eerst met ChatGPT werken, is een uitgebreide startersgids te vinden hier. Als u dieper wilt duiken in prompt-engineering met ChatGPT, hebben we ook een geavanceerde gids die de laatste en state-of-the-art prompttechnieken belicht, beschikbaar op ‘ChatGPT & Geavanceerde Prompt-Engineering: De AI-Evolutie Aandrijven‘.

Diffusie & Multimodale Modellen

Terwijl modellen zoals VAEs en GANs hun uitvoer genereren via een enkele doorloop, en dus vastzitten in wat ze produceren, hebben diffusiemodellen het concept van ‘iteratieve verfijning’ geïntroduceerd. Via deze methode keren ze terug, verfijnen fouten van eerdere stappen en produceren geleidelijk een meer gepolijst resultaat.

Centraal in diffusiemodellen staat de kunst van “corruptie” en “verfijning”. In hun trainingsfase wordt een typische afbeelding geleidelijk aan corruptie onderworpen door toevoeging van variabele niveaus van ruis. Deze ruisige versie wordt vervolgens aan het model gevoerd, dat probeert deze te ‘denoisen’ of ‘de-corrupteren’. Door meerdere rondes hiervan wordt het model bedreven in restauratie, en leert het zowel subtiele als significante afwijkingen begrijpen.

: Afbeelding gegenereerd uit Midjourney

Het proces van het genereren van nieuwe afbeeldingen na de training is intrigerend. Beginnend met een volledig gerandomiseerde invoer, wordt deze continu verfijnd met behulp van de voorspellingen van het model. Het doel is om een onberispelijke afbeelding te bereiken met het minimum aantal stappen. De controle over het corruptieniveau gebeurt via een “ruisplanning”, een mechanisme dat de aard van deze ruisige weergaven bepaalt op basis van gevestigde algoritmen.

Een essentiële architecturale ruggengraat voor veel diffusiemodellen is de U-Net — een convolutioneel neuronaal netwerk ontworpen voor taken die outputs vereisen die de ruimtelijke dimensie van de invoer weerspiegelen. Het is een mengeling van downsampling- en upsampling-lagen, die ingewikkeld met elkaar verbonden zijn om hoge resolutiegegevens te behouden, wat cruciaal is voor afbeeldingsgerelateerde outputs.

Dieper duikend in het rijk van generatieve modellen, komt OpenAI’s DALL-E 2 naar voren als een schitterend voorbeeld van de fusie van tekstuele en visuele AI-mogelijkheden. Het gebruikt een driedelige structuur:

DALL-E 2 toont een driedubbele architectuur:

Tekstencoder: Het transformeert de tekstprompt in een conceptuele embedding in een latent ruimte. Dit model begint niet van scratch. Het leunt op OpenAI’s Contrastive Language–Image Pre-training (CLIP) dataset als zijn fundament. CLIP dient als een brug tussen visuele en tekstuele gegevens door visuele concepten te leren met behulp van natuurlijke taal. Via een mechanisme genaamd contrastief leren, identificeert en matcht het afbeeldingen met hun overeenkomstige tekstuele beschrijvingen.
De Prior: De tekstembedding afgeleid van de encoder wordt vervolgens omgezet in een afbeeldingsembedding. DALL-E 2 testte zowel autoregressieve als diffusiemethoden voor deze taak, waarbij de laatste superieure resultaten liet zien. Autoregressieve modellen, zoals te zien in Transformers en PixelCNN, genereren outputs in sequenties. Aan de andere kant gebruiken diffusiemodellen, zoals die gebruikt in DALL-E 2, willekeurige ruis om voorspelde afbeeldingsembeddings te transformeren met behulp van tekstembeddings.
De Decoder: Het hoogtepunt van het proces, deze fase genereert de definitieve visuele output op basis van de tekstprompt en de afbeeldingsembedding uit de vorige fase. DALL-E 2’s decoder is gebaseerd op een ander model, GLIDE, dat eveneens realistische afbeeldingen kan produceren vanuit tekstuele aanwijzingen.

: Vereenvoudigde Architectuur van DALL-E Model

Python-gebruikers die geïnteresseerd zijn in Langchain moeten onze gedetailleerde tutorial bekijken, die alles behandelt van de basis tot geavanceerde technieken.

Toepassingen van Generatieve AI

Tekstuele Domeinen

Beginnend met tekst, heeft Generatieve AI fundamenteel veranderd door chatbots zoals ChatGPT. Deze entiteiten zijn sterk afhankelijk van Natural Language Processing (NLP) en large language models (LLMs) en zijn in staat om taken uit te voeren die variëren van codegeneratie en taalvertaling tot samenvatting en sentimentanalyse. ChatGPT heeft bijvoorbeeld een brede adoptie gezien en is een standaard geworden voor miljoenen. Dit wordt verder versterkt door conversatie-AI-platforms, gebaseerd op LLMs zoals GPT-4, PaLM, en BLOOM, die moeiteloos tekst produceren, helpen bij programmeren en zelfs wiskundige redenering bieden.

Vanuit een commercieel oogpunt worden deze modellen onmisbaar. Bedrijven gebruiken ze voor een veelvoud aan operaties, waaronder risicobeheer, voorraadoptimalisatie en vraagvoorspelling. Enkele opvallende voorbeelden zijn Bing AI, Google’s BARD en ChatGPT API.

Kunst

De wereld van afbeeldingen heeft een dramatische transformatie ondergaan met Generatieve AI, met name sinds de introductie van DALL-E 2 in 2022. Deze technologie, die afbeeldingen kan genereren vanuit tekstuele prompts, heeft zowel artistieke als professionele implicaties. Bijvoorbeeld, midjourney heeft deze technologie gebruikt om indrukwekkend realistische afbeeldingen te produceren. Deze recente post demystificeert Midjourney in een gedetailleerde gids, die zowel het platform als de prompt-engineeringaspecten belicht. Bovendien gebruiken platforms zoals Alpaca AI en Photoroom AI Generatieve AI voor geavanceerde afbeeldingsbewerking, zoals achtergrondverwijdering, objectverwijdering en zelfs gezichtsherstel.

Video Productie

Video-productie, hoewel nog in zijn kinderschoenen in het rijk van Generatieve AI, toont veelbelovende vooruitgang. Platforms zoals Imagen Video, Meta Make A Video en Runway Gen-2 duwen de grenzen van wat mogelijk is, zelfs als echt realistische outputs nog op de horizon liggen. Deze modellen bieden aanzienlijke nut voor het creëren van digitale menselijke video’s, met toepassingen zoals Synthesia en SuperCreator die de leiding nemen. Opvallend is dat Tavus AI een uniek verkoopargument biedt door video’s te personaliseren voor individuele kijkers, een zegen voor bedrijven.

Code Creatie

Coderen, een onmisbaar aspect van onze digitale wereld, is niet onaangetast gebleven door Generatieve AI. Hoewel ChatGPT een favoriet hulpmiddel is, zijn verschillende andere AI-toepassingen ontwikkeld voor coderingsdoeleinden. Deze platforms, zoals GitHub Copilot, Alphacode en CodeComplete, dienen als coderingsassistenten en kunnen zelfs code produceren vanuit tekstprompts. Wat intrigerend is, is de aanpasbaarheid van deze tools. Codex, de drijvende kracht achter GitHub Copilot, kan worden aangepast aan de coderingsstijl van een individu, onderstrepend het potential voor personalisatie van Generatieve AI.

Conclusie

Het combineren van menselijke creativiteit met machineberekeningen heeft het tot een onmisbaar hulpmiddel geëvolueerd, met platforms zoals ChatGPT en DALL-E 2 die de grenzen van wat denkbaar is verleggen. Van het creëren van tekstuele inhoud tot het vormgeven van visuele meesterwerken, hun toepassingen zijn uitgebreid en gevarieerd.

Zoals met elke technologie zijn ethische implicaties van het grootste belang. Terwijl Generatieve AI onbeperkte creativiteit belooft, is het cruciaal om het verantwoord te gebruiken, zich bewust van potentiële vooroordelen en de kracht van gegevensmanipulatie.

Met tools zoals ChatGPT die toegankelijker worden, is nu het perfecte moment om te experimenteren en de wateren te testen. Of u nu een kunstenaar, programmeur of technologie-enthousiast bent, het rijk van Generatieve AI is vol met mogelijkheden die wachten om te worden verkend. De revolutie is niet aan de horizon; het is hier en nu. Dus, Duik erin!

Related Topics:chatgpt DALL-E deep learning generative ai LLM Midjourney

Aayush Mittal

Ik heb de afgelopen vijf jaar mezelf ondergedompeld in de fascinerende wereld van Machine Learning en Deep Learning. Mijn passie en expertise hebben me geleid om bij te dragen aan meer dan 50 uiteenlopende software-engineeringprojecten, met een bijzondere focus op AI/ML. Mijn voortdurende nieuwsgierigheid heeft me ook aangetrokken tot Natural Language Processing, een vakgebied dat ik graag verder wil verkennen.