stomp Generatieve AI: het idee achter CHATGPT, Dall-E, Midjourney en meer - Unite.AI
Verbind je met ons

Artificial Intelligence

Generatieve AI: het idee achter CHATGPT, Dall-E, Midjourney en meer

mm
Bijgewerkt on
Generatieve AI - Prompt halverwege de reis

De wereld van kunst, communicatie en hoe we de werkelijkheid waarnemen verandert snel. Als we terugkijken op de geschiedenis van menselijke innovatie, zouden we de uitvinding van het wiel of de ontdekking van elektriciteit als monumentale sprongen kunnen beschouwen. Vandaag vindt er een nieuwe revolutie plaats die de kloof overbrugt tussen menselijke creativiteit en machinale berekeningen. Dat is generatieve AI.

Generatieve modellen hebben de grens tussen mens en machine vervaagd. Met de komst van modellen zoals GPT-4, die transformatormodules gebruiken, zijn we dichter bij natuurlijke en contextrijke taalgeneratie gekomen. Deze vooruitgang heeft geleid tot toepassingen in het maken van documenten, chatbot-dialoogsystemen en zelfs het componeren van synthetische muziek.

Recente Big-Tech-beslissingen onderstrepen het belang ervan. Microsoft is al stopzetting van de Cortana-app deze maand om prioriteit te geven aan nieuwere generatieve AI-innovaties, zoals Bing Chat. Apple heeft ook een aanzienlijk deel van zijn $ 22.6 miljard R&D-budget naar generatieve AI, zoals aangegeven door CEO Tim Cook.

Een nieuw tijdperk van modellen: generatief versus. Discriminerend

Het verhaal van generatieve AI gaat niet alleen over de toepassingen, maar fundamenteel over de innerlijke werking ervan. In het kunstmatige-intelligentie-ecosysteem bestaan ​​twee modellen: discriminerend en generatief.

Discriminerende modellen zijn wat de meeste mensen in het dagelijks leven tegenkomen. Deze algoritmen nemen invoergegevens, zoals een tekst of een afbeelding, en koppelen deze aan een doeluitvoer, zoals een woordvertaling of medische diagnose. Ze gaan over in kaart brengen en voorspellen.

Generatieve modellen daarentegen zijn scheppers. Ze interpreteren of voorspellen niet alleen; ze genereren nieuwe, complexe uitvoer van getallenvectoren die vaak niet eens gerelateerd zijn aan waarden uit de echte wereld.

 

Generatieve AI-typen: tekst naar tekst, tekst naar afbeelding (GPT, DALL-E, Midjourney)

De technologieën achter generatieve modellen

Generatieve modellen danken hun bestaan ​​aan diepe neurale netwerken, geavanceerde structuren die zijn ontworpen om de functionaliteit van het menselijk brein na te bootsen. Door veelzijdige variaties in gegevens vast te leggen en te verwerken, dienen deze netwerken als de ruggengraat van talloze generatieve modellen.

Hoe komen deze generatieve modellen tot leven? Meestal zijn ze gebouwd met diepe neurale netwerken, geoptimaliseerd om de veelzijdige variaties in gegevens vast te leggen. Een goed voorbeeld is de Generative Adversarial Network (GAN), waar twee neurale netwerken, de generator en de discriminator, met elkaar concurreren en van elkaar leren in een unieke leraar-leerlingrelatie. Van schilderijen tot stijloverdracht, van het componeren van muziek tot het spelen van games, deze modellen evolueren en breiden uit op manieren die voorheen ondenkbaar waren.

Dit houdt niet op bij GAN's. Variationele autoencoders (VAE's), zijn een andere cruciale speler op het gebied van generatieve modellen. VAE's vallen op door hun vermogen om fotorealistische afbeeldingen te maken van ogenschijnlijk willekeurige getallen. Hoe? Door deze getallen via een latente vector te verwerken, ontstaat kunst die de complexiteit van de menselijke esthetiek weerspiegelt.

Generatieve AI-typen: tekst naar tekst, tekst naar afbeelding

Transformatoren en LLM

De krant "Aandacht is alles wat je nodig hebt' van Google Brain markeerde een verschuiving in de manier waarop we over tekstmodellering denken. In plaats van complexe en sequentiële architecturen zoals Recurrent Neural Networks (RNNs) of Convolutional Neural Networks (CNNs), introduceerde het Transformer-model het concept van aandacht, wat in wezen betekende dat men zich concentreerde op verschillende delen van de invoertekst, afhankelijk van de context. Een van de belangrijkste voordelen hiervan was het gemak van parallellisatie. In tegenstelling tot RNN's die tekst sequentieel verwerken, waardoor ze moeilijker te schalen zijn, kunnen Transformers delen van de tekst tegelijkertijd verwerken, waardoor training op grote datasets sneller en efficiënter wordt.

Transformator-model architectuur

In een lange tekst is niet elk woord of elke zin die je leest even belangrijk. Sommige onderdelen vragen vanwege de context meer aandacht. Dit vermogen om onze focus te verschuiven op basis van relevantie is wat het aandachtsmechanisme nabootst.

Denk aan een zin om dit te begrijpen: "Unite AI Publiceer nieuws over AI en Robotica." Nu vereist het voorspellen van het volgende woord een goed begrip van wat er het meest toe doet in de vorige context. De term 'Robotica' zou kunnen suggereren dat het volgende woord gerelateerd zou kunnen zijn aan een specifieke vooruitgang of gebeurtenis op het gebied van robotica, terwijl 'Publiceren' zou kunnen aangeven dat de volgende context zou kunnen ingaan op een recente publicatie of artikel.

Self-Attention Mechanism uitleg over een demo-zin
Zelfaandacht Illustratie

Aandachtsmechanismen in Transformers zijn ontworpen om deze selectieve focus te bereiken. Ze meten het belang van verschillende delen van de invoertekst en beslissen waar ze moeten "kijken" bij het genereren van een antwoord. Dit is een afwijking van oudere architecturen zoals RNN's die probeerden de essentie van alle invoertekst in een enkele 'staat' of 'geheugen' te proppen.

De werking van aandacht kan worden vergeleken met een sleutel-waarde-ophaalsysteem. Bij het proberen het volgende woord in een zin te voorspellen, biedt elk voorafgaand woord een 'sleutel' die de potentiële relevantie suggereert, en op basis van hoe goed deze sleutels overeenkomen met de huidige context (of vraag), dragen ze een 'waarde' of gewicht bij aan de zin. voorspelling.

Deze geavanceerde AI-modellen voor diep leren zijn naadloos geïntegreerd in verschillende toepassingen, van Google's zoekmachineverbeteringen met BERT tot GitHub's Copilot, die gebruikmaakt van de mogelijkheid van Large Language Models (LLM's) om eenvoudige codefragmenten om te zetten in volledig functionele broncodes.

Grote taalmodellen (LLM's) zoals GPT-4, Bard en LLaMA zijn kolossale constructies die zijn ontworpen om menselijke taal, code en meer te ontcijferen en te genereren. Hun immense omvang, variërend van miljarden tot biljoenen parameters, is een van de bepalende kenmerken. Deze LLM's worden gevoed met grote hoeveelheden tekstgegevens, waardoor ze de fijne kneepjes van de menselijke taal kunnen begrijpen. Een opvallend kenmerk van deze modellen is hun aanleg voor “paar schot" aan het leren. In tegenstelling tot conventionele modellen die enorme hoeveelheden specifieke trainingsgegevens nodig hebben, kunnen LLM's generaliseren vanuit een zeer beperkt aantal voorbeelden (of "shots")

State of Large Language Models (LLM's) vanaf medio 2023

ModelnaamOntwikkelaarparametersBeschikbaarheid en toegangOpmerkelijke kenmerken en opmerkingen
GPT-4OpenAI1.5 TrillionGeen open source, alleen API-toegangIndrukwekkende prestaties bij verschillende taken kunnen afbeeldingen en tekst verwerken, maximale invoerlengte 32,768 tokens
GPT-3OpenAI175 miljardGeen open source, alleen API-toegangGedemonstreerde leermogelijkheden met weinig schoten en nul schoten. Voert tekstaanvulling uit in natuurlijke taal.
BLOEIENBigWetenschap176 miljardDownloadbaar model, gehoste API beschikbaarMeertalige LLM ontwikkeld door wereldwijde samenwerking. Ondersteunt 13 programmeertalen.
deMDAKopen Google Reviews173 miljardGeen open source, geen API of downloadGetraind in dialoog kon leren praten over vrijwel alles
MT-NLGNvidia/Microsoft530 miljardAPI-toegang per applicatieMaakt gebruik van op transformator gebaseerde Megatron-architectuur voor verschillende NLP-taken.
LamaMeta-AI7B tot 65B)Te downloaden per applicatieBedoeld om AI te democratiseren door toegang te bieden aan mensen in onderzoek, overheid en academische wereld.

Hoe worden LLM's gebruikt?

LLM's kunnen op meerdere manieren worden gebruikt, waaronder:

  1. Direct gebruik: eenvoudigweg een vooraf getrainde LLM gebruiken voor het genereren of verwerken van tekst. Bijvoorbeeld GPT-4 gebruiken om een ​​blogpost te schrijven zonder extra fijnafstemming.
  2. Fine-tuning: het aanpassen van een vooraf getrainde LLM voor een specifieke taak, een methode die bekend staat als transfer learning. Een voorbeeld hiervan is het aanpassen van T5 om samenvattingen te genereren voor documenten in een specifieke branche.
  3. Informatie ophalen: LLM's, zoals BERT of GPT, gebruiken als onderdeel van grotere architecturen om systemen te ontwikkelen die informatie kunnen ophalen en categoriseren.
Generatieve AI ChatGPT-fijnafstemming
ChatGPT Fine Tuning-architectuur

Aandacht voor meerdere hoofden: waarom één als je er veel kunt hebben?

Vertrouwen op een enkel aandachtsmechanisme kan echter beperkend zijn. Verschillende woorden of reeksen in een tekst kunnen verschillende soorten relevantie of associaties hebben. Dit is waar multi-head attention om de hoek komt kijken. In plaats van één set aandachtsgewichten, gebruikt multi-head attention meerdere sets, waardoor het model een rijkere verscheidenheid aan relaties in de invoertekst kan vastleggen. Elk aandachtshoofd kan zich richten op verschillende delen of aspecten van de invoer en hun gecombineerde kennis wordt gebruikt voor de uiteindelijke voorspelling.

ChatGPT: de meest populaire generatieve AI-tool

Beginnend met de start van GPT in 2018, was het model in wezen gebouwd op de basis van 12 lagen, 12 aandachtshoofden en 120 miljoen parameters, voornamelijk getraind op een dataset genaamd BookCorpus. Dit was een indrukwekkend begin en bood een kijkje in de toekomst van taalmodellen.

GPT-2, onthuld in 2019, pochte een viervoudige toename in lagen en aandachtstrekkers. Het is veelbetekenend dat het aantal parameters omhoogschoot tot 1.5 miljard. Deze verbeterde versie ontleende zijn training aan WebText, een dataset verrijkt met 40GB aan tekst van verschillende Reddit-links.

GPT-3, gelanceerd in mei 2020, had 96 lagen, 96 aandachtshoofden en een enorm aantal parameters van 175 miljard. Wat GPT-3 onderscheidde, waren de diverse trainingsgegevens, waaronder CommonCrawl, WebText, Engelse Wikipedia, boekcorpora en andere bronnen, gecombineerd voor een totaal van 570 GB.

De fijne kneepjes van de werking van ChatGPT blijven een goed bewaard geheim. Het is echter bekend dat een proces dat 'versterking van menselijke feedback' (RLHF) wordt genoemd, cruciaal is. Deze techniek, afkomstig uit een eerder ChatGPT-project, speelde een belangrijke rol bij het aanscherpen van het GPT-3.5-model om meer in overeenstemming te zijn met schriftelijke instructies.

De training van ChatGPT omvat een aanpak op drie niveaus:

  1. Gesuperviseerde afstemming: omvat het samenstellen van door mensen geschreven conversatie-input en -output om het onderliggende GPT-3.5-model te verfijnen.
  2. Beloningsmodellering: mensen rangschikken verschillende modeloutputs op basis van kwaliteit, wat helpt bij het trainen van een beloningsmodel dat elke output scoort, rekening houdend met de context van het gesprek.
  3. Versterkend leren: de conversatiecontext dient als achtergrond waar het onderliggende model een antwoord voorstelt. Deze respons wordt beoordeeld door het beloningsmodel en het proces wordt geoptimaliseerd met behulp van een algoritme genaamd proximale beleidsoptimalisatie (PPO).

Voor degenen die net hun tenen in ChatGPT hebben gedompeld, is er een uitgebreide startgids te vinden hier. Als u dieper wilt ingaan op prompt-engineering met ChatGPT, hebben we ook een geavanceerde gids die licht geeft over de nieuwste en state-of-the-art prompttechnieken, beschikbaar op 'ChatGPT & Advanced Prompt Engineering: de drijvende kracht achter de AI-evolutie'.

Verspreiding en multimodale modellen

Terwijl modellen zoals VAE's en GAN's hun output genereren via een enkele doorgang, en dus opgesloten in wat ze ook produceren, hebben diffusiemodellen het concept van 'iteratieve verfijning'. Door deze methode cirkelen ze terug, verfijnen fouten uit eerdere stappen en produceren geleidelijk een meer gepolijst resultaat.

Centraal in diffusiemodellen staat de kunst van “corruptie” en “verfijning”. In hun trainingsfase wordt een typisch beeld geleidelijk beschadigd door verschillende niveaus van ruis toe te voegen. Deze luidruchtige versie wordt vervolgens aan het model toegevoerd, dat het probeert te 'ontruisen' of 'ontcorrumperen'. Door meerdere rondes hiervan wordt het model bedreven in herstel, waarbij het zowel subtiele als significante afwijkingen begrijpt.

Generatieve AI - Prompt halverwege de reis
Afbeelding gegenereerd op basis van Midjourney

Het proces van het genereren van nieuwe beelden na de training is intrigerend. Beginnend met een volledig willekeurige invoer, wordt deze continu verfijnd met behulp van de voorspellingen van het model. De bedoeling is om met zo min mogelijk stappen een smetteloos beeld te krijgen. Het beheersen van het niveau van corruptie wordt gedaan door middel van een "ruisschema", een mechanisme dat bepaalt hoeveel ruis in verschillende stadia wordt toegepast. Een planner, zoals te zien in bibliotheken zoals "diffusers", dicteert de aard van deze luidruchtige uitvoeringen op basis van gevestigde algoritmen.

Een essentiële architecturale ruggengraat voor veel diffusiemodellen is de UNet—een convolutioneel neuraal netwerk dat is toegesneden op taken die output vereisen die de ruimtelijke dimensie van input weerspiegelt. Het is een mix van downsampling- en upsampling-lagen, nauw verbonden om gegevens met een hoge resolutie vast te houden, cruciaal voor beeldgerelateerde outputs.

Dieper graven in het rijk van generatieve modellen, OpenAI's DALL-E2 komt naar voren als een lichtend voorbeeld van de samensmelting van tekstuele en visuele AI-mogelijkheden. Het maakt gebruik van een structuur met drie niveaus:

DALL-E 2 toont een drievoudige architectuur:

  1. Tekstcodering: het transformeert de tekstprompt in een conceptuele inbedding in een latente ruimte. Dit model begint niet vanaf nul. Het leunt op OpenAI's Contrastive Language-Image Pre-training (CLIP) dataset als basis. CLIP dient als een brug tussen visuele en tekstuele gegevens door visuele concepten te leren met behulp van natuurlijke taal. Via een mechanisme dat bekend staat als contrastief leren, identificeert en matcht het afbeeldingen met hun corresponderende tekstuele beschrijvingen.
  2. De Prior: De tekstinsluiting die is afgeleid van de encoder wordt vervolgens omgezet in een afbeeldingsinsluiting. DALL-E 2 testte zowel autoregressieve als diffusiemethoden voor deze taak, waarbij de laatste superieure resultaten liet zien. Autoregressieve modellen, zoals te zien in Transformers en PixelCNN, genereren uitvoer in reeksen. Aan de andere kant transformeren diffusiemodellen, zoals die gebruikt in DALL-E 2, willekeurige ruis in voorspelde beeldinbeddingen met behulp van tekstinbeddingen.
  3. De decoder: het hoogtepunt van het proces, dit deel genereert de uiteindelijke visuele uitvoer op basis van de tekstprompt en de inbedding van afbeeldingen uit de voorgaande fase. De decoder van DALL.E 2 dankt zijn architectuur aan een ander model, GLIJDEN, die ook realistische afbeeldingen kan produceren op basis van tekstuele aanwijzingen.
Architectuur van het DALL-E-model (diffusie-multimodel)
Vereenvoudigde architectuur van het DALL-E-model

Python-gebruikers geïnteresseerd in Langketen zou onze gedetailleerde tutorial moeten bekijken die alles behandelt, van de grondbeginselen tot geavanceerde technieken.

Toepassingen van generatieve AI

Tekstuele domeinen

Beginnend met tekst, is generatieve AI fundamenteel veranderd door chatbots zoals ChatGPT. Deze entiteiten zijn sterk afhankelijk van Natural Language Processing (NLP) en grote taalmodellen (LLM's) en zijn bevoegd om taken uit te voeren variërend van het genereren van code en taalvertaling tot samenvatting en sentimentanalyse. ChatGPT wordt bijvoorbeeld op grote schaal gebruikt en is voor miljoenen mensen een basisproduct geworden. Dit wordt verder versterkt door conversationele AI-platforms, gebaseerd op LLM’s zoals GPT-4, Palm en BLOEIEN, die moeiteloos tekst produceren, helpen bij het programmeren en zelfs wiskundig redeneren.

Vanuit commercieel oogpunt worden deze modellen van onschatbare waarde. Bedrijven gebruiken ze voor een groot aantal activiteiten, waaronder risicobeheer, voorraadoptimalisatie en prognoses. Enkele opmerkelijke voorbeelden zijn Bing AI, Google's BARD en ChatGPT API.

Kunst

De wereld van afbeeldingen heeft dramatische transformaties ondergaan met Generative AI, vooral sinds de introductie van DALL-E 2 in 2022. Deze technologie, die afbeeldingen kan genereren op basis van tekstuele aanwijzingen, heeft zowel artistieke als professionele implicaties. Midjourney heeft deze technologie bijvoorbeeld gebruikt om indrukwekkend realistische beelden te produceren. Dit recente bericht demystificeert Midjourney in een gedetailleerde gids, waarin zowel het platform als de snelle technische details worden toegelicht. Bovendien maken platforms zoals Alpaca AI en Photoroom AI gebruik van Generative AI voor geavanceerde functies voor beeldbewerking, zoals het verwijderen van achtergronden, het verwijderen van objecten en zelfs het herstellen van gezichten.

Video productie

Hoewel videoproductie zich nog in de kinderschoenen bevindt op het gebied van generatieve AI, laat het veelbelovende vorderingen zien. Platforms zoals Imagen Video, Meta Make A Video en Runway Gen-2 verleggen de grenzen van wat mogelijk is, zelfs als echt realistische resultaten nog in het verschiet liggen. Deze modellen bieden substantiële bruikbaarheid voor het maken van digitale menselijke video's, waarbij applicaties zoals Synthesia en SuperCreator de leiding nemen. Tavus AI biedt met name een uniek verkoopvoorstel door video's te personaliseren voor individuele leden van het publiek, een zegen voor bedrijven.

Code creatie

Programmeren, een onmisbaar aspect van onze digitale wereld, is niet onaangeroerd gebleven door Generative AI. Hoewel ChatGPT een favoriete tool is, zijn er verschillende andere AI-toepassingen ontwikkeld voor coderingsdoeleinden. Deze platforms, zoals GitHub Copilot, Alphacode en CodeComplete, dienen als coderingsassistenten en kunnen zelfs code produceren op basis van tekstprompts. Wat intrigerend is, is het aanpassingsvermogen van deze tools. Codex, de drijvende kracht achter GitHub Copilot, kan worden aangepast aan de codeerstijl van een individu, wat het personaliseringspotentieel van Generative AI onderstreept.

Conclusie

Door menselijke creativiteit te combineren met machinale berekeningen, is het geëvolueerd tot een hulpmiddel van onschatbare waarde, met platforms zoals ChatGPT en DALL-E 2 die de grenzen verleggen van wat denkbaar is. Van het maken van tekstuele inhoud tot het vormgeven van visuele meesterwerken, hun toepassingen zijn enorm en gevarieerd.

Zoals bij elke technologie, zijn ethische implicaties van het grootste belang. Hoewel generatieve AI grenzeloze creativiteit belooft, is het van cruciaal belang om het op een verantwoorde manier te gebruiken, rekening houdend met mogelijke vooroordelen en de kracht van gegevensmanipulatie.

Nu tools zoals ChatGPT steeds toegankelijker worden, is dit het perfecte moment om de wateren te testen en te experimenteren. Of je nu een artiest, programmeur of tech-enthousiasteling bent, het rijk van generatieve AI staat bol van de mogelijkheden die wachten om ontdekt te worden. De revolutie is niet aan de horizon; het is hier en nu. Dus duik erin!

De afgelopen vijf jaar heb ik me verdiept in de fascinerende wereld van Machine Learning en Deep Learning. Door mijn passie en expertise heb ik bijgedragen aan meer dan 50 verschillende software engineering projecten, met een bijzondere focus op AI/ML. Mijn voortdurende nieuwsgierigheid heeft me ook aangetrokken tot Natural Language Processing, een gebied dat ik graag verder wil verkennen.