Connect with us

Kunstig intelligens

Generativ AI: Idéen bag CHATGPT, Dall-E, Midjourney og mere

mm
Generative AI - Midjourney Prompt

Verden af kunst, kommunikation og hvordan vi opfatter virkeligheden ændrer sig hurtigt. Hvis vi kigger tilbage på historien om menneskelig innovation, kan vi overveje opfindelsen af hjulet eller opdagelsen af elektricitet som monumentale spring. I dag finder en ny revolution sted – broen mellem menneskelig kreativitet og maskineberegning. Det er Generativ AI.

Generative modeller har udvisket grænsen mellem mennesker og maskiner. Med introduktionen af modeller som GPT-4, der anvender transformer-moduler, er vi kommet tættere på naturlig og kontekst-rig sproggenerering. Disse fremskridt har ført til anvendelser i dokumentoprettelse, chatbot-dialogsystemer og endda syntetisk musikkomposition.

Seneste Big-Tech-beslutninger understreger dets betydning. Microsoft afslutter allerede sin Cortana-app denne måned for at prioritere nyere Generative AI-innovationer, som Bing Chat. Apple har også dedikeret en betydelig del af sin 22,6 milliarder dollars store R&D-budget til generativ AI, som angivet af CEO Tim Cook.

En ny æra af modeller: Generativ vs. Diskriminativ

Historien om Generative AI handler ikke kun om dets anvendelser, men fundamentalt om dets indre mekanismer. I det kunstige intelligens-økosystem findes to modeller: diskriminative og generative.

Diskriminative modeller er, hvad de fleste mennesker møder i daglig liv. Disse algoritmer tager inputdata, såsom tekst eller billeder, og parrer dem med et mål-output, som f.eks. en ordoversættelse eller en medicinsk diagnose. De handler om mapping og prædiktionsmuligheder.

Generative modeller, på den anden side, er skabere. De genererer ikke kun nye, komplekse outputs fra vektorer af tal, der ofte ikke er relateret til virkelige værdier.
 

Generative AI-typer: Tekst til tekst, tekst til billede (GPT, DALL-E, Midjourney)

Teknologierne bag generative modeller

Generative modeller skylder deres eksistens til dybe neurale netværk, sofistikerede strukturer designet til at efterligne hjernens funktion. Ved at fange og behandle multifacetterede variationer i data, fungerer disse netværk som ryggraden i mange generative modeller.

Hvordan kommer disse generative modeller til live? Som regel er de bygget med dybe neurale netværk, optimeret til at fange de multifacetterede variationer i data. Et primækt eksempel er Generative Adversarial Network (GAN), hvor to neurale netværk, generatoren og diskriminatoren, konkurrerer og lærer af hinanden i en unik lærer-elev-relation. Fra malerier til stiloverføring, fra musikkomposition til spil, udvikler disse modeller sig og udvider sig på måder, der tidligere var utænkelige.

Dette stopper ikke med GAN’er. Variational Autoencoders (VAE’er) er endnu en afgørende spiller i generative modellfeltet. VAE’er udgør sig ved deres evne til at skabe fotorealistiske billeder fra tilsyneladende tilfældige tal. Hvordan? Ved at behandle disse tal gennem en latent vektor giver det fødsel til kunst, der spejler kompleksiteten af menneskelig æstetik.

Generative AI-typer: Tekst til tekst, tekst til billede

Transformatorer & LLM

Artiklen “Attention Is All You Need” af Google Brain markerede en skift i måden, vi tænker om sprogmodellering på. I stedet for komplekse og sekventielle arkitekturer som Recurrent Neural Networks (RNN’er) eller Convolutional Neural Networks (CNN’er), introducerede Transformer-modellen begrebet om opmærksomhed, der essentielt betyder fokus på forskellige dele af inputteksten afhængigt af konteksten. En af de vigtigste fordele heraf var letten ved parallelisering. I modsætning til RNN’er, der behandler tekst sekventielt, og dermed er sværere at skala, kan Transformatorer behandle dele af teksten samtidigt, hvilket gør træning hurtigere og mere effektiv på store datasets.

Transformer-model arkitektur

I en lang tekst har ikke hver ord eller sætning, du læser, samme betydning. Nogle dele kræver mere opmærksomhed baseret på konteksten. Denne evne til at skifte vores fokus baseret på relevans er, hvad opmærksomheds-mekanismen efterligner.

For at forstå dette, tænk på en sætning: “Unite AI Publish AI og robotnyheder.” Nu kræver forudsigelsen af det næste ord en forståelse af, hvad der betyder mest i den foregående kontekst. Begrebet ‘Robotik’ kunne antyde, at det næste ord kunne være relateret til en specifik udvikling eller begivenhed i robotikfeltet, mens ‘Publish’ kunne indikere, at den følgende kontekst kunne gå ind i en seneste publikation eller artikel.

Selv-opmærksomheds-mekanisme forklaring på en demotekst
Selv-opmærksomheds-illustration

Opmærksomheds-mekanismer i Transformatorer er designet til at opnå dette selektive fokus. De vurderer betydningen af forskellige dele af inputteksten og beslutter, hvor de skal “se” når de genererer en respons. Dette er en afvigelse fra ældre arkitekturer som RNN’er, der forsøgte at presse essensen af al inputtekst ind i en enkelt ’tilstand’ eller ‘hukommelse’.

Arbejdet med opmærksomhed kan sammenlignes med et nøgle-værdi-hentningssystem. I forsøget på at forudsigende det næste ord i en sætning, tilbyder hver forudgående ord en ‘nøgle’, der antyder dens potentielle relevans, og baseret på, hvor godt disse nøgler matcher den aktuelle kontekst (eller forespørgsel), bidrager de med en ‘værdi’ eller vægt til forudsigelsen.

Disse avancerede AI-dybe-læringsmodeller er nænsomt integreret i forskellige anvendelser, fra Google’s søgemaskine-forbedringer med BERT til GitHub’s Copilot, der udnytter Large Language Models (LLM’er) til at konvertere simple kode-eksempler til fuldt funktionsdygtige kildekode.

Large Language Models (LLM’er) som GPT-4, Bard og LLaMA er kolossale konstruktioner designet til at tyde og generere menneskesprog, kode og mere. Deres enorme størrelse, der varierer fra milliarder til trillioner af parametre, er en af de definerende funktioner. Disse LLM’er fødes med enorme mængder tekstdata, der giver dem mulighed for at fatte kompleksiteten af menneskesprog. En slående karakteristik af disse modeller er deres evne til “few-shot”-læring. I modsætning til konventionelle modeller, der kræver enorme mængder specifik træningsdata, kan LLM’er generalisere fra en meget begrænset mængde eksempler (eller “skud”)

Tilstand af Large Language Models (LLM’er) pr. midten af 2023

Modelnavn Udvikler Parametre Tilgængelighed og adgang Bemærkelsesværdige funktioner & bemærkninger
GPT-4 OpenAI 1,5 billion Ikke åben kilde, kun API-adgang Imponerende præstation på en række opgaver kan behandle billeder og tekst, maksimum inputlængde 32.768 tokens
GPT-3 OpenAI 175 milliarder Ikke åben kilde, kun API-adgang Har demonstreret few-shot og zero-shot-læringsevner. Udfører tekst-generering i naturligt sprog.
BLOOM BigScience 176 milliarder Nedladbar model, vært API tilgængelig Flersproget LLM udviklet gennem globalt samarbejde. Støtter 13 programmeringssprog.
LaMDA Google 173 milliarder Ikke åben kilde, ingen API eller download Trænet på dialog kunne lære at tale om næsten alt.
MT-NLG Nvidia/Microsoft 530 milliarder API-adgang ved ansøgning Udnytter transformer-baseret Megatron-arkitektur til forskellige NLP-opgaver.
LLaMA Meta AI 7M til 65M) Nedladbar ved ansøgning Er ment til at demokratisere AI ved at tilbyde adgang til forskere, regeringer og akademikere.

Hvordan bruges LLM’er?

LLM’er kan bruges på flere måder, herunder:

  1. Direkte anvendelse: Brug af en fortrænet LLM til tekstgenerering eller -behandling. For eksempel brug af GPT-4 til at skrive en blogpost uden yderligere finjustering.
  2. Fine-tuning: Tilpasning af en fortrænet LLM til en specifik opgave, en metode kendt som overførselslæring. Et eksempel ville være tilpasning af T5 til at generere sammenfatninger for dokumenter i en bestemt branche.
  3. Informationshenting: Brug af LLM’er, såsom BERT eller GPT, som en del af større arkitekturer til at udvikle systemer, der kan hente og kategorisere information.
Generative AI ChatGPT Fine-tuning
ChatGPT Fine-tuning-arkitektur

Flersproget opmærksomhed: Hvorfor én, når du kan have mange?

Men at afhænge af en enkelt opmærksomheds-mekanisme kan være begrænsende. Forskellige ord eller sekvenser i en tekst kan have forskellige typer af relevans eller associationer. Her kommer flersproget opmærksomhed ind i billedet. I stedet for ét sæt opmærksomheds-vægte anvender flersproget opmærksomhed flere sæt, hvilket giver mulighed for at fange en rigere variation af relationer i inputteksten. Hver opmærksomheds-“hoved” kan fokusere på forskellige dele eller aspekter af input, og deres kombinerede viden bruges til den endelige forudsigelse.

ChatGPT: Det mest populære Generative AI-værktøj

Startende med GPT’s opståen i 2018 var modellen essentielt bygget på fundamentet af 12 lag, 12 opmærksomheds-hoveder og 120 millioner parametre, primært trænet på en dataset kaldet BookCorpus. Dette var et imponerende start, der gav et glimt af fremtiden for sprogmodeller.

GPT-2, præsenteret i 2019, havde en fire-dobling af lag og opmærksomheds-hoveder. Betydeligt var dens parameterantal eksploderet til 1,5 milliard. Denne forbedrede version afledtes fra WebText, en dataset beriget med 40 GB tekst fra forskellige Reddit-links.

GPT-3, lanceret i maj 2020, havde 96 lag, 96 opmærksomheds-hoveder og et massivt parameterantal på 175 milliarder. Hvad satte GPT-3 ud fra andre, var dens diverse træningsdata, der omfattede CommonCrawl, WebText, English Wikipedia, bogkorpus og andre kilder, kombineret for i alt 570 GB.

Det intrikate i ChatGPT’s arbejde forbliver en godt bevaret hemmelighed. Dog er en proces kaldet ‘reinforcement learning from human feedback’ (RLHF) kendt for at være afgørende. Oprindeligt fra et tidligere ChatGPT-projekt, var denne teknik instrumental i at finjustere GPT-3.5-modellen til at være mere i overensstemmelse med skrevne instruktioner.

ChatGPT’s træning består af en tredelt tilgang:

  1. Overvåget finjustering: Dette indebærer kuratering af menneskeskrevne konversations-input og output for at raffinere den underliggende GPT-3.5-model.
  2. Belønningsmodellering: Mennesker rangerer forskellige model-output baseret på kvalitet, hvilket hjælper med at træne en belønningsmodel, der scorer hver output i forhold til samtalekonteksten.
  3. Reinforcement learning: Samtalekonteksten fungerer som baggrund, hvor den underliggende model foreslår en respons. Denne respons vurderes af belønningsmodellen, og processen optimeres ved hjælp af en algoritme kaldet proximal policy optimization (PPO).

For dem, der lige er begyndt at udforske ChatGPT, kan en omfattende startguide findes her. Hvis du ønsker at dykke dybere ind i prompt-engineering med ChatGPT, har vi også en avanceret guide, der kaster lys over de seneste og mest avancerede prompt-teknikker, tilgængelig på ‘ChatGPT & Avanceret Prompt-Engineering: Driver AI-Udviklingen‘.

Diffusion & Multimodale modeller

Mens modeller som VAE’er og GAN’er genererer deres output gennem en enkelt passering, og dermed er låst til, hvad de producerer, har diffusionsmodeller introduceret begrebet ‘iterativ forbedring’. Gennem denne metode cirkler de tilbage, forbedrer fejl fra tidligere skridt, og producerer gradvist et mere poleret resultat.

Central for diffusionsmodeller er kunsten af “korruption” og “forbedring”. I deres træningsfase korrupteres et typisk billede gradvist ved at tilføje varierende niveauer af støj. Denne støjede version fødes herefter til modellen, der forsøger at ‘rense’ eller ‘forbedre’ den. Gennem multiple runder af dette bliver modellen dygtig til restaurering, og forstår både subtile og betydelige afvigelser.

Generative AI - Midjourney Prompt
Billede genereret fra Midjourney

Processen med at generere nye billeder efter træning er interessant. Startende med en fuldstændig tilfældig input, forbedres det kontinuerligt ved hjælp af modellens forudsigelser. Formålet er at opnå et perfekt billede med det mindste antal skridt. Kontrollen af korruptionsniveauet sker gennem en “støjnedsættelse”, en mekanisme, der regulerer, hvor meget støj der tilføjes på forskellige stadier. En scheduler, som set i biblioteker som “diffusers“, dikterer naturen af disse støjede udgaver baseret på etablerede algoritmer.

En afgørende arkitektonisk ryggrad for mange diffusionsmodeller er UNet – et convolutionelt neuralt netværk tilpasset til opgaver, der kræver output, der spejler den rumlige dimension af input. Det er en blanding af downsampling- og upsampling-lag, intrikat forbundet til at bevare højopløsningsdata, afgørende for billed-relaterede output.

Dykkende dybere ind i generative modellernes verden, fremstår OpenAI’s DALL-E 2 som et strålende eksempel på fusionen af tekstuel og visuel AI-kapacitet. Den anvender en tredelt struktur:

DALL-E 2 viser en tredelt arkitektur:

  1. Tekst-encoder: Den transformerer tekstprompten til en konceptuel indlejring i et latent rum. Denne model starter ikke fra bunden. Den hviler på OpenAI’s Contrastive Language–Image Pre-training (CLIP) dataset som sin grundlag. CLIP fungerer som en bro mellem visuel og tekstuel data ved at lære visuelle begreber ved hjælp af naturligt sprog. Gennem en mekanisme kaldet kontrastiv læring, identificerer og matcher det billeder med deres tilhørende tekstbeskrivelser.
  2. Prior: Tekst-indlejringen afledt fra encoderen konverteres herefter til et billede-indlejring. DALL-E 2 testede både autoregressive og diffusionsmetoder til denne opgave, med sidstnævnte viste bedre resultater. Autoregressive modeller, som set i Transformatorer og PixelCNN, genererer output i sekvenser. På den anden side genererer diffusionsmodeller, som den brugt i DALL-E 2, tilfældig støj til forudsigte billede-indlejring med hjælp af tekst-indlejring.
  3. Decoder: Kulminationen af processen, denne del genererer den endelige visuelle output baseret på tekstprompten og billede-indlejringen fra prior-fasen. DALL-E 2’s decoder skylder sin arkitektur til en anden model, GLIDE, der også kan producere realistiske billeder fra tekstuelle hints.
Arkitektur af DALL-E-model (diffusion multi-model)
Simplificeret arkitektur af DALL-E-model

Python-brugere, der er interesseret i Langchain, bør se vores detaljerede tutorial, der dækker alt fra grundlæggende til avancerede teknikker.

Anvendelser af Generative AI

Tekstuelle domæner

Startende med tekst, har Generative AI været fundamentalt ændret af chatbots som ChatGPT. Afhængigt af Natural Language Processing (NLP) og store sprogmodeller (LLM’er), er disse enheder i stand til at udføre opgaver, der spænder fra kodegenerering og sprogoversættelse til sammenfatning og sentimentanalyse. ChatGPT har for eksempel set en bred anvendelse og er blevet en standard for millioner. Dette suppleres yderligere af konversations-AI-platforme, der er grundlagt i LLM’er som GPT-4, PaLM og BLOOM, der let kan producere tekst, hjælpe med programmering og endda tilbyde matematisk begrundelse.

Fra et kommercielt perspektiv er disse modeller blevet uvurderlige. Virksomheder anvender dem til en mangfoldighed af operationer, herunder risikostyring, lageroptimering og forudsigelse af efterspørgsel. Nogle bemærkelsesværdige eksempler omfatter Bing AI, Google’s BARD og ChatGPT API.

Kunst

Verden af billeder har set dramatiske forandringer med Generative AI, især siden DALL-E 2’s introduktion i 2022. Denne teknologi, der kan generere billeder fra tekstuelle hints, har både kunstneriske og professionelle implikationer. For eksempel har midjourney udnyttet denne teknologi til at producere imponerende realistiske billeder. Denne seneste post afklarer midjourney i en detaljeret guide, der forklarer både platformen og dens prompt-engineering-intrikater. Yderligere anvender platforme som Alpaca AI og Photoroom AI Generative AI til avanceret billedredigering, herunder baggrundsfjernelse, objektfjernelse og endda ansigtsrestaurering.

Video-produktion

Video-produktion, selvom den stadig er i sin spæde begyndelse inden for Generative AI, viser lovende fremskridt. Platforme som Imagen Video, Meta Make A Video og Runway Gen-2 skyder grænserne for, hvad der er muligt, selvom virkeligt realistiske output endnu er på horisonten. Disse modeller tilbyder betydelig nytte for at skabe digitale menneskevideoer, med anvendelser som Synthesia og SuperCreator i spidsen. Bemærkelsesværdigt tilbyder Tavus AI en unik sælgende proposition ved at personliggøre videoer for enkeltpersoner, en gevinst for virksomheder.

Kode-creation

Koding, en uundværlig del af vores digitale verden, er ikke blevet berørt af Generative AI. Selvom ChatGPT er et foretrukket værktøj, er der udviklet flere andre AI-applikationer til kodningsformål. Disse platforme, som GitHub Copilot, Alphacode og CodeComplete, fungerer som kodningsassistenter og kan endda producere kode fra tekstuelle hints. Hvad der er interessant, er tilpasningen af disse værktøjer. Codex, den drivende kraft bag GitHub Copilot, kan tilpasses til en persons kodestil, hvilket understreger personliggørelses-potentialen af Generative AI.

Konklusion

En blanding af menneskelig kreativitet og maskineberegning, har det udviklet sig til et uvurderligt værktøj, med platforme som ChatGPT og DALL-E 2, der skyder grænserne for, hvad der er tænkeligt. Fra tekst til visuelle mesterværker, er deres anvendelser vide og varierede.

Som med alle teknologier, er etiske implikationer af største betydning. Mens Generative AI lover ubegrænset kreativitet, er det afgørende at anvende det ansvarligt, være bekendt med potentielle fordomme og kraften af data-manipulation.

Med værktøjer som ChatGPT, der bliver mere tilgængelige, er nu det perfekte tidspunkt at teste vandene og eksperimentere. Uanset om du er kunstner, kodningsekspert eller teknologi-entusiast, er Generative AI-verdenen fuld af muligheder, der venter på at blive udforsket. Revolutionen er ikke på horisonten; den er her og nu. Så dyk ind!

Jeg har brugt de sidste fem år på at dykke ned i den fascinerende verden af Machine Learning og Deep Learning. Min passion og ekspertise har ført til, at jeg har bidraget til over 50 forskellige software-udviklingsprojekter, med særlig fokus på AI/ML. Min vedvarende nysgerrighed har også ført mig i retning af Natural Language Processing, et felt jeg er ivrig efter at udforske yderligere.