Kunstig intelligens
Generativ AI: Idéen bak CHATGPT, DALL-E, Midjourney og mer

Verden av kunst, kommunikasjon og hvordan vi oppfatter virkeligheten er i rask endring. Hvis vi ser tilbake på historien om menneskelig innovasjon, kan vi kanskje betrakte oppfinnelsen av hjulet eller oppdagelsen av elektrisitet som monumentale sprang. I dag foregår en ny revolusjon – brobygging mellom menneskelig kreativitet og maskinkomputasjon. Det er Generativ AI.
Generative modeller har utvisket grensen mellom mennesker og maskiner. Med introduksjonen av modeller som GPT-4, som anvender transformermoduler, har vi tatt et skritt nærmere naturlig og kontekstrik språkgenerering. Disse fremgangene har ført til anvendelser i dokumentopprettelse, chatbot-dialogsystemer og selv syntetisk musikkomposisjon.
Nylige Big-Tech-beslutninger understreker dens betydning. Microsoft avslutter allerede Cortana-appen denne måneden for å prioritere nyere Generative AI-innovasjoner, som Bing Chat. Apple har også dedikert en betydelig del av $22,6 milliarder R&D-budsjett til generativ AI, som vist av CEO Tim Cook.
En ny æra av modeller: Generative vs. Diskriminative
Historien om Generative AI handler ikke bare om dens anvendelser, men fundamentalt om dens indre virkemåte. I det kunstige intelligensekosystemet finnes det to modeller: diskriminative og generative.
Diskriminative modeller er det folk vanligvis møter i daglig liv. Disse algoritmene tar inn data, som tekst eller bilde, og parer det med et måloutput, som en ordoversettelse eller en medisinsk diagnose. De handler om mapping og prediksjon.
Generative modeller, på den andre siden, er skapere. De genererer ikke bare tolkning eller prediksjon, men skaper nye, komplekse utdata fra vektorer av tall som ofte ikke er relatert til virkelige verdier.
Teknologiene bak generative modeller
Generative modeller skylder sin eksistens til dypt neurale nettverk, sofistikerte strukturer designet for å mime menneskehjernens funksjonalitet. Ved å fange og prosessere multifasetterte variasjoner i data, tjener disse nettverkene som ryggraden i mange generative modeller.
Hvordan kommer disse generative modellene til live? Vanligvis bygges de med dypt neurale nettverk, optimalisert for å fange multifasetterte variasjoner i data. Et primært eksempel er Generative Adversarial Network (GAN), der to neurale nettverk, generatoren og diskriminatoren, konkurrerer og lærer fra hverandre i en unik lærer-elev-relasjon. Fra malerier til stiloverføring, fra musikkomposisjon til spill, utvikler disse modellene seg og utvider seg på måter som tidligere var utenkelige.
Dette stopper ikke med GAN. Variational Autoencoders (VAEs) er en annen nøkkelaktør i generativ modellfeltet. VAEs utmerker seg med evnen til å skape fotorealistiske bilder fra til synes tilfeldige tall. Hvordan? Ved å prosessere disse tallene gjennom en latent vektor, fødes kunst som speiler kompleksiteten i menneskelig estetikk.
Generative AI-typer: Tekst til tekst, tekst til bilde
Transformatorer og LLM
Artikkelen “Attention Is All You Need” av Google Brain markerte en skifte i måten vi tenker om språkmodellering. I stedet for komplekse og sekvensielle arkitekturer som Recurrent Neural Networks (RNN) eller Convolutional Neural Networks (CNN), introduserte Transformer-modellen konseptet om oppmerksomhet, som essensielt betød fokus på forskjellige deler av innputt-teksten avhengig av konteksten. En av de største fordelen var lett parallellisering. I motsetning til RNN, som prosesserer tekst sekvensielt og gjør det vanskelig å skalerer, kan Transformatorer prosessere deler av teksten samtidig, gjør trening raskere og mer effektiv på store datasett.

- Transformer-modell arkitektur
I en lang tekst, har ikke hver enkelt ord eller setning du leser samme betydning. Noen deler krever mer oppmerksomhet basert på konteksten. Dette er hva oppmerksomhetsmekanismen etterligner.
For å forstå dette, tenk på en setning: “Unite AI Publiserer AI og robotikknyheter.” Å forutsi neste ord krever en forståelse av hva som betyr mest i den foregående konteksten. Begrepet ‘Robotikk’ kan antyde at neste ord kan være relatert til en bestemt fremgang eller hendelse i robotikkfeltet, mens ‘Publiserer’ kan indikere at den påfølgende konteksten kan gå inn i en nylig publisert artikkel.
Oppmerksomhetsmekanismene i Transformatorer er designet for å oppnå dette selektive fokuset. De vurderer betydningen av forskjellige deler av innputt-teksten og bestemmer hvor de skal “se” når de genererer en respons. Dette er en avvik fra eldre arkitekturer som RNN, som forsøkte å pakke essensen av all innputt-tekst inn i en enkelt ’tilstand’ eller ‘hukommelse’.
Arbeidet med oppmerksomhet kan liknes med en nøkkel-verdi-hentingssystem. Når du forsøker å forutsi neste ord i en setning, tilbyr hver forutgående ord en ‘nøkkel’ som antyder dens potensielle relevans, og basert på hvor godt disse nøklene matcher den nåværende konteksten (eller forespørselen), bidrar de med en ‘verdi’ eller vekt til forutsigelsen.
Disse avanserte AI-dyp-læringsmodellene har integrert seg sømløst i ulike anvendelser, fra Google’s søkemotorenforbedringer med BERT til GitHub’s Copilot, som utnytter Large Language Models (LLMs) for å konvertere enkle kodefragmenter til fullstendige kildekoder.
Large Language Models (LLMs) som GPT-4, Bard og LLaMA er kolossale konstruksjoner designet for å tyde og generere menneskelig språk, kode og mer. Deres enorme størrelse, som varierer fra milliarder til trillioner parametre, er en av de avgjørende egenskapene. Disse LLMs mates med store mengder tekstdata, som gjør det mulig for dem å forstå kompleksiteten i menneskelig språk. En slående egenskap ved disse modellene er deres evne til “few-shot“-læring. I motsetning til konvensjonelle modeller som trenger store mengder spesifik treningdata, kan LLMs generalisere fra svært begrensede eksempler (eller “skudd”)
Tilstand for store språkmodeller (LLMs) per midten av 2023
| Modellnavn | Utvikler | Parametre | Tilgjengelighet og tilgang | Merkeverdige egenskaper og bemerkninger |
| GPT-4 | OpenAI | 1,5 billion | Ikke åpen kilde, API-tilgang bare | Impresjonert ytelse på en rekke oppgaver, kan prosessere bilder og tekst, maksimal innputt-lengde 32 768 token |
| GPT-3 | OpenAI | 175 milliarder | Ikke åpen kilde, API-tilgang bare | Har vist few-shot- og zero-shot-læringsmuligheter. Utfører tekstfullføring på naturlig språk. |
| BLOOM | BigScience | 176 milliarder | Nedlastbar modell, vert API tilgjengelig | Flerspråklig LLM utviklet av globalt samarbeid. Støtter 13 programmeringsspråk. |
| LaMDA | 173 milliarder | Ikke åpen kilde, ingen API eller nedlasting | Trenet på dialog, kan lære å snakke om nesten hva som helst | |
| MT-NLG | Nvidia/Microsoft | 530 milliarder | API-tilgang ved søknad | Utnytter transformer-basert Megatron-arkitektur for ulike NLP-oppgaver. |
| LLaMA | Meta AI | 7B til 65B) | Nedlastbar ved søknad | Mål er å demokratisere AI ved å tilby tilgang til forskning, myndigheter og akademia. |
Hvordan brukes LLMs?
LLMs kan brukes på flere måter, inkludert:
- Direkte anvendelse: Bare bruke en forhånds-trent LLM for tekstgenerering eller -prosessering. For eksempel, bruke GPT-4 til å skrive en bloggpost uten noen ytterligere finjustering.
- Finjustering: Tilpasse en forhånds-trent LLM for en bestemt oppgave, en metode kjent som overføringslæring. Et eksempel ville være å tilpasse T5 for å generere sammenfatninger for dokumenter i en bestemt bransje.
- Informasjonsutvinning: Bruke LLMs, som BERT eller GPT, som en del av større arkitekturer for å utvikle systemer som kan hente og kategorisere informasjon.
Multi-hode-oppmerksomhet: Hvorfor én når du kan ha mange?
Men å stole på en enkelt oppmerksomhetsmekanisme kan være begrensende. Forskjellige ord eller sekvenser i en tekst kan ha forskjellige typer relevans eller assosiasjoner. Dette er hvor multi-hode-oppmerksomhet kommer inn. I stedet for ett sett med oppmerksomhetsvekt, anvender multi-hode-oppmerksomhet flere sett, som gjør det mulig for modellen å fange en rikere variasjon av relasjoner i innputt-teksten. Hvert oppmerksomhets-“hode” kan fokusere på forskjellige deler eller aspekter av innputt-teksten, og deres kombinerte kunnskap brukes til den endelige forutsigelsen.
ChatGPT: Det mest populære generative AI-verktøyet
Startende med GPTs opprinnelse i 2018, var modellen bygget på grunnlag av 12 lag, 12 oppmerksomhets-hoder og 120 millioner parametre, hovedsakelig trenet på en datasett kalt BookCorpus. Dette var en imponerende start, som ga en glimt av fremtiden for språkmodeller.
GPT-2, lansert i 2019, hadde en firedobling av lag og oppmerksomhets-hoder. Betydelig, dens parameterantall skjøt opp til 1,5 milliarder. Denne forbedrede versjonen ble trenet på WebText, en datasett beriket med 40 GB tekst fra ulike Reddit-lenker.
GPT-3, lansert i mai 2020, hadde 96 lag, 96 oppmerksomhets-hoder og et massivt parameterantall på 175 milliarder. Hva som satte GPT-3 apart, var dens mangfoldige treningdata, som omfattet CommonCrawl, WebText, Engelsk Wikipedia, bokkorpus og andre kilder, som totalt utgjorde 570 GB.
Intrikasjonene i ChatGPTs virkemåte forblir en nært voktet hemmelighet. Imidlertid er en prosess kalt “forsterket læring fra menneskelig tilbakemelding” (RLHF) kjent for å være avgjørende. Opprinnelig fra et tidligere ChatGPT-prosjekt, var denne teknikken instrumental i å finjustere GPT-3,5-modellen for å være mer i samsvar med skriftlige instruksjoner.
ChatGPTs trening består av en tre-leddet tilnærming:
- Overvåket finjustering: Inkluderer å kuratere menneskeskrevne konversasjonsinndata og -utdata for å finjustere den underliggende GPT-3,5-modellen.
- Belønningmodellering: Mennesker rangerer ulike modellutdata basert på kvalitet, som hjelper med å trene en belønningmodell som scorer hver utdata basert på samtalekonteksten.
- Forsterket læring: Samtalekonteksten tjener som en bakgrunn hvor den underliggende modellen foreslår en respons. Denne responsen vurderes av belønningmodellen, og prosessen optimaliseres ved hjelp av en algoritme kalt proximal policy-optimierung (PPO).
For de som bare begynner å bruke ChatGPT, kan en omfattende startguide finnes her. Hvis du ønsker å dykke dyptere inn i prompt-engineering med ChatGPT, har vi også en avansert guide som belyser de siste og mest avanserte prompt-teknikkene, tilgjengelig på ‘ChatGPT & Avansert Prompt-Engineering: Driver AI-Evolusjonen‘.
Diffusjon og multimodale modeller
Mens modeller som VAEs og GANs genererer sine utdata gjennom en enkelt passering, og dermed låst til hva de produserer, har diffusjonsmodeller introdusert konseptet “iterativ forbedring“. Gjennom denne metoden, returnerer de tilbake, forbedrer feil fra tidligere trinn, og gradvis produserer en mer polert resultat.
Sentral for diffusjonsmodeller er kunsten av “korrupsjon” og “forbedring”. I deres treningsfase, korrupteres et typisk bilde gradvis ved å legge til varierende nivåer av støy. Denne støyende versjonen mates til modellen, som forsøker å “rense” eller “korrigere” den. Gjennom flere runder av dette, blir modellen dyktig i restaurering, og forstår både subtile og betydelige avvik.
Prosessen med å generere nye bilder etter trening er interessant. Startende med en fullstendig tilfeldig innputt, forbedres den kontinuerlig ved hjelp av modellens prediksjoner. Målet er å oppnå et perfekt bilde med minst mulig antall trinn. Kontrollen over korrupsjonsnivået gjøres gjennom en “støy-schedule”, en mekanisme som styrer hvor mye støy som legges til på ulike stadier. En scheduler, som sett i biblioteker som “diffusers“, dikterer naturen til disse støyende versjoner basert på etablerte algoritmer.
En essensiell arkitektonisk ryggrad for mange diffusjonsmodeller er UNet—et konvolusjonsneuralt nettverk tilpasset for oppgaver som krever utdata som speiler den romlige dimensjonen til innputt. Det er en blanding av ned-sampling og opp-sampling lag, intrikat tilkoblet for å beholde høy-oppløselige data, avgjørende for bilde-relaterte utdata.
For å dykke dyptere inn i generative modeller, dukker OpenAIs DALL-E 2 opp som et strålende eksempel på fusjonen av tekstuelle og visuelle AI-kapasiteter. Den anvender en tre-leddet struktur:
DALL-E 2 viser en tre-leddet arkitektur:
- Tekst-encoder: Den transformerer tekst-prompten til en konseptuell innkapsling i en latent rom. Denne modellen starter ikke fra scratch. Den hviler på OpenAIs Contrastive Language–Image Pre-training (CLIP) datasett som sin basis. CLIP tjener som en bro mellom visuell og tekstuell data ved å lære visuelle konsepter ved hjelp av naturlig språk. Gjennom en mekanisme kjent som kontrastiv læring, identifiserer og matcher den bilder med deres tilhørende tekstlige beskrivelser.
- Prior: Tekst-innkapslingen fra encoderen konverteres til et bilde-innkapsling. DALL-E 2 testet både autoregresive og diffusjonsmetoder for denne oppgaven, med den siste viste bedre resultater. Autoregresive modeller, som sett i Transformatorer og PixelCNN, genererer utdata i sekvenser. På den andre siden, anvender diffusjonsmodeller, som den brukt i DALL-E 2, random støy til å generere predikerte bilde-innkapslinger med hjelp av tekst-innkapslinger.
- Decoder: Kulminasjonen av prosessen, denne delen genererer den endelige visuelle utdataen basert på tekst-prompten og bilde-innkapslingen fra prior-fasen. DALL-E 2s decoder skylder sin arkitektur til en annen modell, GLIDE, som også kan produsere realistiske bilder fra tekstlige hint.
Python-brukere interessert i Langchain bør sjekke ut vår detaljerte tutorial som dekker alt fra grunnleggende til avanserte teknikk.
Anvendelser av Generative AI
Tekstlige domener
Startende med tekst, har Generative AI blitt fundamentalt endret av chatboter som ChatGPT. Avhengig av naturlig språkprosessering (NLP) og store språkmodeller (LLMs), er disse entitetene i stand til å utføre oppgaver som kodegenerering, språkoversettelse, sammenfatting og sentimentanalyse. ChatGPT, for eksempel, har sett en vidstrakt anvendelse, og er blitt en standard for millioner. Dette er ytterligere forsterket av konversasjons-AI-plattformer, grunnlagt på LLMs som GPT-4, PaLM og BLOOM, som lett produserer tekst, assisterer i programmering og tilbyr matematisk resonnement.
Fra et kommersielt perspektiv, blir disse modellene uvurderlige. Bedrifter anvender dem for en rekke operasjoner, inkludert risikostyring, lageroptimalisering og prognostisering av etterspørsel. Noen bemerkelsesverdige eksempler inkluderer Bing AI, Google’s BARD og ChatGPT API.
Kunst
Verden av bilder har sett dramatiske transformasjoner med Generative AI, spesielt siden DALL-E 2s introduksjon i 2022. Denne teknologien, som kan generere bilder fra tekstlige hint, har både kunstneriske og profesjonelle implikasjoner. For eksempel, har midjourney utnyttet denne teknologien til å produsere imponerende realistiske bilder. Denne nylige artikkelen avkoder midjourney i en detaljert guide, belyste både plattformen og dens prompt-engineering-intrikasjoner. Videre, plattformer som Alpaca AI og Photoroom AI anvender Generative AI for avanserte bilde-redigeringsfunksjoner, som bakgrunnsfjerning, objektfjerning og selv ansiktsrestaurering.
Video-produksjon
Video-produksjon, selv om den fortsatt er i sin spede begynnelse i Generative AI-verden, viser lovende fremgang. Plattformer som Imagen Video, Meta Make A Video og Runway Gen-2 presses grensene for hva som er mulig, selv om fullt realistiske utdata fortsatt er på horisonten. Disse modellene tilbyr betydelig nytte for å skape digitale menneskevideoer, med applikasjoner som Synthesia og SuperCreator i spissen. Bemerkelsesverdig, tilbyr Tavus AI en unik salgsproporsjon ved å tilpasse videoer for enkelt-tilhørere, en velsignelse for bedrifter.
Kode-oppbygging
Koding, en uunnværlig del av vår digitale verden, har ikke forblitt urørt av Generative AI. Selv om ChatGPT er et favorittverktøy, er flere andre AI-applikasjoner utviklet for koding-formål. Disse plattformene, som GitHub Copilot, Alphacode og CodeComplete, fungerer som kode-assistanter og kan selv produsere kode fra tekstlige hint. Hva som er interessant, er tilpasningsmulighetene til disse verktøyene. Codex, drivkraften bak GitHub Copilot, kan tilpasses enkeltpersoners kode-stil, understreker personliggjøringspotensialet i Generative AI.
Konklusjon
Kombinerer menneskelig kreativitet med maskinkomputasjon, har det utviklet seg til et uvurderlig verktøy, med plattformer som ChatGPT og DALL-E 2 som presses grensene for hva som er tenkelig. Fra å skape tekstlige innhold til å forme visuelle mesterverk, er deres anvendelser vidt forgrenet og varierte.
Som med all teknologi, er etiske implikasjoner av største betydning. Mens Generative AI lover ubegrensede kreative muligheter, er det avgjørende å bruke den ansvarlig, og være klar over potensielle fordommer og data-manipulasjonskraft.
Med verktøy som ChatGPT blir mer tilgjengelige, er nå det perfekte tidspunktet til å teste vannet og eksperimentere. Uansett om du er en kunstner, koder eller teknologi-entusiast, er Generative AI-området fullt av muligheter som venter på å bli utforsket. Revolusjonen er ikke på horisonten; den er her og nå. Så, dykk inn!

















