Kunstig intelligens

Generative AI: The Idea Behind CHATGPT, Dall-E, Midjourney og mer

oppdatert on August 8, 2023

En verden av kunst, kommunikasjon og hvordan vi oppfatter virkeligheten er i rask endring. Hvis vi ser tilbake på historien til menneskelig innovasjon, kan vi betrakte oppfinnelsen av hjulet eller oppdagelsen av elektrisitet som monumentale sprang. I dag finner en ny revolusjon sted – som bygger bro mellom menneskelig kreativitet og maskinell beregning. Det er Generativ AI.

Generative modeller har visket ut grensen mellom mennesker og maskiner. Med bruken av modeller som GPT-4, som bruker transformatormoduler, har vi gått nærmere naturlig og kontekstrik språkgenerering. Disse fremskrittene har drevet applikasjoner innen dokumentoppretting, chatbot-dialogsystemer og til og med syntetisk musikkkomposisjon.

Nylige Big-Tech-beslutninger understreker betydningen. Microsoft er allerede avslutter sin Cortana-app denne måneden for å prioritere nyere Generative AI-innovasjoner, som Bing Chat. Apple har også dedikert en betydelig del av sin FoU-budsjett på 22.6 milliarder dollar til generativ AI, som indikert av administrerende direktør Tim Cook.

En ny æra av modeller: Generativ vs. Diskriminerende

Historien om Generative AI handler ikke bare om applikasjonene, men fundamentalt om dens indre funksjoner. I økosystemet med kunstig intelligens eksisterer to modeller: diskriminerende og generative.

Diskriminerende modeller er det de fleste møter i dagliglivet. Disse algoritmene tar inndata, for eksempel en tekst eller et bilde, og parer det med en målutgang, som en ordoversettelse eller medisinsk diagnose. De handler om kartlegging og prediksjon.

Generative modeller, derimot, er skapere. De tolker eller forutsier ikke bare; de genererer nye, komplekse utdata fra vektorer av tall som ofte ikke engang er relatert til virkelige verdier.

Teknologien bak generative modeller

Generative modeller skylder sin eksistens til dype nevrale nettverk, sofistikerte strukturer designet for å etterligne den menneskelige hjernens funksjonalitet. Ved å fange opp og behandle mangefasetterte variasjoner i data, fungerer disse nettverkene som ryggraden i en rekke generative modeller.

Hvordan kommer disse generative modellene til live? Vanligvis er de bygget med dype nevrale nettverk, optimalisert for å fange opp de mangefasetterte variasjonene i data. Et godt eksempel er Generativ motstandernettverk (GAN), der to nevrale nettverk, generatoren og diskriminatoren, konkurrerer og lærer av hverandre i et unikt forhold mellom lærer og elev. Fra malerier til stiloverføring, fra musikkkomposisjon til spilling, utvikler og utvider disse modellene seg på måter som tidligere var utenkelige.

Dette stopper ikke med GAN-er. Variasjonelle autokodere (VAEs), er en annen sentral aktør innen det generative modellfeltet. VAE-er skiller seg ut for sin evne til å lage fotorealistiske bilder fra tilsynelatende tilfeldige tall. Hvordan? Å behandle disse tallene gjennom en latent vektor gir kunst som gjenspeiler kompleksiteten til menneskelig estetikk.

Generative AI-typer: Tekst til tekst, tekst til bilde

Transformers og LLM

Avisen "Oppmerksomhet er alt du trenger” av Google Brain markerte et skifte i måten vi tenker på tekstmodellering. I stedet for komplekse og sekvensielle arkitekturer som Recurrent Neural Networks (RNNs) eller Convolutional Neural Networks (CNNs), introduserte Transformer-modellen begrepet oppmerksomhet, som i hovedsak innebar å fokusere på forskjellige deler av inndatateksten avhengig av konteksten. En av hovedfordelene med dette var den enkle parallelliseringen. I motsetning til RNN-er som behandler tekst sekvensielt, noe som gjør dem vanskeligere å skalere, kan Transformers behandle deler av teksten samtidig, noe som gjør treningen raskere og mer effektiv på store datasett.

: Transformator-modell arkitektur

I en lang tekst har ikke alle ord eller setninger du leser like stor betydning. Noen deler krever mer oppmerksomhet basert på konteksten. Denne evnen til å skifte fokus basert på relevans er det oppmerksomhetsmekanismen etterligner.

For å forstå dette, tenk på en setning: "Unite AI Publiser AI and Robotics news." Nå krever det å forutsi det neste ordet en forståelse av hva som betyr mest i den forrige konteksten. Begrepet "Robotics" kan antyde at det neste ordet kan være relatert til et bestemt fremskritt eller begivenhet innen robotikkfeltet, mens "Publiser" kan indikere at følgende kontekst kan fordype seg i en nylig publikasjon eller artikkel.

: Selvoppmerksomhet illustrasjon

Oppmerksomhetsmekanismer i Transformers er designet for å oppnå dette selektive fokuset. De måler viktigheten av ulike deler av inndatateksten og bestemmer hvor de skal "se" når de genererer et svar. Dette er en avvik fra eldre arkitekturer som RNN-er som prøvde å stappe essensen av all inndatatekst inn i en enkelt "tilstand" eller "minne".

Virksomhetens virkemåte kan sammenlignes med et system for gjenfinning av nøkkelverdier. Når du prøver å forutsi det neste ordet i en setning, tilbyr hvert foregående ord en "nøkkel" som antyder dens potensielle relevans, og basert på hvor godt disse nøklene samsvarer med gjeldende kontekst (eller spørring), bidrar de med en "verdi" eller vekt til forutsigelse.

Disse avanserte AI dyplæringsmodellene er sømløst integrert i ulike applikasjoner, fra Googles søkemotorforbedringer med BERT til GitHubs Copilot, som utnytter muligheten til Large Language Models (LLM) for å konvertere enkle kodebiter til fullt funksjonelle kildekoder.

Store språkmodeller (LLM) som GPT-4, Bard og LLaMA, er kolossale konstruksjoner designet for å dechiffrere og generere menneskelig språk, kode og mer. Deres enorme størrelse, som strekker seg fra milliarder til billioner av parametere, er en av de definerende egenskapene. Disse LLM-ene mates med store mengder tekstdata, noe som gjør dem i stand til å forstå vanskelighetene ved menneskelig språk. Et slående kjennetegn ved disse modellene er deres evne til "fåskudd"læring. I motsetning til konvensjonelle modeller som trenger store mengder spesifikke treningsdata, kan LLM-er generalisere fra et svært begrenset antall eksempler (eller "bilder")

State of Large Language Models (LLMs) etter midten av 2023

Modellnavn	Utvikler	parametere	Tilgjengelighet og tilgang	Bemerkelsesverdige funksjoner og bemerkninger
GPT-4	OpenAI	1.5 Trillion	Ikke åpen kildekode, kun API-tilgang	Imponerende ytelse på en rekke oppgaver kan behandle bilder og tekst, maksimal inndatalengde 32,768 XNUMX tokens
GPT-3	OpenAI	175 milliarder	Ikke åpen kildekode, kun API-tilgang	Demonstrerte få-skudd og null-skudd læringsevner. Utfører tekstfullføring på naturlig språk.
BLOOM	BigScience	176 milliarder	Nedlastbar modell, vertsbasert API tilgjengelig	Flerspråklig LLM utviklet av globalt samarbeid. Støtter 13 programmeringsspråk.
TheMDA	Google	173 milliarder	Ikke åpen kildekode, ingen API eller nedlasting	Opplært i dialog kunne lære å snakke om nesten hva som helst
MT-NLG	Nvidia/Microsoft	530 milliarder	API-tilgang etter applikasjon	Bruker transformatorbasert Megatron-arkitektur for ulike NLP-oppgaver.
Samtaler	Meta AI	7B til 65B)	Kan lastes ned via applikasjon	Har til hensikt å demokratisere AI ved å tilby tilgang til de innen forskning, myndigheter og akademia.

Hvordan brukes LLM-er?

LLM-er kan brukes på flere måter, inkludert:

Direkte bruk: Bare å bruke en forhåndsopplært LLM for tekstgenerering eller -behandling. For eksempel å bruke GPT-4 til å skrive et blogginnlegg uten ytterligere finjustering.
Finjustering: Tilpasning av en forhåndstrent LLM for en spesifikk oppgave, en metode kjent som transfer learning. Et eksempel kan være å tilpasse T5 for å generere sammendrag for dokumenter i en spesifikk bransje.
Informasjonsinnhenting: Bruke LLM-er, som BERT eller GPT, som en del av større arkitekturer for å utvikle systemer som kan hente og kategorisere informasjon.

: ChatGPT finjusteringsarkitektur

Multi-head oppmerksomhet: Hvorfor en når du kan ha mange?

Å stole på en enkelt oppmerksomhetsmekanisme kan imidlertid være begrensende. Ulike ord eller sekvenser i en tekst kan ha varierte typer relevans eller assosiasjoner. Det er her oppmerksomhet med flere hoder kommer inn. I stedet for ett sett med oppmerksomhetsvekter, bruker multihode oppmerksomhet flere sett, slik at modellen kan fange et rikere utvalg av sammenhenger i inndatateksten. Hvert oppmerksomhets-"hode" kan fokusere på forskjellige deler eller aspekter av input, og deres kombinerte kunnskap brukes til den endelige prediksjonen.

ChatGPT: Det mest populære generative AI-verktøyet

Fra og med GPTs oppstart i 2018, ble modellen i hovedsak bygget på grunnlaget av 12 lag, 12 oppmerksomhetshoder og 120 millioner parametere, primært trent på et datasett kalt BookCorpus. Dette var en imponerende start, og ga et glimt inn i fremtiden til språkmodeller.

GPT-2, avduket i 2019, kan skilte med en firedobling av lag og oppmerksomhetshoder. Betydelig nok steg parametertallet til 1.5 milliarder. Denne forbedrede versjonen hentet opplæringen fra WebText, et datasett beriket med 40 GB tekst fra forskjellige Reddit-lenker.

GPT-3, lansert i mai 2020, hadde 96 lag, 96 oppmerksomhetshoder og et enormt parameterantall på 175 milliarder. Det som skilte GPT-3 ut var dens varierte treningsdata, som omfattet CommonCrawl, WebText, engelsk Wikipedia, bokkorpus og andre kilder, og kombinerte for totalt 570 GB.

Forviklingene ved ChatGPTs virkemåte forblir en tett bevoktet hemmelighet. Imidlertid er en prosess kalt 'forsterkende læring fra menneskelig tilbakemelding' (RLHF) kjent for å være sentral. Denne teknikken, som stammer fra et tidligere ChatGPT-prosjekt, var medvirkende til å finpusse GPT-3.5-modellen for å være mer på linje med skriftlige instruksjoner.

ChatGPTs opplæring består av en tre-lags tilnærming:

Overvåket finjustering: Innebærer kurering av menneskeskrevne samtaleinndata og -utganger for å avgrense den underliggende GPT-3.5-modellen.
Belønningsmodellering: Mennesker rangerer ulike modellutganger basert på kvalitet, og hjelper til med å trene en belønningsmodell som skårer hver utgang med tanke på samtalens kontekst.
Forsterkende læring: Samtalekonteksten fungerer som et bakteppe der den underliggende modellen foreslår en respons. Denne responsen vurderes av belønningsmodellen, og prosessen optimaliseres ved hjelp av en algoritme kalt proximal policy optimization (PPO).

For de som bare dypper tærne i ChatGPT, kan du finne en omfattende startguide her.. Hvis du ønsker å fordype deg dypere i prompt engineering med ChatGPT, har vi også en avansert veiledning som belyser de nyeste og state of the art promptteknikkene, tilgjengelig på 'ChatGPT & Advanced Prompt Engineering: Driving the AI Evolution'.

Diffusjon og multimodale modeller

Mens modeller som VAE-er og GAN-er genererer utgangene sine gjennom en enkelt passasje, og dermed låst til det de produserer, har diffusjonsmodeller introdusert konseptet 'iterativ foredling'. Gjennom denne metoden sirkler de tilbake, foredler feil fra tidligere trinn, og gir gradvis et mer polert resultat.

Sentralt i diffusjonsmodeller er kunsten å "korrupsjon" og "forfining". I treningsfasen blir et typisk bilde gradvis ødelagt ved å legge til varierende støynivåer. Denne støyende versjonen blir deretter matet til modellen, som prøver å "denoise" eller "de-korrupte" den. Gjennom flere runder med dette, blir modellen dyktig til restaurering, og forstår både subtile og betydelige avvik.

: Bilde generert fra Midjourney

Prosessen med å generere nye bilder etter trening er spennende. Fra og med en fullstendig randomisert inndata, blir den kontinuerlig foredlet ved å bruke modellens spådommer. Hensikten er å oppnå et perfekt bilde med minimum antall trinn. Kontroll av korrupsjonsnivået gjøres gjennom en "støyplan", en mekanisme som styrer hvor mye støy som påføres på ulike stadier. En planlegger, sett i biblioteker som "diffusorer", dikterer arten av disse støyende gjengivelsene basert på etablerte algoritmer.

En viktig arkitektonisk ryggrad for mange diffusjonsmodeller er UNet– et konvolusjonelt nevralt nettverk skreddersydd for oppgaver som krever utganger som speiler den romlige dimensjonen til innganger. Det er en blanding av nedsampling og oppsamplingslag, intrikat koblet for å beholde høyoppløselige data, sentralt for bilderelaterte utdata.

Dykker dypere inn i riket av generative modeller, OpenAI's DALL-E2 fremstår som et lysende eksempel på fusjonen av tekstlige og visuelle AI-evner. Den bruker en tre-lags struktur:

DALL-E 2 viser en tredelt arkitektur:

Tekstkoder: Den forvandler tekstmeldingen til en konseptuell innebygging i et latent rom. Denne modellen starter ikke fra nullpunkt. Den støtter seg på OpenAIs Contrastive Language–Image Pre-training (CLIP) datasettet som grunnlag. CLIP fungerer som en bro mellom visuelle og tekstlige data ved å lære visuelle konsepter ved bruk av naturlig språk. Gjennom en mekanisme kjent som kontrastiv læring, identifiserer og matcher den bilder med deres tilsvarende tekstlige beskrivelser.
The Prior: Tekstinnbyggingen avledet fra koderen blir deretter konvertert til en bildeinnbygging. DALL-E 2 testet både autoregressive og diffusjonsmetoder for denne oppgaven, hvor sistnevnte viste overlegne resultater. Autoregressive modeller, som sett i Transformers og PixelCNN, genererer utganger i sekvenser. På den annen side transformerer diffusjonsmodeller, som den som brukes i DALL-E 2, tilfeldig støy til predikerte bildeinnbygginger ved hjelp av tekstinnbygging.
Dekoderen: Høydepunktet i prosessen, denne delen genererer det endelige visuelle resultatet basert på tekstmeldingen og bildeinnbyggingen fra forrige fase. DALL.E 2s dekoder skylder arkitekturen sin til en annen modell, GLID, som også kan produsere realistiske bilder fra tekstlige signaler.

: Forenklet arkitektur av DALL-E-modellen

Python-brukere som er interessert i Langkjede bør sjekke ut vår detaljerte veiledning som dekker alt fra det grunnleggende til avanserte teknikker.

Applikasjoner av generativ AI

Tekstlige domener

Fra og med tekst, har Generativ AI blitt fundamentalt endret av chatbots som ChatGPT. Disse enhetene er sterkt avhengige av Natural Language Processing (NLP) og store språkmodeller (LLM), og har myndighet til å utføre oppgaver som spenner fra kodegenerering og språkoversettelse til oppsummering og sentimentanalyse. ChatGPT, for eksempel, har sett utbredt adopsjon, og har blitt en stift for millioner. Dette er ytterligere forsterket av konversasjons-AI-plattformer, basert på LLM-er som GPT-4, PALMog BLOOM, som enkelt produserer tekst, hjelper til med programmering og til og med tilbyr matematisk resonnement.

Fra et kommersielt perspektiv er disse modellene i ferd med å bli uvurderlige. Bedrifter bruker dem til et utall av operasjoner, inkludert risikostyring, lageroptimalisering og prognosekrav. Noen bemerkelsesverdige eksempler inkluderer Bing AI, Googles BARD og ChatGPT API.

Kunst

Bildeverdenen har sett dramatiske transformasjoner med Generative AI, spesielt siden DALL-E 2s introduksjon i 2022. Denne teknologien, som kan generere bilder fra tekstlige spørsmål, har både kunstneriske og profesjonelle implikasjoner. Midjourney har for eksempel utnyttet denne teknologien til å produsere imponerende realistiske bilder. Dette siste innlegget avmystifiserer Midjourney i en detaljert veiledning, som belyser både plattformen og dens umiddelbare ingeniørkomplikasjoner. Videre bruker plattformer som Alpaca AI og Photoroom AI Generative AI for avanserte bilderedigeringsfunksjoner som bakgrunnsfjerning, objektsletting og til og med ansiktsrestaurering.

Video Produksjon

Videoproduksjon viser lovende fremskritt, mens den fortsatt er i sin begynnelse i riket av Generative AI. Plattformer som Imagen Video, Meta Make A Video og Runway Gen-2 flytter grensene for hva som er mulig, selv om virkelig realistiske utganger fortsatt er i horisonten. Disse modellene tilbyr betydelig nytte for å lage digitale menneskelige videoer, med applikasjoner som Synthesia og SuperCreator som leder an. Spesielt tilbyr Tavus AI et unikt salgsforslag ved å tilpasse videoer for individuelle publikummere, en velsignelse for bedrifter.

Kodeoppretting

Koding, et uunnværlig aspekt av vår digitale verden, har ikke vært uberørt av Generative AI. Selv om ChatGPT er et foretrukket verktøy, har flere andre AI-applikasjoner blitt utviklet for kodingsformål. Disse plattformene, som GitHub Copilot, Alphacode og CodeComplete, fungerer som kodeassistenter og kan til og med produsere kode fra tekstmeldinger. Det som er spennende er tilpasningsevnen til disse verktøyene. Codex, drivkraften bak GitHub Copilot, kan skreddersys til en persons kodestil, og understreker personaliseringspotensialet til Generative AI.

konklusjonen

Ved å blande menneskelig kreativitet med maskinberegning, har det utviklet seg til et uvurderlig verktøy, med plattformer som ChatGPT og DALL-E 2 som flytter grensene for hva som er tenkelig. Fra å lage tekstinnhold til å skulpturere visuelle mesterverk, deres applikasjoner er store og varierte.

Som med all teknologi, er etiske implikasjoner avgjørende. Mens Generativ AI lover grenseløs kreativitet, er det avgjørende å bruke det på en ansvarlig måte, og være klar over potensielle skjevheter og kraften til datamanipulering.

Med verktøy som ChatGPT som blir mer tilgjengelige, er det nå det perfekte tidspunktet for å teste vannet og eksperimentere. Enten du er en artist, koder eller teknologientusiast, er riket til Generative AI full av muligheter som venter på å bli utforsket. Revolusjonen er ikke i horisonten; det er her og nå. Så, dykk inn!

Relaterte temaer:chat gpt DALL-E dyp læring generativ ai LLM midt på reisen

Neste

Generativ AI inntar scenen på Ai2023-konferansen i 4

Ikke gå glipp av

AIs analoge resonneringsevner: utfordrende menneskelig intelligens?

Aayush Mittal

Jeg har brukt de siste fem årene på å fordype meg i den fascinerende verdenen av maskinlæring og dyplæring. Min lidenskap og ekspertise har ført til at jeg har bidratt til over 50 ulike programvareprosjekter, med spesielt fokus på AI/ML. Min pågående nysgjerrighet har også trukket meg mot naturlig språkbehandling, et felt jeg er ivrig etter å utforske videre.