stub Generative AI: The Idea Behind CHATGPT, Dall-E, Midjourney and More - Unite.AI
Følg os

Kunstig intelligens

Generative AI: The Idea Behind CHATGPT, Dall-E, Midjourney og mere

mm
Opdateret on
Generativ AI - Midjourney Prompt

Verden af ​​kunst, kommunikation og hvordan vi opfatter virkeligheden er i hastig forandring. Hvis vi ser tilbage på historien om menneskelig innovation, kan vi betragte opfindelsen af ​​hjulet eller opdagelsen af ​​elektricitet som monumentale spring. I dag finder en ny revolution sted - der bygger bro mellem menneskelig kreativitet og maskinel beregning. Det er Generativ AI.

Generative modeller har sløret grænsen mellem mennesker og maskiner. Med fremkomsten af ​​modeller som GPT-4, der anvender transformermoduler, er vi trådt tættere på naturlig og kontekstrig sproggenerering. Disse fremskridt har givet næring til applikationer inden for dokumentoprettelse, chatbot-dialogsystemer og endda syntetisk musikkomposition.

Nylige Big-Tech-beslutninger understreger dens betydning. Microsoft er allerede afbryde sin Cortana-app denne måned for at prioritere nyere Generative AI-innovationer, såsom Bing Chat. Apple har også dedikeret en betydelig del af sin R&D-budget på 22.6 milliarder dollar til generativ kunstig intelligens, som indikeret af administrerende direktør Tim Cook.

En ny æra af modeller: Generativ vs. Diskriminerende

Historien om Generative AI handler ikke kun om dets applikationer, men grundlæggende om dets indre funktioner. I økosystemet med kunstig intelligens eksisterer to modeller: diskriminerende og generative.

Diskriminerende modeller er, hvad de fleste mennesker møder i dagligdagen. Disse algoritmer tager inputdata, såsom en tekst eller et billede, og parrer dem med et måloutput, såsom en ordoversættelse eller medicinsk diagnose. De handler om kortlægning og forudsigelse.

Generative modeller er på den anden side skabere. De fortolker eller forudsiger ikke bare; de genererer nye, komplekse output fra vektorer af tal, der ofte ikke engang er relateret til virkelige værdier.

 

Generative AI-typer: Tekst til tekst, tekst til billede (GPT, DALL-E, Midjourney)

Teknologierne bag generative modeller

Generative modeller skylder deres eksistens til dybe neurale netværk, sofistikerede strukturer designet til at efterligne den menneskelige hjernes funktionalitet. Ved at fange og behandle mangefacetterede variationer i data tjener disse netværk som rygraden i adskillige generative modeller.

Hvordan kommer disse generative modeller til live? Normalt er de bygget med dybe neurale netværk, optimeret til at fange de mangefacetterede variationer i data. Et godt eksempel er Generativt kontradiktorisk netværk (GAN), hvor to neurale netværk, generatoren og diskriminatoren, konkurrerer og lærer af hinanden i et unikt lærer-elev-forhold. Fra malerier til stiloverførsel, fra musikkomposition til spil, udvikler og udvider disse modeller sig på måder, som tidligere var utænkelige.

Dette stopper ikke med GAN'er. Variationelle autoencodere (VAE'er), er en anden central aktør inden for det generative modelfelt. VAE'er skiller sig ud for deres evne til at skabe fotorealistiske billeder fra tilsyneladende tilfældige tal. Hvordan? Behandling af disse tal gennem en latent vektor afføder kunst, der afspejler kompleksiteten af ​​menneskelig æstetik.

Generative AI-typer: Tekst til tekst, tekst til billede

Transformere og LLM

Papiret "Opmærksomhed er alt hvad du behøver” af Google Brain markerede et skift i den måde, vi tænker tekstmodellering på. I stedet for komplekse og sekventielle arkitekturer som Recurrent Neural Networks (RNN'er) eller Convolutional Neural Networks (CNN'er), introducerede Transformer-modellen begrebet opmærksomhed, hvilket i det væsentlige betød at fokusere på forskellige dele af inputteksten afhængigt af konteksten. En af de vigtigste fordele ved dette var den lette parallelisering. I modsætning til RNN'er, der behandler tekst sekventielt, hvilket gør dem sværere at skalere, kan Transformers behandle dele af teksten samtidigt, hvilket gør træningen hurtigere og mere effektiv på store datasæt.

I en lang tekst er det ikke alle ord eller sætninger, du læser, der har samme betydning. Nogle dele kræver mere opmærksomhed baseret på konteksten. Denne evne til at flytte vores fokus baseret på relevans er, hvad opmærksomhedsmekanismen efterligner.

For at forstå dette, tænk på en sætning: "Unite AI Publicer AI og Robotics nyheder." Nu kræver det at forudsige det næste ord en forståelse af, hvad der betyder mest i den foregående sammenhæng. Udtrykket "Robotics" kan antyde, at det næste ord kan være relateret til en specifik fremgang eller begivenhed inden for robotteknologi, mens "Publicer" kan indikere, at den følgende kontekst kan dykke ned i en nylig publikation eller artikel.

Self-Attention Mechanism forklaring på en demo-sætning
Illustration af selvopmærksomhed

Opmærksomhedsmekanismer i Transformers er designet til at opnå dette selektive fokus. De måler vigtigheden af ​​forskellige dele af inputteksten og beslutter, hvor de skal "se", når de genererer et svar. Dette er en afvigelse fra ældre arkitekturer som RNN'er, der forsøgte at proppe essensen af ​​al inputtekst i en enkelt 'tilstand' eller 'hukommelse'.

Opmærksomhedens virkemåde kan sammenlignes med et nøgleværdi-hentningssystem. I forsøget på at forudsige det næste ord i en sætning, tilbyder hvert foregående ord en 'nøgle', der antyder dets potentielle relevans, og baseret på hvor godt disse nøgler matcher den aktuelle kontekst (eller forespørgsel), bidrager de med en 'værdi' eller vægt til forudsigelse.

Disse avancerede AI deep learning-modeller er problemfrit integreret i forskellige applikationer, fra Googles søgemaskineforbedringer med BERT til GitHubs Copilot, som udnytter muligheden for Large Language Models (LLM'er) til at konvertere simple kodestykker til fuldt funktionelle kildekoder.

Store sprogmodeller (LLM'er) som GPT-4, Bard og LLaMA er kolossale konstruktioner designet til at dechifrere og generere menneskeligt sprog, kode og mere. Deres enorme størrelse, der spænder fra milliarder til billioner af parametre, er et af de afgørende træk. Disse LLM'er fodres med rigelige mængder tekstdata, hvilket gør dem i stand til at forstå det menneskelige sprogs forviklinger. Et slående kendetegn ved disse modeller er deres egnethed til "få skud"læring. I modsætning til konventionelle modeller, som har brug for store mængder af specifikke træningsdata, kan LLM'er generalisere ud fra et meget begrænset antal eksempler (eller "skud")

State of Large Language Models (LLM'er) efter midten af ​​2023

ModelnavnUdviklerparametreTilgængelighed og adgangBemærkelsesværdige funktioner og bemærkninger
GPT-4OpenAI1.5 billionerIkke Open Source, kun API-adgangImponerende ydeevne på en række opgaver kan behandle billeder og tekst, maksimal inputlængde 32,768 tokens
GPT-3OpenAI175 milliarderIkke Open Source, kun API-adgangDemonstrerede få-skuds- og nulskudsindlæringsevner. Udfører tekstfuldførelse i naturligt sprog.
BLOOMBigScience176 milliarderModel, der kan downloades, Hosted API tilgængeligFlersproget LLM udviklet af globalt samarbejde. Understøtter 13 programmeringssprog.
MDAGoogle173 milliarderIkke Open Source, ingen API eller downloadUddannet i dialog kunne lære at tale om stort set alt
MT-NLGNvidia/Microsoft530 milliarderAPI-adgang efter applikationAnvender transformerbaseret Megatron-arkitektur til forskellige NLP-opgaver.
OpkaldMeta AI7B til 65B)Kan downloades via applikationTilsigtet at demokratisere kunstig intelligens ved at tilbyde adgang til dem inden for forskning, regering og akademisk verden.

Hvordan bruges LLM'er?

LLM'er kan bruges på flere måder, herunder:

  1. Direkte udnyttelse: Simpelthen brug af en foruddannet LLM til tekstgenerering eller -behandling. For eksempel at bruge GPT-4 til at skrive et blogindlæg uden yderligere finjustering.
  2. Finjustering: Tilpasning af en præ-trænet LLM til en specifik opgave, en metode kendt som transfer learning. Et eksempel kunne være at tilpasse T5 til at generere resuméer for dokumenter i en specifik branche.
  3. Informationssøgning: Brug af LLM'er, såsom BERT eller GPT, som en del af større arkitekturer til at udvikle systemer, der kan hente og kategorisere information.
Generativ AI ChatGPT finindstilling
ChatGPT Fine Tuning Architecture

Opmærksomhed med flere hoveder: Hvorfor én, når du kan få mange?

At stole på en enkelt opmærksomhedsmekanisme kan dog være begrænsende. Forskellige ord eller sekvenser i en tekst kan have forskellige typer af relevans eller associationer. Det er her, at opmærksomhed med flere hoveder kommer ind i billedet. I stedet for ét sæt opmærksomhedsvægte anvender opmærksomhed med flere hoveder flere sæt, hvilket gør det muligt for modellen at fange en rigere variation af relationer i inputteksten. Hvert opmærksomheds-"hoved" kan fokusere på forskellige dele eller aspekter af inputtet, og deres kombinerede viden bruges til den endelige forudsigelse.

ChatGPT: Det mest populære Generative AI-værktøj

Fra og med GPT's start i 2018 blev modellen i det væsentlige bygget på grundlaget af 12 lag, 12 opmærksomhedshoveder og 120 millioner parametre, primært trænet på et datasæt kaldet BookCorpus. Dette var en imponerende start, der gav et indblik i fremtiden for sprogmodeller.

GPT-2, der blev afsløret i 2019, kunne prale af en firedobling af lag og opmærksomhedshoveder. Dets parameterantal steg markant til 1.5 mia. Denne forbedrede version hentede sin træning fra WebText, et datasæt beriget med 40 GB tekst fra forskellige Reddit-links.

GPT-3, der blev lanceret i maj 2020, havde 96 lag, 96 opmærksomhedshoveder og et massivt parameterantal på 175 mia. Det, der adskilte GPT-3, var dens forskelligartede træningsdata, omfattende CommonCrawl, WebText, engelsk Wikipedia, bogkorpus og andre kilder, der kombinerede til i alt 570 GB.

Forviklingerne i ChatGPT's virke er stadig en nøje bevogtet hemmelighed. Imidlertid er en proces, der kaldes 'forstærkende læring fra menneskelig feedback' (RLHF), kendt for at være afgørende. Denne teknik stammer fra et tidligere ChatGPT-projekt og var medvirkende til at finpudse GPT-3.5-modellen til at være mere tilpasset skriftlige instruktioner.

ChatGPTs træning omfatter en tre-trins tilgang:

  1. Overvåget finjustering: Indebærer kurering af menneskeskrevne samtale-input og -output for at forfine den underliggende GPT-3.5-model.
  2. Belønningsmodellering: Mennesker rangerer forskellige modeloutput baseret på kvalitet, hvilket hjælper med at træne en belønningsmodel, der scorer hvert output under hensyntagen til samtalens kontekst.
  3. Forstærkende læring: Samtalekonteksten fungerer som en kulisse, hvor den underliggende model foreslår et svar. Denne respons vurderes af belønningsmodellen, og processen optimeres ved hjælp af en algoritme kaldet proximal policy optimization (PPO).

For dem, der bare dypper tæerne i ChatGPT, kan en omfattende startguide findes link.. Hvis du ønsker at dykke dybere ned i prompt engineering med ChatGPT, har vi også en avanceret guide, der belyser de nyeste og state of the art promptteknikker, tilgængelig på 'ChatGPT & Advanced Prompt Engineering: Driving the AI ​​Evolution«.

Diffusions- og multimodale modeller

Mens modeller som VAE'er og GAN'er genererer deres output gennem et enkelt gennemløb, og derfor låst ind i, hvad de producerer, har diffusionsmodeller introduceret konceptet 'iterativ forfining'. Gennem denne metode cirkler de tilbage, forfiner fejl fra tidligere trin og producerer gradvist et mere poleret resultat.

Centralt for diffusionsmodeller er kunsten at "korruption” og ”forfinelse”. I deres træningsfase bliver et typisk billede gradvist ødelagt ved at tilføje forskellige niveauer af støj. Denne støjende version føres derefter til modellen, som forsøger at 'denoise' eller 'de-korrupte' den. Gennem flere runder af dette bliver modellen dygtig til restaurering og forstår både subtile og væsentlige afvigelser.

Generativ AI - Midjourney Prompt
Billede genereret fra Midjourney

Processen med at generere nye billeder efter træning er spændende. Startende med et fuldstændigt randomiseret input, bliver det løbende forfinet ved hjælp af modellens forudsigelser. Hensigten er at opnå et uberørt billede med det mindste antal trin. Kontrol af korruptionsniveauet sker gennem en "støjplan", en mekanisme, der styrer, hvor meget støj der påføres på forskellige stadier. En skemalægger, som det ses i biblioteker som "diffusorer", dikterer arten af ​​disse støjende gengivelser baseret på etablerede algoritmer.

En væsentlig arkitektonisk rygrad for mange diffusionsmodeller er UNet- et foldet neuralt netværk, der er skræddersyet til opgaver, der kræver output, der afspejler inputs rumlige dimension. Det er en blanding af downsampling og upsampling-lag, der er indviklet forbundet for at bevare data i høj opløsning, som er afgørende for billedrelaterede output.

Dykker dybere ind i området for generative modeller, OpenAI's DALL-E2 fremstår som et lysende eksempel på sammensmeltningen af ​​tekstlige og visuelle AI-evner. Den anvender en struktur i tre niveauer:

DALL-E 2 viser en tredelt arkitektur:

  1. Tekstkoder: Det transformerer tekstprompten til en konceptuel indlejring i et latent rum. Denne model starter ikke fra nulpunkt. Det læner sig op af OpenAI's Contrastive Language–Image Pre-training (CLIP) datasæt som dets grundlag. CLIP fungerer som en bro mellem visuelle og tekstuelle data ved at lære visuelle begreber ved hjælp af naturligt sprog. Gennem en mekanisme kendt som kontrastiv læring identificerer og matcher den billeder med deres tilsvarende tekstuelle beskrivelser.
  2. The Prior: Den tekstindlejring, der stammer fra indkoderen, konverteres derefter til en billedindlejring. DALL-E 2 testede både autoregressive og diffusionsmetoder til denne opgave, hvor sidstnævnte viste overlegne resultater. Autoregressive modeller, som det ses i Transformers og PixelCNN, genererer output i sekvenser. På den anden side transformerer diffusionsmodeller, som den der bruges i DALL-E 2, tilfældig støj til forudsagte billedindlejringer ved hjælp af tekstindlejringer.
  3. Dekoderen: Processens klimaks, denne del genererer det endelige visuelle output baseret på tekstprompten og billedindlejringen fra den foregående fase. DALL.E 2's dekoder skylder sin arkitektur til en anden model, SVÆVE, som også kan producere realistiske billeder ud fra tekstlige signaler.
Arkitektur af DALL-E model (diffusion multi model)
Forenklet arkitektur af DALL-E-modellen

Python-brugere interesserede i Langkæde bør tjekke vores detaljerede tutorial, der dækker alt fra det grundlæggende til avancerede teknikker.

Anvendelser af Generativ AI

Tekstlige domæner

Begyndende med tekst er Generativ AI blevet fundamentalt ændret af chatbots som ChatGPT. Disse enheder er stærkt afhængige af Natural Language Processing (NLP) og store sprogmodeller (LLM'er), og er bemyndiget til at udføre opgaver lige fra kodegenerering og sprogoversættelse til opsummering og sentimentanalyse. ChatGPT, for eksempel, har oplevet udbredt adoption og er blevet en fast bestanddel for millioner. Dette er yderligere forstærket af samtale-AI-platforme, baseret på LLM'er som GPT-4, Håndfladeog BLOOM, der ubesværet producerer tekst, hjælper med programmering og endda tilbyder matematisk ræsonnement.

Fra et kommercielt perspektiv er disse modeller ved at blive uvurderlige. Virksomheder anvender dem til et utal af operationer, herunder risikostyring, lageroptimering og prognosekrav. Nogle bemærkelsesværdige eksempler inkluderer Bing AI, Googles BARD og ChatGPT API.

Kunst

Billedverdenen har oplevet dramatiske transformationer med Generative AI, især siden DALL-E 2's introduktion i 2022. Denne teknologi, som kan generere billeder ud fra tekstuelle prompter, har både kunstneriske og professionelle implikationer. For eksempel har midjourney udnyttet denne teknologi til at producere imponerende realistiske billeder. Dette seneste indlæg afmystificerer Midjourney i en detaljeret vejledning, der belyser både platformen og dens hurtige tekniske forviklinger. Desuden bruger platforme som Alpaca AI og Photoroom AI Generative AI til avancerede billedredigeringsfunktioner såsom fjernelse af baggrund, objektsletning og endda ansigtsgendannelse.

Video Produktion

Videoproduktion viser lovende fremskridt, mens den stadig er i sin begyndende fase inden for Generative AI. Platforme som Imagen Video, Meta Make A Video og Runway Gen-2 skubber grænserne for, hvad der er muligt, selvom virkelig realistiske output stadig er i horisonten. Disse modeller tilbyder betydelig nytte til at skabe digitale menneskelige videoer, med applikationer som Synthesia og SuperCreator førende. Tavus AI tilbyder især et unikt salgsforslag ved at tilpasse videoer til individuelle publikumsmedlemmer, en velsignelse for virksomheder.

Kode skabelse

Kodning, et uundværligt aspekt af vores digitale verden, er ikke forblevet uberørt af Generative AI. Selvom ChatGPT er et yndet værktøj, er flere andre AI-applikationer blevet udviklet til kodningsformål. Disse platforme, såsom GitHub Copilot, Alphacode og CodeComplete, fungerer som kodningsassistenter og kan endda producere kode fra tekstprompter. Det, der er spændende, er disse værktøjers tilpasningsevne. Codex, drivkraften bag GitHub Copilot, kan skræddersyes til en persons kodningsstil, hvilket understreger personaliseringspotentialet ved Generative AI.

Konklusion

Ved at blande menneskelig kreativitet med maskinberegning har det udviklet sig til et uvurderligt værktøj, hvor platforme som ChatGPT og DALL-E 2 flytter grænserne for, hvad der er tænkeligt. Fra udformning af tekstindhold til skulptur af visuelle mesterværker, deres applikationer er enorme og varierede.

Som med enhver teknologi er etiske implikationer altafgørende. Mens Generativ AI lover grænseløs kreativitet, er det afgørende at anvende det ansvarligt, idet man er opmærksom på potentielle skævheder og kraften i datamanipulation.

Med værktøjer som ChatGPT, der bliver mere tilgængelige, er det nu det perfekte tidspunkt at teste vandet og eksperimentere. Uanset om du er kunstner, koder eller teknologientusiast, er området for Generative AI fyldt med muligheder, der venter på at blive udforsket. Revolutionen er ikke i horisonten; det er her og nu. Så dyk ned!

Jeg har brugt de sidste fem år på at fordybe mig i den fascinerende verden af ​​Machine Learning og Deep Learning. Min passion og ekspertise har ført mig til at bidrage til over 50 forskellige software engineering projekter, med særligt fokus på AI/ML. Min vedvarende nysgerrighed har også trukket mig hen imod Natural Language Processing, et felt jeg er ivrig efter at udforske yderligere.