Artificiell intelligens

Generativ AI: The Idea Behind CHATGPT, Dall-E, Midjourney och mer

Uppdaterad on Augusti 8, 2023

Konstens, kommunikationens och hur vi uppfattar verkligheten förändras snabbt. Om vi ser tillbaka på historien om mänsklig innovation, kan vi betrakta uppfinningen av hjulet eller upptäckten av elektricitet som monumentala språng. Idag pågår en ny revolution – som överbryggar klyftan mellan mänsklig kreativitet och maskinell beräkning. Det är Generativ AI.

Generativa modeller har suddat ut gränsen mellan människor och maskiner. Med tillkomsten av modeller som GPT-4, som använder transformatormoduler, har vi kommit närmare naturligt och kontextrikt språkgenerering. Dessa framsteg har drivit applikationer inom dokumentskapande, chatbot-dialogsystem och till och med syntetisk musikkomposition.

De senaste Big-Tech-besluten understryker dess betydelse. Microsoft är redan det avbryter sin Cortana-app denna månad för att prioritera nyare Generativ AI-innovationer, som Bing Chat. Apple har också dedikerat en betydande del av sitt FoU-budget på 22.6 miljarder dollar till generativ AI, enligt VD Tim Cook.

En ny era av modeller: Generativ vs. Diskriminerande

Berättelsen om Generative AI handlar inte bara om dess applikationer utan i grunden om dess inre funktioner. I ekosystemet med artificiell intelligens finns två modeller: diskriminerande och generativa.

Diskriminerande modeller är vad de flesta människor möter i det dagliga livet. Dessa algoritmer tar indata, såsom en text eller en bild, och kopplar ihop den med en målutgång, som en ordöversättning eller medicinsk diagnos. De handlar om kartläggning och förutsägelse.

Generativa modeller, å andra sidan, är skapare. De tolkar eller förutsäger inte bara; de genererar nya, komplexa utdata från vektorer av tal som ofta inte ens är relaterade till verkliga värden.

Tekniken bakom generativa modeller

Generativa modeller har sin existens att tacka för djupa neurala nätverk, sofistikerade strukturer utformade för att efterlikna den mänskliga hjärnans funktionalitet. Genom att fånga och bearbeta mångfacetterade variationer i data, fungerar dessa nätverk som ryggraden i många generativa modeller.

Hur kommer dessa generativa modeller till liv? Vanligtvis är de byggda med djupa neurala nätverk, optimerade för att fånga de mångfacetterade variationerna i data. Ett utmärkt exempel är Generativt Adversarial Network (GAN), där två neurala nätverk, generatorn och diskriminatorn, tävlar och lär av varandra i ett unikt förhållande mellan lärare och elev. Från målningar till stilöverföring, från musikkomposition till spelande, dessa modeller utvecklas och expanderar på ett sätt som tidigare var ofattbart.

Detta slutar inte med GAN. Variativa autokodare (VAEs), är en annan central aktör inom det generativa modellområdet. VAEs sticker ut för sin förmåga att skapa fotorealistiska bilder från till synes slumpmässiga siffror. Hur? Att bearbeta dessa siffror genom en latent vektor ger upphov till konst som speglar komplexiteten i mänsklig estetik.

Generativa AI-typer: text till text, text till bild

Transformers & LLM

Pappret "Uppmärksamhet är allt du behöver” av Google Brain markerade en förändring i hur vi tänker kring textmodellering. Istället för komplexa och sekventiella arkitekturer som Recurrent Neural Networks (RNNs) eller Convolutional Neural Networks (CNNs), introducerade Transformer-modellen konceptet uppmärksamhet, vilket i huvudsak innebar att fokusera på olika delar av inmatningstexten beroende på sammanhanget. En av de främsta fördelarna med detta var den lätta parallelliseringen. Till skillnad från RNN som bearbetar text sekventiellt, vilket gör dem svårare att skala, kan Transformers bearbeta delar av texten samtidigt, vilket gör träningen snabbare och mer effektiv på stora datamängder.

: Transformator-modell arkitektur

I en lång text har inte varje ord eller mening du läser samma betydelse. Vissa delar kräver mer uppmärksamhet baserat på sammanhanget. Denna förmåga att flytta vårt fokus baserat på relevans är vad uppmärksamhetsmekanismen härmar.

För att förstå detta, tänk på en mening: "Unite AI Publicera AI och Robotics nyheter." Att förutsäga nästa ord kräver en förståelse för vad som är viktigast i det föregående sammanhanget. Termen "Robotics" kan antyda att nästa ord kan vara relaterat till ett specifikt framsteg eller händelse inom robotteknikområdet, medan "Publicera" kan indikera att följande sammanhang kan gräva ner sig i en nyligen publicerad publikation eller artikel.

: Illustration för självuppmärksamhet

Uppmärksamhetsmekanismer i Transformers är utformade för att uppnå detta selektiva fokus. De mäter vikten av olika delar av inmatningstexten och bestämmer var de ska "se" när de genererar ett svar. Detta är en avvikelse från äldre arkitekturer som RNNs som försökte tränga in essensen av all inmatad text till ett enda "tillstånd" eller "minne".

Uppmärksamhetens funktion kan liknas vid ett nyckel-värde-hämtningssystem. När man försöker förutsäga nästa ord i en mening erbjuder varje föregående ord en "nyckel" som antyder dess potentiella relevans, och baserat på hur väl dessa nycklar matchar det aktuella sammanhanget (eller frågan), bidrar de med ett "värde" eller vikt till förutsägelse.

Dessa avancerade AI-djupinlärningsmodeller har sömlöst integrerats i olika applikationer, från Googles sökmotorförbättringar med BERT till GitHubs Copilot, som utnyttjar förmågan hos Large Language Models (LLM) för att konvertera enkla kodavsnitt till fullt fungerande källkoder.

Stora språkmodeller (LLM) som GPT-4, Bard och LLaMA är kolossala konstruktioner designade för att dechiffrera och generera mänskligt språk, kod och mer. Deras enorma storlek, från miljarder till biljoner parametrar, är en av de avgörande egenskaperna. Dessa LLM:er matas med stora mängder textdata, vilket gör det möjligt för dem att förstå det mänskliga språkets krångligheter. En slående egenskap hos dessa modeller är deras fallenhet för "få skott"lära. Till skillnad från konventionella modeller som behöver stora mängder specifik träningsdata, kan LLM:er generalisera från ett mycket begränsat antal exempel (eller "skott")

State of Large Language Models (LLMs) efter mitten av 2023

Modellnamn	Utvecklare	parametrar	Tillgänglighet och åtkomst	Anmärkningsvärda egenskaper och anmärkningar
GPT-4	OpenAI	1.5 triljon	Inte öppen källkod, endast API-åtkomst	Imponerande prestanda på en mängd olika uppgifter kan bearbeta bilder och text, maximal inmatningslängd 32,768 XNUMX tokens
GPT-3	OpenAI	175 miljarder	Inte öppen källkod, endast API-åtkomst	Demonstrerade få- och noll-shot inlärningsförmåga. Utför textkomplettering på naturligt språk.
BLOMMA	BigScience	176 miljarder	Nedladdningsbar modell, Hosted API tillgänglig	Flerspråkig LLM utvecklad av globalt samarbete. Stöder 13 programmeringsspråk.
MDA	Google	173 miljarder	Inte öppen källkod, inget API eller nedladdning	Utbildad i dialog kunde lära sig prata om praktiskt taget vad som helst
MT-NLG	Nvidia/Microsoft	530 miljarder	API-åtkomst per applikation	Använder transformatorbaserad Megatron-arkitektur för olika NLP-uppgifter.
Lama	Meta ai	7B till 65B)	Nedladdningsbar via applikation	Avsedd att demokratisera AI genom att erbjuda tillgång till dem inom forskning, regering och akademi.

Hur används LLMs?

LLM kan användas på flera sätt, inklusive:

Direkt användning: Använd helt enkelt en förutbildad LLM för textgenerering eller bearbetning. Till exempel att använda GPT-4 för att skriva ett blogginlägg utan ytterligare finjusteringar.
Finjustering: Anpassa en förutbildad LLM för en specifik uppgift, en metod som kallas transfer learning. Ett exempel skulle vara att anpassa T5 för att generera sammanfattningar för dokument i en specifik bransch.
Informationshämtning: Använda LLMs, såsom BERT eller GPT, som en del av större arkitekturer för att utveckla system som kan hämta och kategorisera information.

: ChatGPT Finjusteringsarkitektur

Multi-head uppmärksamhet: Varför en när du kan ha många?

Att förlita sig på en enda uppmärksamhetsmekanism kan dock vara begränsande. Olika ord eller sekvenser i en text kan ha olika typer av relevans eller associationer. Det är här uppmärksamheten med flera huvuden kommer in. Istället för en uppsättning uppmärksamhetsvikter använder uppmärksamheten för flera huvuden flera uppsättningar, vilket gör att modellen kan fånga en rikare variation av relationer i inmatningstexten. Varje uppmärksamhetshuvud kan fokusera på olika delar eller aspekter av input, och deras kombinerade kunskap används för den slutliga förutsägelsen.

ChatGPT: Det mest populära generativa AI-verktyget

Från och med GPT:s start 2018 byggdes modellen i huvudsak på grunden av 12 lager, 12 uppmärksamhetshuvuden och 120 miljoner parametrar, främst tränade på en datauppsättning som heter BookCorpus. Detta var en imponerande start som gav en inblick i framtiden för språkmodeller.

GPT-2, som presenterades 2019, stoltserade med en fyrfaldig ökning av lager och uppmärksamhetshuvuden. Betydande nog, dess parameterantal skjutit i höjden till 1.5 miljarder. Denna förbättrade version hämtade sin utbildning från WebText, en datauppsättning berikad med 40 GB text från olika Reddit-länkar.

GPT-3, som lanserades i maj 2020, hade 96 lager, 96 uppmärksamhetshuvuden och ett enormt antal parametrar på 175 miljarder. Det som skilde GPT-3 åt var dess mångsidiga träningsdata, som omfattade CommonCrawl, WebText, engelska Wikipedia, bokkorpus och andra källor, kombinerat för totalt 570 GB.

Förvecklingarna i ChatGPT:s funktion förblir en noga bevakad hemlighet. En process som kallas "förstärkande lärande från mänsklig feedback" (RLHF) är dock känd för att vara avgörande. Denna teknik, som har sitt ursprung i ett tidigare ChatGPT-projekt, var avgörande för att finslipa GPT-3.5-modellen för att bli mer anpassad till skriftliga instruktioner.

ChatGPT:s utbildning består av ett tillvägagångssätt i tre nivåer:

Övervakad finjustering: Innebär att kurera mänskligt skrivna konversationsingångar och -utgångar för att förfina den underliggande GPT-3.5-modellen.
Belöningsmodellering: Människor rangordnar olika modellutdata baserat på kvalitet, vilket hjälper till att träna en belöningsmodell som ger varje resultat med tanke på konversationens sammanhang.
Förstärkande lärande: Konversationskontexten fungerar som en bakgrund där den bakomliggande modellen föreslår ett svar. Detta svar bedöms av belöningsmodellen och processen optimeras med hjälp av en algoritm som heter proximal policy optimization (PPO).

För dem som bara doppar tårna i ChatGPT, kan en omfattande startguide hittas här.. Om du funderar på att fördjupa dig i snabb teknik med ChatGPT, har vi också en avancerad guide som belyser de senaste och toppmoderna snabbteknikerna, tillgänglig på 'ChatGPT & Advanced Prompt Engineering: Driving the AI Evolution".

Diffusions- och multimodala modeller

Medan modeller som VAE och GAN genererar sina utdata genom ett enda pass, och därmed låsta till vad de än producerar, har diffusionsmodeller introducerat konceptet "iterativ förfining'. Genom denna metod cirklar de tillbaka, förfinar misstag från tidigare steg och ger gradvis ett mer polerat resultat.

Centralt för diffusionsmodeller är konsten att "korruption” och ”förfining”. I deras träningsfas försämras en typisk bild successivt genom att lägga till varierande brusnivåer. Denna bullriga version matas sedan till modellen, som försöker "avbruta" eller "avkorrumpera" den. Genom flera omgångar av detta blir modellen skicklig på restaurering och förstår både subtila och betydande avvikelser.

: Bild genererad från Midjourney

Processen att skapa nya bilder efter träning är spännande. Börjar med en helt randomiserad inmatning, den förfinas kontinuerligt med modellens förutsägelser. Avsikten är att uppnå en ren bild med minsta möjliga antal steg. Kontroll av korruptionsnivån sker genom ett "bullerschema", en mekanism som styr hur mycket buller som appliceras i olika skeden. En schemaläggare, som ses i bibliotek som "diffusorer", dikterar arten av dessa bullriga återgivningar baserat på etablerade algoritmer.

En viktig arkitektonisk ryggrad för många diffusionsmodeller är UNet— ett faltningsneuralt nätverk skräddarsytt för uppgifter som kräver utdata som speglar indatas rumsliga dimension. Det är en blandning av nedsamplings- och uppsamplingslager, intrikat anslutna för att behålla högupplösta data, avgörande för bildrelaterade utdata.

Gräver djupare in i sfären av generativa modeller, OpenAI's DALL-E2 framstår som ett lysande exempel på sammansmältningen av textuella och visuella AI-förmågor. Den använder en struktur i tre nivåer:

DALL-E 2 visar upp en trefaldig arkitektur:

Text Encoder: Den förvandlar textprompten till en konceptuell inbäddning i ett latent utrymme. Denna modell börjar inte från ground zero. Det stöder sig på OpenAI:s Contrastive Language–Image Pre-training (KLÄMMA) dataset som grund. CLIP fungerar som en brygga mellan visuell och textdata genom att lära sig visuella begrepp med hjälp av naturligt språk. Genom en mekanism som kallas kontrastiv inlärning identifierar och matchar den bilder med deras motsvarande textbeskrivningar.
The Prior: Textinbäddningen som härrör från kodaren konverteras sedan till en bildinbäddning. DALL-E 2 testade både autoregressiva och diffusionsmetoder för denna uppgift, där den senare visade överlägsna resultat. Autoregressiva modeller, som ses i Transformers och PixelCNN, genererar utdata i sekvenser. Å andra sidan omvandlar diffusionsmodeller, som den som används i DALL-E 2, slumpmässigt brus till predikterade bildinbäddningar med hjälp av textinbäddningar.
Avkodaren: Processens klimax, denna del genererar den slutliga visuella utdata baserat på textprompten och bildinbäddningen från föregående fas. DALL.E 2:s dekoder har sin arkitektur att tacka en annan modell, GLIDA, som också kan producera realistiska bilder från textuella signaler.

: Förenklad arkitektur av DALL-E-modellen

Python-användare som är intresserade av Långkedja bör kolla in vår detaljerade handledning som täcker allt från grunderna till avancerade tekniker.

Tillämpningar av Generativ AI

Textliga domäner

Från och med text har Generativ AI förändrats i grunden av chatbotar som ChatGPT. Dessa enheter förlitar sig starkt på Natural Language Processing (NLP) och stora språkmodeller (LLM), och har befogenhet att utföra uppgifter som sträcker sig från kodgenerering och språköversättning till sammanfattningar och sentimentanalys. ChatGPT, till exempel, har sett en utbredd adoption och blivit en stapelvara för miljoner. Detta förstärks ytterligare av konversations-AI-plattformar, grundade i LLMs som GPT-4, Handflatanoch BLOMMA, som utan ansträngning producerar text, hjälper till med programmering och till och med ger matematiska resonemang.

Ur ett kommersiellt perspektiv håller dessa modeller på att bli ovärderliga. Företag anställer dem för en myriad av verksamheter, inklusive riskhantering, lageroptimering och prognostiseringskrav. Några anmärkningsvärda exempel inkluderar Bing AI, Googles BARD och ChatGPT API.

Konst

Bildvärlden har sett dramatiska förändringar med Generative AI, särskilt sedan DALL-E 2 introducerades 2022. Denna teknik, som kan generera bilder från textuppmaningar, har både konstnärliga och professionella implikationer. Till exempel har midjourney utnyttjat denna teknik för att producera imponerande realistiska bilder. Detta senaste inlägg avmystifierar Midjourney i en detaljerad guide som klargör både plattformen och dess snabba tekniska krångligheter. Dessutom använder plattformar som Alpaca AI och Photoroom AI Generativ AI för avancerade bildredigeringsfunktioner som bakgrundsborttagning, objektradering och till och med ansiktsrestaurering.

Videoproduktion

Videoproduktion, medan den fortfarande är i sitt begynnande skede inom generativ AI, visar upp lovande framsteg. Plattformar som Imagen Video, Meta Make A Video och Runway Gen-2 tänjer på gränserna för vad som är möjligt, även om verkligt realistiska resultat fortfarande är vid horisonten. Dessa modeller erbjuder betydande användbarhet för att skapa digitala mänskliga videor, med applikationer som Synthesia och SuperCreator som leder satsningen. Tavus AI erbjuder ett unikt försäljningserbjudande genom att anpassa videor för enskilda publikmedlemmar, en välsignelse för företag.

Kodskapande

Kodning, en oumbärlig aspekt av vår digitala värld, har inte förblivit orörd av Generativ AI. Även om ChatGPT är ett favoritverktyg har flera andra AI-applikationer utvecklats för kodningsändamål. Dessa plattformar, som GitHub Copilot, Alphacode och CodeComplete, fungerar som kodningsassistenter och kan till och med producera kod från textuppmaningar. Det som är spännande är anpassningsförmågan hos dessa verktyg. Codex, drivkraften bakom GitHub Copilot, kan skräddarsys efter en individs kodningsstil, vilket understryker personaliseringspotentialen hos Generative AI.

Slutsats

Genom att blanda mänsklig kreativitet med maskinberäkning har det utvecklats till ett ovärderligt verktyg, med plattformar som ChatGPT och DALL-E 2 som tänjer på gränserna för vad som är tänkbart. Från att skapa textinnehåll till att skulptera visuella mästerverk, deras tillämpningar är enorma och varierande.

Som med all teknik är etiska implikationer av största vikt. Även om Generativ AI utlovar gränslös kreativitet, är det avgörande att använda det på ett ansvarsfullt sätt, vara medveten om potentiella fördomar och kraften i datamanipulation.

Med verktyg som ChatGPT som blir mer tillgängliga är det nu den perfekta tiden att testa vattnet och experimentera. Oavsett om du är en artist, kodare eller teknikentusiast, är riket av Generativ AI full av möjligheter som väntar på att bli utforskade. Revolutionen är inte vid horisonten; det är här och nu. Så, dyk in!

Relaterade ämnen:chatt gpt DALL-E djupt lärande generativ ai LLM midjourney

Strax

Generativ AI står i centrum vid 2023 års Ai4-konferens

Missa inte

AI:s analoga resonemangsförmåga: Utmana mänsklig intelligens?

Aayush Mittal

Jag har ägnat de senaste fem åren åt att fördjupa mig i den fascinerande världen av Machine Learning och Deep Learning. Min passion och expertis har lett mig till att bidra till över 50 olika programvaruutvecklingsprojekt, med särskilt fokus på AI/ML. Min pågående nyfikenhet har också dragit mig mot Natural Language Processing, ett område som jag är ivrig att utforska vidare.