Tankeledare
Kommer GPT-4 att bringa oss närmare en sann AI-revolution?

Det har varit nästan tre år sedan GPT-3 introducerades, i maj 2020. Sedan dess har AI-textgenereringsmodellen väckt stor uppmärksamhet för sin förmåga att skapa text som ser och låter ut som den är skriven av en människa. Nu verkar det som om nästa iteration av programvaran, GPT-4, är just runt hörnet, med en beräknad releasedatum någon gång i början av 2023.
Trots den högt förväntade karaktären av denna AI-nyhet har de exakta detaljerna om GPT-4 varit ganska suddiga. OpenAI, företaget bakom GPT-4, har inte offentligt avslöjat mycket information om den nya modellen, såsom dess funktioner eller förmågor. Likväl kan de senaste framstegen inom AI-området, särskilt när det gäller Natural Language Processing (NLP), erbjuda några ledtrådar om vad vi kan förvänta oss av GPT-4.
Vad är GPT?
Innan vi går in på specifikationerna är det hjälpsamt att först etablera en baslinje för vad GPT är. GPT står för Generative Pre-trained Transformer och hänvisar till en djupinlärningsneural nätverksmodell som tränas på data tillgängliga från internet för att skapa stora volymer maskingenererad text. GPT-3 är den tredje generationen av denna teknik och är en av de mest avancerade AI-textgenereringsmodellerna som för närvarande finns tillgängliga.
Tänk på GPT-3 som fungerar lite som röstassistenter, såsom Siri eller Alexa, fast på en mycket större skala. Istället för att be Alexa att spela din favoritlåt eller ha Siri skriva ut din text, kan du be GPT-3 att skriva en hel e-bok på bara några minuter eller generera 100 sociala medieinläggsidéer på mindre än en minut. Allt som användaren behöver göra är att tillhandahålla en prompt, såsom “Skriv en 500-ords artikel om kreativitetens betydelse.” Så länge prompten är tydlig och specifik kan GPT-3 skriva nästan vad som helst du ber det att göra.
Sedan dess release till allmänheten har GPT-3 funnit många affärsapplikationer. Företag använder det för textsammanfattning, språköversättning, kodgenerering och storstomsautomatisering av nästan alla skrivuppgifter.
Det sagda, medan GPT-3 utan tvekan är mycket imponerande i sin förmåga att skapa högläslig, mänsklig text, är det långt ifrån perfekt. Problemen tenderar att dyka upp när det gäller att skriva längre stycken, särskilt när det gäller komplexa ämnen som kräver insikt. Till exempel kan en prompt för att generera dator kod för en webbplats returnera korrekt men underoptimal kod, så en mänsklig kodare måste fortfarande gå in och förbättra den. Det är ett liknande problem med stora textdokument: ju större textvolymen är, desto mer sannolikt är det att fel – ibland roliga – kommer att dyka upp som behöver åtgärdas av en mänsklig författare.
Simpelt uttryckt är GPT-3 inte en fullständig ersättning för mänskliga författare eller kodare, och det bör inte ses som en sådan. Istället bör GPT-3 ses som en skrivhjälp, en som kan spara människor mycket tid när de behöver generera blogginläggsidéer eller grova konturer för reklamtext eller pressmeddelanden.
Fler parametrar = bättre?
En sak att förstå om AI-modeller är hur de använder parametrar för att göra förutsägelser. Parametrarna i en AI-modell definierar inlärningsprocessen och ger struktur för utdata. Antalet parametrar i en AI-modell har vanligtvis använts som ett mått på prestanda. Ju fler parametrar, desto kraftfullare, smidigare och mer förutsägbara är modellen, åtminstone enligt scalinghypotesen.
Till exempel, när GPT-1 släpptes 2018, hade den 117 miljoner parametrar. GPT-2, som släpptes ett år senare, hade 1,2 miljarder parametrar, medan GPT-3 ökade antalet ännu högre till 175 miljarder parametrar. Enligt en intervju i augusti 2021 med Wired, nämnde Andrew Feldman, grundare och VD för Cerebras, ett företag som samarbetar med OpenAI, att GPT-4 skulle ha cirka 100 biljoner parametrar. Detta skulle göra GPT-4 100 gånger kraftfullare än GPT-3, ett kvantsprång i parametersize som, förståeligt, har gjort många människor mycket entusiastiska.
Men, trots Feldmans högtflygande påstående, finns det goda skäl att tro att GPT-4 inte kommer att ha 100 biljoner parametrar. Ju fler parametrar, desto dyrare blir modellen att träna och finjustera på grund av de enorma mängderna beräkningskraft som krävs.
Plus, det finns fler faktorer än bara antalet parametrar som bestämmer en modells effektivitet. Ta till exempel Megatron-Turing NLG, en textgenereringsmodell byggd av Nvidia och Microsoft, som har mer än 500 miljarder parametrar. Trots sin storlek kommer MT-NLG inte nära GPT-3 när det gäller prestanda. Kort sagt, större betyder inte nödvändigtvis bättre.
Det är troligt att GPT-4 kommer att ha fler parametrar än GPT-3, men det återstår att se om det kommer att vara en order av magnitude högre. Istället finns det andra intressanta möjligheter som OpenAI sannolikt följer, såsom en smalare modell som fokuserar på kvalitativa förbättringar i algoritmisk design och justering. Den exakta effekten av sådana förbättringar är svår att förutsäga, men vad som är känt är att en sparse modell kan minska beräkningskostnaderna genom vad som kallas villkorlig beräkning, dvs. inte alla parametrar i AI-modellen kommer att aktiveras hela tiden, vilket är liknande hur neuroner i den mänskliga hjärnan fungerar.
Så, vad kommer GPT-4 att kunna göra?
Tills OpenAI kommer ut med en ny uttalande eller till och med släpper GPT-4, är vi tvungna att spekulera om hur det kommer att skilja sig från GPT-3. Oavsett, kan vi göra några förutsägelser
Även om framtiden för AI-djupinlärningsutveckling är multimodal, kommer GPT-4 troligen att förbli textendast. Som människor lever vi i en multisensorisk värld som är fylld med olika ljud-, visuella och textuella indata. Därför är det oundvikligt att AI-utvecklingen så småningom kommer att producera en multimodal modell som kan inkorporera en mängd olika indata.
Men, en bra multimodal modell är betydligt svårare att designa än en textendast modell. Tekniken är inte där ännu och baserat på vad vi vet om begränsningarna på parametersize, är det troligt att OpenAI fokuserar på att expandera och förbättra en textendast modell.
Det är också troligt att GPT-4 kommer att vara mindre beroende av exakta prompter. En av nackdelarna med GPT-3 är att textprompter behöver skrivas noggrant för att få det resultat du vill ha. När prompter inte är noggrant skrivna, kan du hamna med utdata som är osanna, giftiga eller till och med återspeglar extremistiska åsikter. Detta är en del av vad som kallas “justeringsproblemet” och det hänvisar till utmaningar i att skapa en AI-modell som fullständigt förstår användarens avsikter. Med andra ord, AI-modellen är inte justerad med användarens mål eller avsikter. Eftersom AI-modeller tränas med textdata från internet, är det mycket lätt för mänskliga fördomar, osanningar och fördomar att hitta sin väg in i textutdata.
Det sagda, finns det goda skäl att tro att utvecklare gör framsteg på justeringsproblemet. Denna optimism kommer från några genombrott i utvecklingen av InstructGPT, en mer avancerad version av GPT-3 som tränas på mänsklig feedback för att följa instruktioner och användaravsikter närmare. Mänskliga domare fann att InstructGPT var betydligt mindre beroende av bra prompter än GPT-3.
Men, det bör noteras att dessa tester endast utfördes med OpenAI-anställda, en ganska homogen grupp som kanske inte skiljer sig mycket i kön, religiösa eller politiska åsikter. Det är troligt ett säkert val att GPT-4 kommer att genomgå mer diversifierad träning som kommer att förbättra justering för olika grupper, även om det återstår att se i vilken utsträckning.
Kommer GPT-4 att ersätta människor?
Trots GPT-4:s löfte, är det osannolikt att det kommer att helt ersätta behovet av mänskliga författare och kodare. Det finns fortfarande mycket arbete att göra på allt från parameteroptimering till multimodalitet till justering. Det kan mycket väl ta många år innan vi ser en textgenerator som kan uppnå en verkligt mänsklig förståelse av komplexiteterna och nyanserna i verkliga livserfarenheter.
Även så, finns det fortfarande goda skäl att vara entusiastiska över GPT-4:s ankomst. Parameteroptimering – snarare än enkel parameterspridning – kommer troligen att leda till en AI-modell som har betydligt mer beräkningskraft än sin föregångare. Och förbättrad justering kommer troligen att göra GPT-4 betydligt mer användarvänlig.
Dessutom är vi fortfarande bara i början av utvecklingen och antagandet av AI-verktyg. Fler användningsfall för tekniken upptäcks ständigt, och när människor vinner mer förtroende och komfort med att använda AI på arbetsplatsen, är det nästan säkert att vi kommer att se en omfattande antagande av AI-verktyg i nästan alla affärssektorer under de kommande åren.












