Artificiell allmän intelligens

Är GPT-4 ett steg framåt mot att nå AGI?

Uppdaterad on 23 april 2024

Microsoft släppte nyligen ett forskningsdokument med titeln: Gnister av artificiell allmän intelligens: Tidiga experiment med GPT-4. Som beskrivs av Microsoft:

Detta papper rapporterar om vår undersökning av en tidig version av GPT-4, när den fortfarande var i aktiv utveckling av OpenAI. Vi hävdar att (denna tidiga version av) GPT-4 är en del av en ny kohort av LLMs (tillsammans med ChatGPT och Googles PaLM till exempel) som uppvisar mer allmän intelligens än tidigare AI-modeller.

I det här dokumentet finns det avgörande bevis som visar att GPT-4 går långt utöver memorering och att den har en djup och flexibel förståelse av begrepp, färdigheter och domäner. Faktum är att dess förmåga att generalisera vida överstiger den för alla människor som lever idag.

Medan vi tidigare har diskuterat fördelarna med AGI, bör vi snabbt sammanfatta den allmänna konsensus om vad ett AGI-system är. I grund och botten är en AGI en typ av avancerad AI som kan generaliseras över flera domäner och inte är snäv i omfattning. Exempel på smal AI inkluderar ett autonomt fordon, en chatbot, en schackbot eller någon annan AI som är designad för ett enda syfte.

En AGI i jämförelse skulle flexibelt kunna växla mellan något av ovanstående eller något annat expertområde. Det är en AI som skulle dra nytta av begynnande algoritmer som t.ex överför lärande, och evolutionärt lärande, samtidigt som man utnyttjar äldre algoritmer som t.ex djup förstärkning inlärning.

Ovanstående beskrivning av AGI stämmer överens med min personliga erfarenhet av att använda GPT-4, såväl som bevisen som delas i forskningsrapport som släpptes av Microsoft.

En av uppmaningarna som beskrivs i tidningen är att GPT-4 ska skriva ett bevis på oändligheten av primtal i form av en dikt.

Om vi analyserar kraven för att skapa en sådan dikt inser vi att det kräver matematiska resonemang, poetiska uttryck och naturligt språkgenerering. Detta är en utmaning som skulle överstiga den genomsnittliga förmågan hos de flesta människor.

Tidningen ville förstå om GPT-4 helt enkelt producerade innehåll baserat på allmän memorering kontra att förstå sammanhang och kunna resonera. När den blev ombedd att återskapa en dikt i Shakespeares stil kunde den göra det. Detta kräver en mångfacetterad nivå av förståelse som vida överstiger den allmänna befolkningens förmåga och inkluderar teori om sinne och matematiskt geni.

Hur beräknar man GPT-4 intelligens?

Frågan blir då hur kan vi mäta intelligensen hos en LLM? Och visar GPT-4 beteenden av verklig inlärning eller bara memorering?

Det nuvarande sättet att testa ett AI-system är att utvärdera systemet på en uppsättning standarddatauppsättningar för benchmark, och att säkerställa att de är oberoende av utbildningsdata och att de täcker en rad uppgifter och domäner. Denna typ av testning är nästan omöjlig på grund av den nästan obegränsade mängden data som GPT-4 tränades på.

Uppsatsen diskuterar generering av nya och svåra uppgifter/frågor som på ett övertygande sätt visar att GPT-4 går långt utöver memorering och att den har en djup och flexibel förståelse av begrepp, färdigheter och domäner.

När det gäller intelligens kan GPT-4 generera noveller, manus och den kan beräkna de mest komplicerade formlerna.

GPT-4 klarar även av att koda på en mycket hög nivå, både när det gäller att skriva kod från instruktioner och att förstå befintlig kod. GPT-4 kan hantera ett brett utbud av kodningsuppgifter, från
kodningsutmaningar till verkliga applikationer, från montering på låg nivå till ramverk på hög nivå, från enkla datastrukturer till komplexa program som spel. GPT-4 kan också resonera kring kodexekvering, simulera effekterna av instruktioner och förklara resultaten på naturligt språk. GPT-4 kan till och med köra pseudokod,

GPT-4 kan erbjuda rationella svar på nästan alla uppmaningar som ges. Faktum är att dess intelligens är nästan oövervinnerlig i sin komplexitet.

GPT-4-begränsningar

Uppsatsen fortsätter sedan att beskriva hur de undersökte GPT-4:s svar och beteenden, för att verifiera dess konsekvens, koherens och korrekthet, och för att avslöja dess begränsningar och fördomar.

Den mest uppenbara begränsningen är dess tendens att hallucinera. Här är ett exempel på en hallucination som ges i tidningen där GPT-4 var säker på sitt svar som var helt falskt.

Det verkar som att även GPT-4 förstår denna nuvarande begränsning med hallucinationer eftersom detta var svaret det gav när jag frågade vad en GPT-hallucination är:

En GPT-hallucination hänvisar till ett fenomen där en Generative Pre-trained Transformer (GPT)-modell, som den du för närvarande interagerar med, producerar ett svar som inte är baserat på faktainformation eller inte är förenligt med det sammanhang som ges. Dessa hallucinationer uppstår när modellen genererar text som kan verka rimlig men som faktiskt är felaktig, missvisande eller meningslös.

Med andra ord när du tränar en LLM AI på världens data, hur undviker du att ett system lär sig felaktig data? En stor språkmodell som lär sig och återupplivar desinformation och konspirationsteorier kan faktiskt vara en av de största fallgroparna och hoten som mänskligheten står inför med storskalig adoption av LLM. Detta kan faktiskt vara ett av de större hoten från AGI, ett som överraskande missas när man diskuterar farorna med AGI.

GPT-4 Underrättelsebevis

Uppsatsen illustrerar att det inte spelade någon roll vilken typ av komplexa uppmaningar som riktades mot det, GPT-4 skulle överträffa förväntningarna. Som det står i tidningen:

Dess oöverträffade behärskning av naturligt språk. Den kan inte bara generera flytande och sammanhängande text, utan också förstå och manipulera den på olika sätt, som att sammanfatta, översätta eller svara på en extremt bred uppsättning frågor. Med att översätta menar vi dessutom inte bara mellan olika naturliga språk utan också översättningar i ton och stil, såväl som över domäner som medicin, juridik, redovisning, datorprogrammering, musik med mera.

Mock tekniska recensioner gavs till GPT-4, det gick lätt över betydelsen i detta sammanhang om detta var en människa i andra änden att de omedelbart skulle anställas som mjukvaruingenjör. Ett liknande preliminärt test av GPT-4:s kompetens på Multistate Bar Exam visade en noggrannhet över 70 %. Det gör att vi i framtiden skulle kunna automatisera många av de uppgifter som idag ges till jurister. Det finns faktiskt några startups som nu arbetar med att skapa robotjurister använder GPT-4.

Att producera ny kunskap

Ett av argumenten i uppsatsen är att det enda som återstår för GPT-4 för att bevisa sanna nivåer av förståelse är att den producerar ny kunskap, till exempel att bevisa nya matematiska teorem, en bedrift som för närvarande är utom räckhåll för LLM.

Återigen är detta den heliga graalen för en AGI. Även om det finns faror med att en AGI kontrolleras i fel händer, är fördelarna med att en AGI snabbt kan analysera all historisk data för att upptäcka nya teorem, botemedel och behandlingar nästan oändliga.

En AGI kan vara den felande länken mot att hitta botemedel för sällsynta genetiska sjukdomar som för närvarande saknar finansiering från privat industri, mot att bota cancer en gång för alla, och att maximera effektiviteten hos förnybar energi för att ta bort vårt beroende av ohållbar energi. I själva verket skulle det kunna lösa alla följdproblem som matas in i AGI-systemet. Detta är vad Sam Altman och och teamet på OpenAI förstår, en AGI är verkligen den sista uppfinningen som behövs för att lösa de flesta problem och för att gynna mänskligheten.

Naturligtvis löser det inte kärnkraftsproblemet med vem som kontrollerar AGI och vad deras avsikter är. Oavsett detta papper gör ett fenomenalt jobb med att hävda att GPT-4 är ett steg framåt mot att uppnå drömmen AI-forskare har haft Sedan 1956, när den första sommarworkshopen för Dartmouth Summer Research Project om artificiell intelligens lanserades.

Även om det är diskutabelt om GPT-4 är en AGI, kan det lätt hävdas att det för första gången i mänsklighetens historia är ett AI-system som kan klara Turingtestet.