AGI
Är GPT-4 ett steg framåt mot att nå AGI?

Microsoft släppte nyligen en forskningsrapport med titeln: Sparks of Artificial General Intelligence: Early experiments with GPT-4. Som beskrivs av Microsoft:
Denna rapport redovisar vår undersökning av en tidig version av GPT-4, när det fortfarande var under aktiv utveckling av OpenAI. Vi hävdar att (denna tidiga version av) GPT-4 är en del av en ny kohort av LLM (tillsammans med ChatGPT och Google’s PaLM till exempel) som visar mer allmän intelligens än tidigare AI-modeller.
I denna rapport finns det övertygande bevis som visar att GPT-4 går långt utöver memorering, och att det har en djup och flexibel förståelse av begrepp, färdigheter och domäner. I själva verket överträffar dess förmåga att generalisera vida det som någon människa som lever idag.
Medan vi tidigare har diskuterat fördelarna med AGI, bör vi snabbt sammanfatta den allmänna uppfattningen om vad ett AGI-system är. I själva verket är ett AGI en typ av avancerad AI som kan generalisera över flera domäner och inte är begränsad till ett specifikt område. Exempel på smal AI inkluderar en självkörande bil, en chatbot, en schackbot eller någon annan AI som är utformad för ett enda syfte.
Ett AGI i jämförelse skulle kunna flexibelt alternera mellan någon av ovanstående eller något annat expertområde. Det är en AI som skulle dra nytta av nascenta algoritmer som transfer learning och evolutionär inlärning, samtidigt som den utnyttjar legacy-algoritmer som deep reinforcement learning.
Ovanstående beskrivning av AGI matchar min personliga erfarenhet av att använda GPT-4, samt bevisen som delas i forskningsrapporten som släpptes av Microsoft.
En av prompten som beskrivs i rapporten är för GPT-4 att skriva ett bevis för oändligheten av primtal i form av en dikt.

Om vi analyserar kraven för att skapa en sådan dikt förstår vi att det kräver matematiskt resonemang, poetisk uttrycksförmåga och naturlig språkgenerering. Detta är en utmaning som skulle överträffa den genomsnittliga förmågan hos de flesta människor.
Rapporten ville undersöka om GPT-4 enbart producerade innehåll baserat på allmän memorering eller om det förstod sammanhang och kunde resonera. När det blev ombedd att återskapa en dikt i Shakespeares stil kunde det göra det. Detta kräver en multifacetterad nivå av förståelse som vida överträffar den genomsnittliga befolkningens förmåga och inkluderar teorin om sinne och matematiskt geni.
Hur man beräknar GPT-4:s intelligens
Frågan blir då hur man kan mäta en LLM:s intelligens? Och visar GPT-4 beteenden av sann inlärning eller enbart memorering?
Den nuvarande metoden för att testa ett AI-system är att utvärdera systemet på en uppsättning standardbenchmark-datasets, och att säkerställa att de är oberoende av utbildningsdata och att de täcker ett brett spektrum av uppgifter och domäner. Detta test är nästan omöjligt på grund av den nästan oändliga mängden data som GPT-4 tränades på.
Rapporten diskuterar generering av nya och svåra uppgifter/frågor som övertygande visar att GPT-4 går långt utöver memorering, och att det har en djup och flexibel förståelse av begrepp, färdigheter och domäner.
När det gäller intelligens kan GPT-4 generera korta berättelser, manus och det kan beräkna de mest komplicerade formlerna.
GPT-4 kan också koda på en mycket hög nivå, både när det gäller att skriva kod från instruktioner och förstå befintlig kod. GPT-4 kan hantera en mängd olika koduppgifter, från kodutmaningar till verkliga tillämpningar, från lågnivåsammansättning till högnivåramverk, från enkla datastrukturer till komplexa program som spel. GPT-4 kan också resonera om kodkörning, simulerar effekterna av instruktioner och förklara resultaten i naturligt språk. GPT-4 kan till och med köra pseudokod,
GPT-4 kan erbjuda rationella svar på nästan alla prompt som ges. I själva verket är dess intelligens nästan oövervinnelig i sin komplexitet.
GPT-4:s begränsningar
Rapporten fortsätter sedan att beskriva hur de undersökte GPT-4:s svar och beteenden, för att verifiera dess konsekvens, koherens och korrekthet, och för att avslöja dess begränsningar och fördomar.
Den mest uppenbara begränsningen är dess benägenhet att hallucinera. Här är ett exempel på en hallucination som ges i rapporten där GPT-4 var säker på sitt svar som var helt fel.

Det verkar som att även GPT-4 förstår denna nuvarande begränsning med hallucinationer, eftersom detta var svaret det gav när jag frågade det vad en GPT-hallucination är:
En GPT-hallucination refererar till ett fenomen där en Generative Pre-trained Transformer (GPT)-modell, som den du för närvarande interagerar med, producerar ett svar som inte baseras på faktisk information eller är koherent med det sammanhang som tillhandahålls. Dessa hallucinationer uppstår när modellen genererar text som kan tyckas trovärdig men i själva verket är felaktig, vilseledande eller meningslös.
Med andra ord, när du tränar en LLM-AI på världens data, hur undviker du att systemet lär sig felaktig data? En stor språkmodell som lär sig och återger felaktig information och konspirationsteorier kunde faktiskt vara en av de största fallgroparna och hoten som mänskligheten står inför med stor skala användning av LLM.
GPT-4:s bevis på intelligens
Rapporten illustrerar att det inte spelade någon roll vilken typ av komplexa prompt som riktades mot det, GPT-4 skulle överträffa förväntningarna. Som det står i rapporten:
Dess obeskrivliga mästerskap av naturligt språk. Det kan inte bara generera flytande och koherent text, utan också förstå och manipulera den på olika sätt, såsom att sammanfatta, översätta eller svara på en extremt bred uppsättning frågor. Dessutom, med översättning menar vi inte bara mellan olika naturliga språk, utan också översättningar i ton och stil, samt över domäner som medicin, juridik, redovisning, dataprogrammering, musik och mer.
Fiktiva tekniska recensioner gavs till GPT-4, det gick lättigt igenom, vilket innebär att i detta sammanhang, om detta var en människa på andra sidan, skulle de omedelbart bli anställda som programvaruutvecklare. En liknande preliminär test av GPT-4:s kompetens på Multistate Bar Exam visade en noggrannhet över 70%. Detta innebär att i framtiden kunde vi automatisera många av de uppgifter som för närvarande ges till advokater. I själva verket finns det några startups som nu arbetar för att skapa robotadvokater med hjälp av GPT-4.
Att producera ny kunskap
Ett av argumenten i rapporten är att det enda som återstår för GPT-4 för att bevisa verklig förståelse är att producera ny kunskap, såsom att bevisa nya matematiska satser, en bedrift som för närvarande ligger utom räckhåll för LLM.
Återigen är detta den heliga graal för ett AGI. Medan det finns faror med ett AGI som kontrolleras av fel händer, är fördelarna med ett AGI som kan snabbt analysera all historisk data för att upptäcka nya satser, botemedel och behandlingar nästan oändliga.
Ett AGI kunde vara den saknade länken mot att hitta botemedel för sällsynta genetiska sjukdomar som för närvarande saknar privat industrifinansiering, mot att bota cancer en gång för alla och för att maximera effektiviteten av förnybar energi för att ta bort vår beroende av ohållbar energi. I själva verket kunde det lösa vilket som helst konsekvent problem som matas in i AGI-systemet. Detta är vad Sam Altman och teamet på OpenAI förstår, ett AGI är verkligen den sista uppfinningen som behövs för att lösa de flesta problem och för att gynna mänskligheten.
Naturligtvis löser det inte problemet med den kärnvapenknappen, vem som kontrollerar AGI och vad deras avsikter är. Oavsett detta papper gör ett fenomenalt jobb med att hävda att GPT-4 är ett steg framåt mot att uppnå drömmen AI-forskare har haft sedan 1956, när den ursprungliga Dartmouth Summer Research Project on Artificial Intelligence sommarworkshop först lanserades.
Medan det är diskutabelt om GPT-4 är ett AGI, kunde det lätt hävdas att för första gången i mänsklighetens historia är det ett AI-system som kan klara Turing-testet.












