Kunstig generell intelligens

Er GPT-4 et sprang fremover mot å nå AGI?

oppdatert on April 23, 2024

Microsoft ga nylig ut en forskningsartikkel med tittelen: Sparks of Artificial General Intelligence: Tidlige eksperimenter med GPT-4. Som beskrevet av Microsoft:

Dette papiret rapporter om vår undersøkelse av en tidlig versjon av GPT-4, da den fortsatt var i aktiv utvikling av OpenAI. Vi hevder at (denne tidlige versjonen av) GPT-4 er en del av en ny gruppe LLM-er (sammen med ChatGPT og Googles PaLM for eksempel) som viser mer generell intelligens enn tidligere AI-modeller.

I denne artikkelen er det avgjørende bevis som viser at GPT-4 går langt utover memorering, og at den har en dyp og fleksibel forståelse av konsepter, ferdigheter og domener. Faktisk overgår dens evne til å generalisere langt den til ethvert menneske som lever i dag.

Mens vi tidligere har diskutert fordelene med AGI, bør vi raskt oppsummere den generelle konsensus om hva et AGI-system er. I hovedsak er en AGI en type avansert kunstig intelligens som kan generaliseres på tvers av flere domener og ikke er begrenset i omfang. Eksempler på smal AI inkluderer et autonomt kjøretøy, en chatbot, en sjakkrobot eller en hvilken som helst annen AI som er designet for et enkelt formål.

En AGI i sammenligning ville være i stand til fleksibelt å veksle mellom noen av de ovennevnte eller et hvilket som helst annet fagfelt. Det er en AI som vil dra nytte av begynnende algoritmer som f.eks overføre læring, og evolusjonær læring, samtidig som man utnytter eldre algoritmer som f.eks dyp forsterkning læring.

Beskrivelsen ovenfor av AGI samsvarer med min personlige erfaring med bruk av GPT-4, så vel som bevisene som ble delt i forskningsartikkelen som ble utgitt av Microsoft.

En av oppfordringene som er skissert i papiret, er at GPT-4 skal skrive et bevis på uendeligheten av primtal i form av et dikt.

Hvis vi analyserer kravene for å lage et slikt dikt, innser vi at det krever matematisk resonnement, poetisk uttrykk og naturlig språkgenerering. Dette er en utfordring som vil overstige den gjennomsnittlige evnen til de fleste mennesker.

Avisen ønsket å forstå om GPT-4 bare produserte innhold basert på generell memorering versus forståelse av kontekst og å kunne resonnere. Da han ble bedt om å gjenskape et dikt i stil med Shakespeare, var det i stand til å gjøre det. Dette krever et mangfoldig forståelsesnivå som langt overgår den generelle befolkningens evne og inkluderer teori om sinn og matematisk geni.

Hvordan beregne GPT-4 intelligens?

Spørsmålet blir da hvordan kan vi måle intelligensen til en LLM? Og viser GPT-4 atferd av ekte læring eller bare memorering?

Den nåværende måten å teste et AI-system på er ved å evaluere systemet på et sett med standard benchmark-datasett, og å sikre at de er uavhengige av treningsdataene og at de dekker en rekke oppgaver og domener. Denne typen testing er nesten umulig på grunn av den nesten ubegrensede mengden data som GPT-4 ble trent på.

Artikkelen diskuterer generering av nye og vanskelige oppgaver/spørsmål som overbevisende viser at GPT-4 går langt utover memorering, og at den har en dyp og fleksibel forståelse av konsepter, ferdigheter og domener.

Når det gjelder intelligens, kan GPT-4 generere noveller, manus, og den kan beregne de mest kompliserte formlene.

GPT-4 er også i stand til å kode på et meget høyt nivå, både når det gjelder å skrive kode fra instruksjoner og å forstå eksisterende kode. GPT-4 kan håndtere et bredt spekter av kodeoppgaver, fra
kodeutfordringer til applikasjoner i den virkelige verden, fra montering på lavt nivå til rammeverk på høyt nivå, fra enkle datastrukturer til komplekse programmer som spill. GPT-4 kan også resonnere om kodeutførelse, simulere effekten av instruksjoner og forklare resultatene på naturlig språk. GPT-4 kan til og med kjøre pseudokode,

GPT-4 kan tilby rasjonelle svar på nesten alle spørsmål gitt. Faktisk er dens intelligens nesten uovervinnelig i sin kompleksitet.

GPT-4-begrensninger

Artikkelen fortsetter deretter å beskrive hvordan de undersøkte GPT-4s svar og atferd, for å verifisere dens konsistens, sammenheng og korrekthet, og for å avdekke dens begrensninger og skjevheter.

Den mest åpenbare begrensningen er dens tendens til å hallusinere. Her er et eksempel på en hallusinasjon som er gitt i avisen der GPT-4 var sikker på svaret sitt som var helt usant.

Det ser ut til at til og med GPT-4 forstår denne gjeldende begrensningen med hallusinasjoner, da dette var svaret det ga da jeg spurte hva som er en GPT-hallusinasjon:

En GPT-hallusinasjon refererer til et fenomen der en Generative Pre-trained Transformer (GPT) modell, som den du for øyeblikket samhandler med, produserer en respons som ikke er basert på faktainformasjon eller ikke er koherent med konteksten gitt. Disse hallusinasjonene oppstår når modellen genererer tekst som kan virke plausibel, men som faktisk er feil, misvisende eller meningsløs.

Med andre ord når du trener en LLM AI på verdens data, hvordan unngår du at et system lærer feil data? En stor språkmodell som lærer og gjengir feilinformasjon, og konspirasjonsteorier kan faktisk være en av de største fallgruvene og truslene menneskeheten står overfor med storskala adopsjon av LLM. Dette kan faktisk være en av de større truslene fra AGI, en som er overraskende savnet når man diskuterer farene ved AGI.

GPT-4 bevis for etterretning

Papiret illustrerer at det ikke spilte noen rolle hvilken type komplekse spørsmål som ble rettet mot det, GPT-4 ville overgå forventningene. Som det står i avisen:

Dens enestående mestring av naturlig språk. Den kan ikke bare generere flytende og sammenhengende tekst, men også forstå og manipulere den på ulike måter, for eksempel ved å oppsummere, oversette eller svare på et ekstremt bredt sett med spørsmål. Med å oversette mener vi dessuten ikke bare mellom ulike naturlige språk, men også oversettelser i tone og stil, så vel som på tvers av domener som medisin, jus, regnskap, dataprogrammering, musikk og mer.

Mock tekniske vurderinger ble gitt til GPT-4, det passerte lett mening i denne sammenhengen hvis dette var et menneske på den andre enden at de umiddelbart ville bli ansatt som programvareingeniør. En lignende foreløpig test av GPT-4s kompetanse på Multistate Bar Exam viste en nøyaktighet over 70 %. Det betyr at vi i fremtiden kan automatisere mange av oppgavene som i dag gis til advokater. Faktisk er det noen startups som nå jobber med å lage robotadvokater bruker GPT-4.

Produsere ny kunnskap

Et av argumentene i artikkelen er at det eneste som gjenstår for GPT-4 for å bevise sanne nivåer av forståelse er at den produserer ny kunnskap, for eksempel å bevise nye matematiske teoremer, en bragd som foreløpig er utenfor rekkevidde for LLM-er.

Så igjen er dette den hellige gral til en AGI. Selv om det er farer med at en AGI blir kontrollert i feil hender, er fordelene ved at en AGI raskt kan analysere alle historiske data for å oppdage nye teoremer, kurer og behandlinger nesten uendelige.

En AGI kan være det manglende leddet mot å finne kurer for sjeldne genetiske sykdommer som for tiden mangler finansiering fra privat industri, mot å kurere kreft en gang for alle, og for å maksimere effektiviteten til fornybar kraft for å fjerne vår avhengighet av ikke-bærekraftig energi. Faktisk kan det løse ethvert følgeproblem som mates inn i AGI-systemet. Dette er hva Sam Altman og og teamet ved OpenAI forstår, en AGI er virkelig den siste oppfinnelsen som er nødvendig for å løse de fleste problemer og til fordel for menneskeheten.

Selvfølgelig løser det ikke problemet med kjernefysiske knapper om hvem som kontrollerer AGI, og hva deres intensjoner er. Uansett dette papir gjør en fenomenal jobb med å argumentere for at GPT-4 er et sprang fremover mot å oppnå drømmen AI-forskere har hatt siden 1956, da det første sommerverkstedet Dartmouth Summer Research Project on Artificial Intelligence ble lansert.

Selv om det kan diskuteres om GPT-4 er en AGI, kan det lett hevdes at det for første gang i menneskets historie er et AI-system som kan bestå Turing Test.