Kunstig intelligens
AIs analoge resonneringsevner: utfordrende menneskelig intelligens?

Analogisk resonnement, den unike evnen mennesker besitter til å løse ukjente problemer ved å trekke paralleller med kjente problemer, har lenge vært sett på som en særegen menneskelig kognitiv funksjon. Imidlertid presenterer en banebrytende studie utført av UCLA-psykologer overbevisende funn som kan presse oss til å revurdere dette.
GPT-3: Matche opp til menneskelig intellekt?
UCLA-forskningen fant at GPT-3, en AI-språkmodell utviklet av OpenAI, demonstrerer resonneringsevner nesten på linje med universitetsstudenter, spesielt når de har i oppgave å løse problemer som ligner på de man ser i intelligenstester og standardiserte eksamener som SAT. Denne åpenbaringen, publisert i tidsskriftet Natur menneskelig adferd, reiser et spennende spørsmål: Etterligner GPT-3 menneskelig resonnement på grunn av dets omfattende språkopplæringsdatasett, eller benytter det seg av en helt ny kognitiv prosess?
Den nøyaktige funksjonen til GPT-3 forblir skjult av OpenAI, og etterlater forskerne ved UCLA nysgjerrige på mekanismen bak dens analogiske resonnementferdigheter. Til tross for GPT-3s prisverdige ytelse på visse resonnementoppgaver, er ikke verktøyet uten feil. Taylor Webb, studiens hovedforfatter og en postdoktor ved UCLA, bemerket: "Selv om funnene våre er imponerende, er det viktig å understreke at dette systemet har betydelige begrensninger. GPT-3 kan utføre analogiske resonnementer, men den sliter med oppgaver som er trivielle for mennesker, for eksempel å bruke verktøy for en fysisk oppgave."
GPT-3s evner ble satt på prøve ved hjelp av problemer inspirert av Ravens progressive matriser – en test som involverer intrikate formsekvenser. Ved å konvertere bilder til et tekstformat GPT-3 kunne dechiffrere, sørget Webb for at dette var helt nye utfordringer for AI. Sammenlignet med 40 UCLA-studenter, samsvarte ikke bare GPT-3 med menneskelig ytelse, men det speilet også feilene mennesker gjorde. AI-modellen løste nøyaktig 80 % av problemene, og overskred den gjennomsnittlige menneskelige poengsummen, men falt innenfor de beste menneskelige utøvernes rekkevidde.
Teamet undersøkte ytterligere GPT-3s dyktighet ved å bruke upubliserte SAT-analogispørsmål, med AI som overgikk det menneskelige gjennomsnittet. Imidlertid vaklet det litt når man forsøkte å trekke analogier fra noveller, selv om den nyere GPT-4-modellen viste forbedrede resultater.
Å bygge bro mellom AI-menneskelig kognisjonsskillet
UCLAs forskere stopper ikke bare ved sammenligninger. De har begynt å utvikle en datamodell inspirert av menneskelig erkjennelse, og stadig sette dens evner sammen med kommersielle AI-modeller. Keith Holyoak, en psykologiprofessor og medforfatter ved UCLA, sa: "Vår psykologiske AI-modell overgikk andre i analogiproblemer frem til GPT-3s siste oppgradering, som viste overlegne eller tilsvarende egenskaper."
Imidlertid identifiserte teamet visse områder der GPT-3 sakket, spesielt i oppgaver som krever forståelse av fysisk plass. I utfordringer som involverer verktøybruk, var GPT-3s løsninger markant utenfor merket.
Hongjing Lu, studiens seniorforfatter, uttrykte forbauselse over sprangene i teknologi de siste to årene, spesielt i AIs evne til å resonnere. Men om disse modellene virkelig "tenker" som mennesker eller bare etterligner menneskelig tanke, er fortsatt opp til debatt. Jakten på innsikt i AIs kognitive prosesser krever tilgang til AI-modellenes backend, et sprang som kan forme AIs fremtidige bane.
Webb konkluderer med følelsen, "Tilgang til GPT-modellers backend vil være til stor fordel for AI og kognitive forskere. For øyeblikket er vi begrenset til innganger og utganger, og det mangler den avgjørende dybden vi streber etter.»