Kunstig intelligens
LLMs er ikke resonnering — De er bare eksemplarisk gode til planlegging
Store språkmodeller (LLMs) som OpenAI’s o3, Google’s Gemini 2.0, og DeepSeek’s R1 har vist bemerkelsesverdig fremgang i å takle komplekse problemer, generere menneske-lignende tekst og sogar skrive kode med presisjon. Disse avanserte LLMs omtales ofte som “resonneringsmodeller” på grunn av deres bemerkelsesverdige evner til å analysere og løse komplekse problemer. Men resonnerer disse modellene faktisk resonnering, eller er de bare eksemplarisk gode til planlegging? Denne distinksjonen er subtil, men dyptgående, og den har store implikasjoner for hvordan vi forstår evnene og begrensningene til LLMs.
For å forstå denne distinksjonen, la oss sammenligne to scenarier:
- Resonnering: En detektiv som etterforsker et kriminelt tilfelle må sette sammen motstridende bevis, dedusere hvilke som er feil, og komme frem til en konklusjon basert på begrensede bevis. Denne prosessen innebærer inferens, motstridighetløsning og abstrakt tenkning.
- Planlegging: En sjakkspiller som beregner den beste sekvensen av trekk for å sjakkmate motstanderen.
Mens begge prosessene innebærer flere steg, engasjerer detektiven seg i dypt resonnering for å gjøre inferens, evaluere motstridigheter og anvende generelle prinsipper på et spesifikt tilfelle. Sjakkspilleren, på den andre siden, engasjerer seg hovedsakelig i planlegging, ved å velge en optimal sekvens av trekk for å vinne spillet. LLMs, som vi skal se, fungerer mye mer som sjakkspilleren enn detektiven.
Forstå forskjellen: Resonnering vs. Planlegging
For å realisere hvorfor LLMs er gode til planlegging snarere enn resonnering, er det viktig å først forstå forskjellen mellom begge begrepene. Resonnering er prosessen med å avlede nye konklusjoner fra gitt premisser ved hjelp av logikk og inferens. Den innebærer å identifisere og korrigere inkonsistenser, generere nye innsikter snarere enn bare å gi informasjon, ta beslutninger i tvetydige situasjoner og engasjere seg i årsakssammenheng og kontrafaktisk tenkning som “Hva hvis?”-scenarier.
Planlegging, på den andre siden, fokuserer på å strukturere en sekvens av handlinger for å oppnå et spesifikt mål. Den bygger på å bryte komplekse oppgaver ned i mindre steg, følge kjente løsningsstrategier, tilpasse tidligere lært mønster til lignende problemer og utføre strukturerte sekvenser snarere enn å avlede nye innsikter. Mens både resonnering og planlegging innebærer stegvis prosessering, krever resonnering dypere abstraksjon og inferens, mens planlegging følger etablerte prosedyrer uten å generere grunnleggende nye kunnskaper.
Hvordan LLMs nærmer seg “Resonnering”
Moderne LLMs, som OpenAI’s o3 og DeepSeek-R1, er utstyrt med en teknikk, kjent som Chain-of-Thought (CoT)-resonnering, for å forbedre deres problemløsnings-evner. Denne metoden oppmuntrer modellene til å bryte problemer ned i mellomliggende steg, og etterligne måten mennesker tenker logisk gjennom et problem. For å se hvordan det fungerer, betrakt et enkelt matematisk problem:
Hvis en butikk selger epler for 2 dollar hver, men tilbyr en rabatt på 1 dollar per eple hvis du kjøper mer enn 5 epler, hvor mye ville 7 epler koste?
En typisk LLM som bruker CoT-prompting kan løse det på følgende måte:
- Bestemm den vanlige prisen: 7 * 2 dollar = 14 dollar.
- Identifiser at rabatten gjelder (siden 7 > 5).
- Beregne rabatten: 7 * 1 dollar = 7 dollar.
- Trekk rabatten fra totalen: 14 dollar – 7 dollar = 7 dollar.
Ved å uttrykkelig legge frem en sekvens av steg, minimiserer modellen sjansen for feil som oppstår fra å prøve å forutsi et svar på én gang. Mens denne stegvis nedbryting gjør LLMs til å se ut som om de resonnerer, er det i realiteten en form for strukturert problemløsning, mye lik å følge en oppskrift. På den andre siden, kan en sann resonneringsprosess gjenkjenne en generell regel: Hvis rabatten gjelder utover 5 epler, så koster hver eple 1 dollar. Et menneske kan umiddelbart slutte seg til en slik regel, men en LLM kan ikke, da den bare følger en strukturert sekvens av beregninger.
Hvorfor Chain-of-thought er planlegging, ikke resonnering
Mens Chain-of-Thought (CoT) har forbedret LLMs’ ytelse på logikk-orienterte oppgaver som matematisk ordproblemer og kodeutfordringer, innebærer det ikke ekte logisk resonnering. Dette er fordi CoT følger prosedyrisk kunnskap, og bygger på strukturerte steg snarere enn å generere nye innsikter. Den mangler en sann forståelse av årsakssammenheng og abstrakte relasjoner, noe som betyr at modellen ikke engasjerer seg i kontrafaktisk tenkning eller betrakter hypotetiske situasjoner som krever intuisjon utover sett data. I tillegg kan CoT ikke grunnleggende endre sin tilnærming utover mønsterene den er trent på, noe som begrenser dens evne til å resonere kreativt eller tilpasse seg i ukjente situasjoner.
Hva ville det ta for LLMs å bli sanne resonneringsmaskiner?
Så, hva trenger LLMs for å virkelig resonere som mennesker? Her er noen nøkkelområder hvor de krever forbedring og potensielle tilnærminger for å oppnå det:
- Symbolisk forståelse: Mennesker resonnerer ved å manipulere abstrakte symboler og relasjoner. LLMs, på den andre siden, mangler en ekte symbolisk resonneringsmekanisme. Integrering av symbolisk AI eller hybridmodeller som kombinerer neurale nettverk med formell logikk kan forbedre deres evne til å engasjere seg i sann resonnering.
- Årsakssammenheng: Sann resonnering krever en forståelse av årsak og virkning, ikke bare statistiske korrelasjoner. En modell som resonnerer, må slutte seg til underliggende prinsipper fra data snarere enn bare å forutsi neste token. Forskning i årsakssammenhengs-AI, som eksplisitt modellerer årsak- og virkningsforhold, kunne hjelpe LLMs å gå over fra planlegging til resonnering.
- Selvrefleksjon og Metakognisjon: Mennesker evaluere konstant sine egne tenkeprosesser ved å spørre “Gjør denne konklusjonen mening?” LLMs, på den andre siden, mangler en mekanisme for selvrefleksjon. Bygging av modeller som kan kritisk evaluere sine egne utdata, ville være et skritt mot sann resonnering.
- Felles forståelse og intuisjon: Selv om LLMs har tilgang til enorme mengder kunnskap, sliter de ofte med grunnleggende felles forståelses-resonnering. Dette skjer fordi de ikke har virkelige verdens-erfaringer som kan forme deres intuisjon, og de kan ikke lett gjenkjenne absurditeter som mennesker ville oppdage med en gang. De mangler også en måte å bringe virkelige verdens-dynamikker inn i deres beslutningsprosess. En måte å forbedre dette på, kunne være å bygge en modell med en felles forståelses-motor, som måtte involvere integrering av virkelige verdens-sanntidsdata eller å bruke kunnskapsgrafer til å hjelpe modellen bedre å forstå verden på samme måte som mennesker.
- Kontrafaktisk tenkning: Menneskelig resonnering involverer ofte å spørre “Hva hvis ting var annerledes?” LLMs sliter med disse typene “hva hvis”-scenarier fordi de er begrenset av data de er trent på. For modeller å tenke mer som mennesker i disse situasjonene, må de simulere hypotetiske scenarier og forstå hvordan endringer i variabler kan påvirke resultater. De må også ha en måte å teste ulike muligheter og komme frem til nye innsikter, snarere enn bare å forutsi basert på hva de allerede har sett. Uten disse evnene, kan LLMs ikke virkelig forestille seg alternative fremtider – de kan bare arbeide med hva de har lært.
Konklusjon
Mens LLMs kan se ut til å resonere, bygger de i realiteten på planleggingsteknikker for å løse komplekse problemer. Uansett om de løser et matematisk problem eller engasjerer seg i logisk deduksjon, er de hovedsakelig organisering av kjente mønster i en strukturert måte snarere enn å dypt forstå prinsippene bak dem. Denne distinksjonen er kritisk i AI-forskning, fordi hvis vi forveksler sofistikert planlegging med ekte resonnering, risikerer vi å overvurdere AIens sanne evner.
Veien til sann resonnerings-AI vil kreve grunnleggende fremgang beyond token-prediksjon og probabilistisk planlegging. Den vil kreve gjennombrudd i symbolisk logikk, årsakssammenheng og metakognisjon. Før den dagen, vil LLMs forbli kraftfulle verktøy for strukturert problemløsning, men de vil ikke virkelig tenke på samme måte som mennesker.












