Kunstig intelligens
Forskning avslører at LLM går tilbake til enkel resonnering når kompleksiteten øker

Et team av forskere publiserte en omfattende studie den 20. november som analyserte over 192 000 resonansspor fra store språkmodeller (LLM), og avslørte at AI-systemer baserer seg på grunnleggende, lineære strategier fremfor de hierarkiske kognitive prosessene som mennesker naturlig anvender.
Forskingsteamet undersøkte 18 forskjellige modeller over tekst-, visnings- og lydresonansoppgaver, og sammenlignet deres tilnærminger med 54 menneskelige tenke-høyt-spore som ble samlet inn spesielt for studien. Analysen etablerte en taksonomi av 28 kognitive elementer som omfatter beregningsbegrensninger, metakognitive kontroller, kunnskapsrepresentasjoner og transformasjonsoperasjoner – og gir en ramme for å evaluere ikke bare om modellene produserer korrekte svar, men hvordan de kommer frem til disse konklusjonene.
Fundamentale forskjeller i kognitiv arkitektur
Menneskelig resonnering demonstrerer konsistent hierarkisk innpakning og metakognitiv overvåking – evnen til å reflektere over og regulere sine egne tenkeprosesser. Mennesker organisere flytende informasjon i innpakket struktur mens de aktivt sporer fremgangen gjennom komplekse problemer.
LLM benytter hovedsakelig grunnleggende fremover-kjeding, og går gjennom problemer trinnvis uten den hierarkiske organiseringen eller selv-refleksjonen som kjennetegner menneskelig kognition. Dette skille blir mest uttalt når oppgavene er dårlig strukturert eller tvetydige, hvor menneskelig tilpasningsevne signifikant overgår AI-tilnærminger.
Studien fant at språkmodellene besitter de atferdsmessige komponentene som er forbundet med vellykket resonnering, men ofte ikke deployerer dem spontant. Ytelsen varierer dramatisk med problemtype: dilemma-resonnering viste den høyeste variasjonen, med mindre modeller som kjempet betydelig, mens logisk resonnering viste moderat ytelse med større modeller som generelt overgikk mindre modeller. Modellene demonstrerer motintuitive svakheter, og lykkes på komplekse oppgaver mens de feiler på enklere varianter.
Ytelsesforbedringer gjennom guidet resonnering
Forskingsteamet utviklet test-tid resonneringsveiledning som automatisk skaper vellykkede kognitive strukturer, og demonstrerte ytelsesforbedringer på opptil 66,7% på komplekse problemer når modellene ble bedt om å adoptere mer menneskelige resonneringsmetoder. Dette funn antyder at LLM besitter latente evner for mer sofistikert resonnering, men trenger eksplisitt veiledning for å anvende dem effektivt.
Gapet mellom menneskelig og AI-resonnering øker når oppgavekompleksiteten øker. Mens modellene kan håndtere rett frem problemer gjennom fremover-kjeding alene, kjemper de med den type rekursive, selv-overvåkende strategier som mennesker deployerer naturlig når de møter tvetydige eller flerskiktete utfordringer.
Studiens offentlig tilgjengelige datasett gir en basis for fremtidig forskning som sammenligner kunstig og menneskelig intelligens. Ved å kartlegge 28 distinkte kognitive elementer, gir rammen forskerne mulighet til å peke nøyaktig på hvor AI-resonnering bryter sammen, fremfor bare å måle nøyaktighetsskår.
Konsekvenser for AI-utvikling
Funnene understreker en grunnleggende begrensning i nåværende AI-systemer: gapet mellom beregningskapasitet og ekte kognitiv sofistikasjon. Modeller som er trenet på massive datasett kan mønster-matcher veien til korrekte svar på mange oppgaver, men mangler den refleksive, hierarkiske tenkingen som kjennetegner menneskelig problemløsning.
Dette forskningen bygger på økende bekymringer om AI-resonneringsbegrensninger identifisert over flere domener. Ytelsesforbedringen fra guidet resonnering antyder at bedre prompt-strategier og arkitekturmodifikasjoner kan hjelpe modellene med å få tilgang til deres latente resonneringsevner mer effektivt.
Studiens mest betydelige bidrag kan være dens detaljerte taksonomi av kognitive elementer, som gir forskerne og utviklerne spesifikke mål for forbedring. Fremfor å behandle resonnering som en monolitisk evne, bryter rammen den ned i målbare komponenter som kan bli individuelt adressert gjennom treningsmodifikasjoner eller prompt-teknikker.












