Kunstig intelligens

Forskning afslører, at LLM’er falder tilbage til simpel resonnering, når kompleksiteten øges

Published November 25, 2025

Updated April 1, 2026

Alex McFarland

Et hold af forskere offentliggjorde en omfattende studie den 20. november, hvor de analyserede over 192.000 resonansspor fra store sprogmodeller (LLM’er), og det viser sig, at AI-systemer læner sig op af flade, lineære strategier snarere end de hierarkiske kognitive processer, som mennesker naturligt anvender.

Forskerholdet undersøgte 18 forskellige modeller på tværs af tekst-, vision- og audioresonansopgaver og sammenlignede deres tilgange med 54 menneskelige tænke-højt-spore, som var indsamlet specifikt til studiet. Analysen etablerede en taksonomi af 28 kognitive elementer, der omfatter beregningsbegrænsninger, meta-kognitive kontroller, videnrepræsentationer og transformationsoperationer – og giver dermed en ramme til at evaluere ikke kun, om modellerne producerer korrekte svar, men også, hvordan de når frem til disse konklusioner.

Fundamentale forskelle i kognitiv arkitektur

Menneskelig resonnering demonstrerer konsekvent hierarkisk indlejring og meta-kognitiv overvågning – evnen til at reflektere over og regulere sine egne tænkeprocesser. Mennesker organiserer fluidt information i indlejrede strukturer, mens de aktivt sporer deres fremgang gennem komplekse problemer.

LLM’er anvender overvejende flad fremad-kædning, hvor de går trin for trin gennem problemerne uden den hierarkiske organisation eller selv-refleksion, der kendetegner menneskelig kognition. Denne afvigelse bliver mest udtalt, når opgaverne er dårligt strukturerede eller tvetydige, hvor menneskelig tilpasningsevne betydeligt overgår AI-tilgange.

Studiet fandt, at sprogmodellerne besidder de adfærdsmæssige komponenter, der er forbundet med succesfuld resonnering, men ofte ikke anvender dem spontant. Præstationen varierer dramatisk afhængigt af problemtype: dilemma-resonnering viste den højeste variation, hvor mindre modeller kæmpede betydeligt, mens logisk resonnering viste moderat præstation, hvor større modeller generelt overgik mindre modeller. Modellerne viser modsigende svagheder, hvor de lykkes med komplekse opgaver, mens de fejler på simplere varianter.

Forbedring af præstation gennem guidet resonnering

Forskerholdet udviklede test-tid-resonneringsvejledning, der automatisk giver struktur til succesfulde kognitive strukturer, og demonstrerede forbedringer af præstation op til 66,7% på komplekse problemer, når modellerne blev opfordret til at anvende mere menneske-lignende resonneringsmetoder. Denne fund viser, at LLM’er besidder latent kapacitet for mere sofistikeret resonnering, men har brug for eksplicit vejledning for at anvende dem effektivt.

Gapet mellem menneskelig og AI-resonnering bliver bredere, efterhånden som opgavens kompleksitet øges. Mens modeller kan håndtere retlinede problemer gennem fremad-kædning alene, kæmper de med den type rekursive, selv-overvågningsstrategier, som mennesker naturligt anvender, når de står over for tvetydige eller flerlagede udfordringer.

Studiets offentligt tilgængelige dataset giver en baseline for fremtidig forskning, der sammenligner kunstig og menneskelig intelligens. Ved at kortlægge 28 distinkte kognitive elementer giver rammen forskerne mulighed for at pege præcist på, hvor AI-resonneringen bryder sammen, snarere end blot at måle nøjagtighedsscores.

Konsekvenser for AI-udvikling

Fundene fremhæver en grundlæggende begrænsning i nuværende AI-systemer: gapet mellem beregningskapacitet og ægte kognitiv sofistikation. Modeller, der er trænet på massive datasets, kan mønster-matche deres vej til korrekte svar på mange opgaver, men mangler den reflekterende, hierarkiske tænkning, der kendetegner menneskelig problemløsning.

Denne forskning bygger på voksende bekymringer om AI-resonneringsbegrænsninger identificeret på tværs af multiple domæner. Forbedringen fra guidet resonnering antyder, at bedre prompt-strategier og arkitekturmodifikationer kunne hjælpe modellerne med at aktivere deres latente resonneringskapaciteter mere effektivt.

Studiets mest betydningsfulde bidrag kan være dets detaljerede taksonomi af kognitive elementer, der giver forskerne og udviklerne specifikke mål for forbedring. Snarere end at behandle resonnering som en monolitisk kapacitet bryder rammen det ned i målbare komponenter, der kan behandles individuelt gennem træningsmodifikationer eller prompt-teknikker.