Kunstmatige intelligentie
Onderzoek onthult dat LLM’s terugvallen op eenvoudige redenering wanneer complexiteit toeneemt

Een team van onderzoekers publiceerde een uitgebreide studie op 20 november waarin meer dan 192.000 redeneringssporen van grote taalmodellen (LLM’s) werden geanalyseerd, waaruit bleek dat AI-systemen meer vertrouwen op oppervlakkige, lineaire strategieën dan op de hiërarchische cognitieve processen die mensen van nature gebruiken.
Het onderzoeksteam onderzocht 18 verschillende modellen voor tekst-, visie- en audio-redeneringstaken en vergeleek hun benaderingen met 54 menselijke denk-hardop-sporen die specifiek voor de studie waren verzameld. De analyse stelde een taxonomie van 28 cognitieve elementen vast die computationele beperkingen, meta-cognitieve controles, kennisrepresentaties en transformatie-operaties omvatten – waardoor een kader ontstond om niet alleen te beoordelen of modellen correcte antwoorden produceren, maar ook hoe ze tot die conclusies komen.
Fundamentele verschillen in cognitieve architectuur
Menselijke redenering toont consistent hiërarchische nesting en meta-cognitieve monitoring – de mogelijkheid om te reflecteren op en te reguleren van het eigen denkproces. Mensen organiseren vloeiend informatie in geneste structuren, terwijl ze actief hun vorderingen bij complexe problemen volgen.
LLM’s gebruiken voornamelijk oppervlakkige forward chaining, waarbij ze stap voor stap door problemen gaan zonder de hiërarchische organisatie of zelfreflectie die kenmerkend is voor menselijke cognitie. Deze afwijking wordt het meest uitgesproken wanneer taken ongestructureerd of dubbelzinnig zijn, waarbij menselijke aanpasbaarheid aanzienlijk beter presteert dan AI-benaderingen.
De studie toonde aan dat taalmodellen de gedragscomponenten bezitten die geassocieerd worden met succesvolle redenering, maar deze vaak niet spontaan inzetten. De prestaties variëren dramatisch per probleemtype: dilemma-redenering vertoonde de hoogste variantie, waarbij kleinere modellen aanzienlijk worstelden, terwijl logische redenering een matige prestatie liet zien, waarbij grotere modellen over het algemeen beter presteerden dan kleinere. Modellen vertonen tegenintuïtieve zwakheden, waarbij ze slagen op complexe taken, maar falen op eenvoudigere varianten.
Prestatieverbeteringen door geleide redenering
Het onderzoeksteam ontwikkelde test-tijd-redeneringsleiding die succesvolle cognitieve structuren automatisch ondersteunt, waarbij prestatieverbeteringen tot 66,7% op complexe problemen werden aangetoond wanneer modellen werden aangemoedigd om meer menselijke redeneringsbenaderingen te gebruiken. Deze bevinding suggereert dat LLM’s latent capaciteiten voor meer geavanceerde redenering bezitten, maar expliciete leiding nodig hebben om ze effectief in te zetten.
De kloof tussen menselijke en AI-redenering wordt groter naarmate de taakcomplexiteit toeneemt. Terwijl modellen eenvoudige problemen kunnen hanteren door middel van forward chaining alleen, worstelen ze met het soort recursieve, zelfmoniterende strategieën die mensen van nature inzetten wanneer ze geconfronteerd worden met dubbelzinnige of meerdere laags problemen.
De openbaar beschikbare dataset van de studie biedt een basis voor toekomstig onderzoek naar de vergelijking van kunstmatige en menselijke intelligentie. Door 28 verschillende cognitieve elementen in kaart te brengen, maakt het kader het onderzoekers mogelijk om precies te bepalen waar AI-redenering faalt, in plaats van alleen nauwkeurigheidsscores te meten.
Implicaties voor AI-ontwikkeling
De bevindingen benadrukken een fundamentele beperking in de huidige AI-systemen: de kloof tussen computationele capaciteit en echte cognitieve sofisticatie. Modellen die zijn getraind op enorme datasets kunnen patronen herkennen om correcte antwoorden te geven voor veel taken, maar ontbreken de reflectieve, hiërarchische denkwijze die kenmerkend is voor menselijk probleemoplossend denken.
Dit onderzoek bouwt voort op groeiende bezorgdheid over AI-redeneringsbeperkingen die zijn geïdentificeerd in meerdere domeinen. De prestatieverbetering van geleide redenering suggereert dat betere promptstrategieën en architecturale modificaties modellen kunnen helpen om hun latentie redeneringscapaciteiten effectiever te benutten.
De belangrijkste bijdrage van de studie kan zijn de gedetailleerde taxonomie van cognitieve elementen, die onderzoekers en ontwikkelaars voorziet van specifieke doelen voor verbetering. In plaats van redenering te behandelen als een monolithische capaciteit, breekt het kader het op in meetbare componenten die afzonderlijk kunnen worden aangepakt door middel van trainingsmodificaties of prompt-engineeringtechnieken.












