Kunstmatige intelligentie
LLMs zijn geen redenering – Ze zijn gewoon heel goed in plannen
Grote taalmodellen (LLMs) zoals OpenAI’s o3, Google’s Gemini 2.0 en DeepSeek’s R1 hebben een opmerkelijke vooruitgang geboekt bij het aanpakken van complexe problemen, het genereren van menselijke tekst en zelfs het schrijven van code met precisie. Deze geavanceerde LLMs worden vaak “redeneringsmodellen” genoemd vanwege hun opmerkelijke vermogen om complexe problemen te analyseren en op te lossen. Maar redeneren deze modellen eigenlijk, of zijn ze gewoon uitzonderlijk goed in plannen? Dit onderscheid is subtiel, maar heeft grote gevolgen voor hoe we de mogelijkheden en beperkingen van LLMs begrijpen.
Om dit onderscheid te begrijpen, laten we twee scenario’s vergelijken:
- Redenering: Een detective die een misdaad onderzoekt, moet tegenstrijdige bewijzen in elkaar passen, bepalen welke er vals zijn en tot een conclusie komen op basis van beperkte bewijzen. Dit proces omvat inferentie, contradictie-oplossing en abstract denken.
- Plannen: Een schaker die de beste reeks zetten berekent om zijn tegenstander te mat te zetten.
Terwijl beide processen meerdere stappen omvatten, houdt de detective zich bezig met diepe redenering om inferenties te maken, contradicties te evalueren en algemene principes toe te passen op een specifiek geval. De schaker daarentegen houdt zich voornamelijk bezig met plannen, door een optimale reeks zetten te selecteren om het spel te winnen. LLMs, zoals we zullen zien, functioneren veel meer als de schaker dan de detective.
Het verschil begrijpen: Redenering vs. Plannen
Om te begrijpen waarom LLMs goed zijn in plannen in plaats van redeneren, is het belangrijk om eerst het verschil tussen beide termen te begrijpen. Redenering is het proces van het afleiden van nieuwe conclusies uit gegeven premissen met behulp van logica en inferentie. Het omvat het identificeren en corrigeren van inconsistenties, het genereren van nieuwe inzichten in plaats van alleen informatie te verstrekken, het nemen van beslissingen in onduidelijke situaties en het betrokken zijn bij causale begrip en contrafactueel denken, zoals “Wat als?”-scenario’s.
Plannen daarentegen richt zich op het structureren van een reeks acties om een specifiek doel te bereiken. Het vertrouwt op het opbreken van complexe taken in kleinere stappen, het volgen van bekende probleemoplossingsstrategieën, het aanpassen van eerder geleerde patronen aan soortgelijke problemen en het uitvoeren van gestructureerde sequenties in plaats van het ontwikkelen van nieuwe inzichten. Terwijl zowel redenering als plannen stap-voor-stap verwerking omvatten, vereist redenering diepere abstractie en inferentie, terwijl plannen gevestigde procedures volgt zonder fundamenteel nieuwe kennis te genereren.
Hoe LLMs “Redeneren”
Moderne LLMs, zoals OpenAI’s o3 en DeepSeek-R1, zijn uitgerust met een techniek, bekend als Chain-of-Thought (CoT)-redenering, om hun probleemoplossende capaciteiten te verbeteren. Deze methode moedigt modellen aan om problemen op te breken in tussenstappen, waardoor ze de manier waarop mensen logisch over een probleem nadenken, imiteren. Om te zien hoe het werkt, overweeg een eenvoudig wiskundig probleem:
Als een winkel appels verkoopt voor $2 per stuk, maar een korting van $1 per appel aanbiedt als je meer dan 5 appels koopt, hoeveel zouden 7 appels kosten?
Een typische LLM met CoT-prompting zou het oplossen als volgt:
- Bepaal de reguliere prijs: 7 * $2 = $14.
- Identificeer dat de korting van toepassing is (aangezien 7 > 5).
- Bereken de korting: 7 * $1 = $7.
- Trek de korting af van het totaal: $14 – $7 = $7.
Door een sequentie van stappen expliciet uit te leggen, minimaliseert het model de kans op fouten die ontstaan door te proberen een antwoord in één keer te voorspellen. Terwijl deze stap-voor-stap-benadering LLMs doet lijken alsof ze redeneren, is het eigenlijk een vorm van gestructureerde probleemoplossing, veel zoals het volgen van een stap-voor-stap-recept. Aan de andere kant zou een waar redeneringsproces een algemene regel kunnen herkennen: Als de korting van toepassing is op meer dan 5 appels, dan kost elke appel $1. Een mens kan zo’n regel onmiddellijk afleiden, maar een LLM kan dat niet, omdat het alleen een gestructureerde sequentie van berekeningen volgt.
Waarom Chain-of-Thought geen Redenering is
Terwijl Chain-of-Thought (CoT) de prestaties van LLMs op logica-georiënteerde taken zoals wiskundige woordproblemen en coderingsuitdagingen heeft verbeterd, omvat het geen echte logische redenering. Dit komt omdat CoT procedurale kennis volgt, waarbij gestructureerde stappen worden gevolgd in plaats van het genereren van nieuwe inzichten. Het ontbreekt aan een waar begrip van causaliteit en abstracte relaties, wat betekent dat het model niet deelneemt aan contrafactueel denken of het overwegen van hypothetische situaties die intuïtie vereisen die verder gaat dan de gezien gegevens. Bovendien kan CoT zijn aanpak niet fundamenteel veranderen buiten de patronen waarop het is getraind, waardoor zijn vermogen om creatief te redeneren of aan te passen in onbekende scenario’s wordt beperkt.
Wat zou het kosten voor LLMs om echte Redeneringsmachines te worden?
Dus, wat hebben LLMs nodig om echt te redeneren zoals mensen? Hier zijn enkele sleutelgebieden waarin ze verbetering nodig hebben en potentiële benaderingen om dit te bereiken:
- Symbolisch Begrip: Mensen redeneren door abstracte symbolen en relaties te manipuleren. LLMs ontbreken echter aan een echte symbolische redeneringsmechanisme. Het integreren van symbolische AI of hybride modellen die neurale netwerken combineren met formele logica-systemen, kan hun vermogen om echt te redeneren verbeteren.
- Causale Inferentie: Echte redenering vereist het begrijpen van oorzaak en gevolg, niet alleen statistische correlaties. Een model dat redeneert, moet onderliggende principes afleiden uit gegevens in plaats van alleen het volgende token te voorspellen. Onderzoek naar causale AI, die expliciet causale relaties modelleert, kan helpen LLMs over te gaan van plannen naar redeneren.
- Zelfreflectie en Metacognitie: Mensen evalueren constant hun eigen denkprocessen door te vragen “Maakt deze conclusie zin?” LLMs hebben echter geen mechanisme voor zelfreflectie. Het bouwen van modellen die hun eigen uitvoer kritisch kunnen evalueren, zou een stap zijn naar echte redenering.
- Alledaagse Verstandigheid en Intuïtie: Ondanks dat LLMs toegang hebben tot een enorme hoeveelheid kennis, worstelen ze vaak met basisredenering op basis van alledaagse verstandigheid. Dit gebeurt omdat ze geen echte wereldervaringen hebben om hun intuïtie vorm te geven en ze moeilijk absurditeiten kunnen herkennen die mensen meteen zouden opmerken. Ze ontbreken ook aan een manier om echte wereld dynamiek in hun besluitvorming te brengen. Een manier om dit te verbeteren kan zijn door een model te bouwen met een alledaagse verstandigheidsengine, wat het integreren van echte wereld sensoren of het gebruik van kennisgrafieken kan omvatten om het model beter te laten begrijpen hoe de wereld werkt op een manier die voor mensen natuurlijk is.
- Contrafactueel Denken: Menselijke redenering omvat vaak het stellen van vragen als “Wat als dingen anders waren?” LLMs worstelen met dit soort “wat als”-scenario’s omdat ze beperkt zijn door de gegevens waarop ze zijn getraind. Om modellen te laten denken als mensen in deze situaties, zouden ze hypothetische scenario’s moeten simuleren en begrijpen hoe veranderingen in variabelen de resultaten kunnen beïnvloeden. Ze zouden ook een manier nodig hebben om verschillende mogelijkheden te testen en nieuwe inzichten te ontwikkelen, in plaats van alleen te voorspellen op basis van wat ze al hebben gezien. Zonder deze capaciteiten kunnen LLMs niet echt alternatieve toekomsten voorstellen – ze kunnen alleen werken met wat ze hebben geleerd.
Conclusie
Terwijl LLMs misschien doen alsof ze redeneren, vertrouwen ze eigenlijk op plannentechnieken om complexe problemen op te lossen. Of het nu gaat om het oplossen van een wiskundig probleem of het betrokken zijn bij logische deductie, ze zijn voornamelijk bekend met het organiseren van patronen in een gestructureerde manier in plaats van diep de principes achter hen te begrijpen. Dit onderscheid is cruciaal in AI-onderzoek, omdat we, als we geavanceerd plannen verwarren met echte redenering, het risico lopen de werkelijke capaciteiten van AI te overschatten.
De weg naar echte redeneringsmachines zal fundamentele doorbraken vereisen die verder gaan dan tokenvoorspelling en probabilistisch plannen. Het zal doorbraken vereisen in symbolische logica, causale begrip en metacognitie. Tot die tijd zullen LLMs krachtige instrumenten blijven voor gestructureerde probleemoplossing, maar zullen ze niet echt denken zoals mensen doen.












