Artificial Intelligence
Wanneer meer denken AI dommer maakt: de omgekeerde schaalparadox

Kunstmatige intelligentie (AI) is gebaseerd op het idee dat machines hun prestaties verbeteren door ze meer tijd, data en rekenkracht te geven. Deze overtuiging is al jarenlang bepalend voor AI-onderzoek en -ontwikkeling. De belangrijkste aanname die hieraan ten grondslag ligt, is dat grotere modellen en meer middelen intelligentere systemen zouden creëren. Recente onderzoek is deze aanpak in twijfel gaan trekken. Grote taalmodellen, zoals De o1-serie van OpenAI, Claude van Anthropicen R1 van DeepSeek, werden gebouwd om problemen stap voor stap op te lossen, net als menselijk redeneren. Onderzoekers verwachtten dat deze modellen meer tijd zouden krijgen om na te denken en informatie te verwerken, waardoor hun besluitvorming zou verbeteren. Nieuwe studies Laten zien dat het tegenovergestelde kan gebeuren. Wanneer je deze modellen meer tijd geeft om na te denken, presteren ze soms slechter, vooral bij eenvoudige taken. Dit effect wordt inverse scaling genoemd. Het zet de overtuiging dat meer rekenkracht en dieper redeneren altijd tot betere resultaten leiden, op losse schroeven. Deze bevindingen hebben belangrijke gevolgen voor hoe we AI ontwerpen en gebruiken in de praktijk.
Het begrijpen van het fenomeen van omgekeerde schaalvergroting
De "omgekeerde schaalverdelingHet fenomeen werd aanvankelijk ontdekt door middel van gecontroleerde experimenten door onderzoekers van Anthropic. In tegenstelling tot traditionele schaalwetten, die stellen dat meer rekenkracht de prestaties verbetert, ontdekten deze studies dat AI meer tijd krijgt om te redeneren, wat de nauwkeurigheid bij verschillende taken kan verlagen.
Het onderzoeksteam heeft taken gecreëerd in vier Gebieden: eenvoudig tellen met afleidingen, regressie met irrelevante kenmerken, deductie met constraint tracking en complexe AI-veiligheidsscenario's. De resultaten waren verrassend. In sommige gevallen begonnen modellen die eerst correcte antwoorden gaven, na meer verwerkingstijd, onjuiste antwoorden te geven.
Bijvoorbeeld, bij een simpele teltaak zoals "Hoeveel fruit heb je als je een appel en een sinaasappel hebt?", raakten Claude-modellen vaak afgeleid door extra details wanneer ze meer tijd kregen om te redeneren. Ze gaven niet het juiste antwoord, namelijk twee. In deze gevallen dachten de modellen te veel na en maakten ze fouten.
Apple's recente onderzoek Deze bevindingen werden ook ondersteund. Ze voerden hun experimenten uit in gecontroleerde puzzelomgevingen zoals de Toren van Hanoi en de Rivieroversteekplaats, in plaats van op standaard benchmarks. Hun studies lieten drie patronen zien: bij eenvoudige taken presteerden standaard AI-modellen beter dan redeneermodellen; bij middelgrote taken hadden redeneermodellen een voordeel; en bij zeer complexe taken faalden beide typen modellen.
De vijf manieren waarop AI-redeneringen falen
Onderzoekers hebben vijf veelvoorkomende manieren ontdekt waarop AI-modellen kunnen falen wanneer ze gedurende langere perioden redeneren:
- Afleiding door irrelevantie: Wanneer AI-modellen te lang nadenken, raken ze vaak afgeleid door details die er niet toe doen. Dit is vergelijkbaar met een student die de kern van een probleem mist terwijl hij er diep over nadenkt.
- Overfitting op probleemframes: Sommige modellen, zoals de o-serie van OpenAI, richten zich te veel op probleempresentatie. Hoewel ze afleiding vermijden, zijn ze niet flexibel en vertrouwen ze op probleemformulering.
- Onjuiste correlatieverschuiving: Na verloop van tijd kunnen AI-modellen verschuiven van redelijke aannames naar het vertrouwen op misleidende correlaties. Bij regressietaken bijvoorbeeld, kijken modellen eerst naar relevante kenmerken, maar wanneer ze meer tijd krijgen om na te denken, kunnen ze zich gaan richten op irrelevante kenmerken en onjuiste resultaten opleveren.
- Focusdegradatie:Naarmate taken complexer worden, wordt het voor AI-modellen moeilijker om hun redenering helder en gericht te houden.
- Uitgebreid met betrekking tot gedragingen: Meer tijd om na te denken kan negatief gedrag verergeren. Zo toonde Claude's Sonnet 4 sterkere neigingen tot zelfbehoud wanneer hij extra tijd kreeg om na te denken over mogelijke shutdown-scenario's.
Hoe AI-redenering de complexiteit van problemen aanpakt
Apple-onderzoekers introduceerden de term “illusie van denken"om uit te leggen wat er gebeurt wanneer redeneermodellen taken met verschillende complexiteitsniveaus moeten uitvoeren. In plaats van zich te concentreren op wiskundige problemen of programmeertests, testten ze AI-redeneermodellen in gecontroleerde puzzelomgevingen zoals de Toren van Hanoi, Checker Jumping, River Crossing en Blocks World. Door de moeilijkheidsgraad van deze puzzels langzaam te verhogen, konden ze zien hoe de modellen op elk niveau presteerden. Deze methode hielp hen niet alleen de uiteindelijke antwoorden te onderzoeken, maar ook hoe de modellen tot die antwoorden kwamen. De studie vond drie duidelijke patronen in de modelprestaties op basis van de complexiteit van het probleem:
- Voor eenvoudige puzzels zoals de Toren van Hanoi met één of twee schijven gaven standaard grote taalmodellen (LLM's) efficiënter correcte antwoorden. AI-redeneringsmodellen maakten dingen vaak te ingewikkeld door hun lange redeneerketens, wat vaak resulteerde in onjuiste antwoorden.
- Bij matig complexe puzzels presteert AI-redenering beter. Ze konden problemen opsplitsen in duidelijke stappen, waardoor ze uitdagingen met meerdere stappen effectiever konden oplossen dan standaard LLM's.
- Bij zeer complexe puzzels, zoals de Toren van Hanoi met zijn vele schijven, hadden beide typen modellen moeite. De redeneermodellen verminderden vaak hun redeneerinspanning naarmate de puzzel moeilijker werd, ondanks de beschikbare rekenkracht. Dit 'opgeven'-gedrag toont een belangrijke zwakte in het schalen van hun redenering.
De uitdaging van AI-evaluatie
Het fenomeen van omgekeerde schaalvergroting brengt aanzienlijke problemen met zich mee in de manier waarop we AI-modellen evalueren. Veel huidige benchmarks meten alleen de nauwkeurigheid van de uiteindelijke antwoorden, niet de kwaliteit van het redeneringsproces. Dit kan leiden tot een verkeerd beeld van de werkelijke mogelijkheden van een model. Een model kan goed presteren op tests, maar toch falen bij nieuwe of ongebruikelijke problemen.
Inverse schaling wijst ook op zwakke punten in benchmarks voor redeneren en hoe we die gebruiken. Veel modellen gebruiken shortcuts en patroonherkenning in plaats van echt redeneren. Dit kan ze slimmer doen lijken dan ze in werkelijkheid zijn, maar hun prestaties nemen in de praktijk vaak af. Dit probleem houdt verband met grotere problemen met AI, zoals hallucinaties en betrouwbaarheid. Naarmate modellen beter worden in het geven van overtuigende verklaringen, wordt het moeilijker om echt redeneren te onderscheiden van verzonnen antwoorden.
De toekomst van AI-redeneren
De paradox van de omgekeerde schaalvergroting is zowel een uitdaging als een kans voor AI. Het laat zien dat het toevoegen van meer rekenkracht AI niet altijd slimmer maakt. We moeten heroverwegen hoe we AI-systemen ontwerpen en trainen die problemen met verschillende complexiteiten aankunnen. Nieuwe modellen moeten mogelijk beslissen wanneer ze moeten pauzeren en nadenken en wanneer ze snel moeten reageren. In dit opzicht zou AI kunnen profiteren van cognitieve architectuur zoals dubbele procestheorie als leidende principes. Deze architecturen verklaren hoe menselijk denken snelle, instinctieve reacties combineert met langzame, zorgvuldige redeneringen. De omgekeerde schaalvergroting herinnert ons er ook aan dat we volledig moeten begrijpen hoe AI beslissingen neemt voordat we het op cruciale gebieden gebruiken. Naarmate AI steeds meer wordt gebruikt voor besluitvorming in sectoren zoals de gezondheidszorg, de rechtspraak en het bedrijfsleven, wordt het nog belangrijker om ervoor te zorgen dat deze systemen correct redeneren.
The Bottom Line
De inverse schaalparadox leert ons een essentiële les in AI-ontwikkeling. Meer tijd en rekenkracht maken AI niet altijd competenter of betrouwbaarder. Echte vooruitgang komt voort uit het begrijpen wanneer AI moet redeneren en het kennen van de grenzen ervan. Voor organisaties en onderzoekers is het essentieel om AI als hulpmiddel te gebruiken, niet als vervanging voor menselijk oordeel. Het is noodzakelijk om voor elke taak het juiste model te kiezen. Naarmate AI onderdeel wordt van belangrijke beslissingen, moeten we de sterke en zwakke punten ervan zorgvuldig evalueren. De toekomst van AI hangt af van correct denken, niet alleen van meer denken.