Kunstmatige intelligentie

De mirage van AI-redeenering: waarom Chain-of-Thought mogelijk niet is wat we denken

mm

Grote taalmodellen (LLMs) hebben ons verrast met hun vermogen om complexe problemen stap voor stap op te lossen. Wanneer we LLMs vragen om een wiskundig probleem op te lossen, tonen ze nu hun werk, waarbij ze elke logische stap doorlopen voordat ze bij een antwoord komen. Deze benadering, genaamd Chain-of-Thought (CoT)-redeenering, heeft AI-systemen meer menselijk gemaakt in hun denkproces. Maar wat als deze indrukwekkende redeeneringscapaciteit eigenlijk een illusie is? Nieuw onderzoek van de Arizona State University suggereert dat wat eruitziet als echte logische denken, mogelijk een geavanceerde patroonherkenningsmethode is. In dit artikel zullen we deze ontdekking onderzoeken en de implicaties analyseren voor de manier waarop we AI-systemen ontwerpen, evalueren en vertrouwen.

Het probleem met het huidige begrip

Chain-of-thought-prompting is een van de meest erkende vooruitgangen in AI-redeenering. Het stelt modellen in staat om alles van wiskundige problemen tot logische puzzels aan te pakken door hun werk te tonen via tussenstappen. Deze schijnbare redeeneringscapaciteit heeft veel mensen doen geloven dat AI-systemen inferentiële capaciteiten ontwikkelen die vergelijkbaar zijn met menselijk denken. Echter, onderzoekers hebben begonnen om deze overtuiging in twijfel te trekken.

In een recent onderzoek zagen ze dat wanneer modellen vragen kregen zoals of de VS was opgericht in een schrikkeljaar of een normaal jaar, de modellen een inconsistent antwoord gaven. Terwijl ze correct aangaven dat 1776 deelbaar is door 4 en dat het een schrikkeljaar was, concludeerden de modellen nog steeds dat de VS was opgericht in een normaal jaar. In dit geval toonden de modellen kennis van de regels en logische stappen, maar kwamen tot een tegenstrijdig conclusie.

Dit soort voorbeelden suggereert dat er mogelijk een fundamentele kloof is tussen wat eruitziet als redeenering en echte logische inferentie.

Een nieuwe kijk op AI-redeenering

Een sleutelinnovatie van dit onderzoek is de introductie van een “data-distributielens” om Chain-of-Thought (CoT)-redeenering te onderzoeken. Onderzoekers hebben de hypothese dat CoT een geavanceerde patroonherkenningsmethode is die werkt op statistische regelmatigheden in trainingsdata, in plaats van echte logische redeenering. Het model genereert redeeneringspaden die benaderen wat het eerder heeft gezien, in plaats van logische operaties uit te voeren.

Om deze hypothese te testen, creëerden onderzoekers DataAlchemy, een gecontroleerde experimentele omgeving. In plaats van getrainde LLM’s met hun complexe trainingsgeschiedenis te testen, trainden ze kleinere modellen van scratch op zorgvuldig ontworpen taken. Deze benadering elimineert de complexiteit van grote-schaal vooraftrainen en maakt systematische testen van hoe distributieshifts de redeeneringsprestaties beïnvloeden mogelijk.

De onderzoekers richtten zich op eenvoudige transformatietaken met betrekking tot letterreeksen. Ze leerden modellen bijvoorbeeld om operaties toe te passen zoals het roteren van letters in het alfabet (A wordt N, B wordt O) of het verschuiven van posities in een reeks (APPLE wordt EAPPL). Door deze operaties te combineren, creëerden onderzoekers multi-stap redeeneringsketens van variabele complexiteit. Deze benadering gaf hen het voordeel van precisie. Ze konden exact controleren wat de modellen tijdens de training leerden en vervolgens testen hoe goed ze zich aanpaste aan nieuwe situaties. Dit niveau van controle is onmogelijk met grote commerciële AI-systemen die getraind zijn op enorme, diverse datasets.

Wanneer AI-redeenering faalt

De onderzoekers testten CoT-redeenering over drie kritische dimensies waarin reële toepassingen kunnen afwijken van trainingsdata.

Taakgeneralisatie onderzocht hoe modellen omgaan met nieuwe problemen die ze nog nooit eerder hebben gezien. Wanneer getest op transformaties identiek aan trainingsdata, behaalden modellen perfecte prestaties. Echter, kleine variaties veroorzaakten dramatische falen in hun redeeneringscapaciteiten. Zelfs wanneer de nieuwe taken waren samengesteld uit vertrouwde operaties, faalden de modellen om hun geleerde patronen correct toe te passen.

Een van de meest verontrustende inzichten was hoe modellen vaak redeeneringsstappen produceerden die perfect waren geformatteerd en logisch leken, maar tot onjuiste antwoorden leidden. In sommige gevallen produceerden ze correcte antwoorden door toeval, terwijl ze volledig verkeerde redeeneringspaden volgden. Deze bevindingen suggereren dat modellen in wezen oppervlaktepatronen matchen in plaats van onderliggende logica te begrijpen.

Lengtegeneralisatie testte of modellen redeeneringsketens konden hanteren die langer of korter waren dan die in trainingsdata. Onderzoekers vonden dat modellen getraind op lengte 4 volledig faalden wanneer getest op lengtes 3 of 5, ondanks dat deze relatief kleine veranderingen waren. Bovendien probeerden de modellen hun redeenering te forceren in het vertrouwde patroonlengte door stappen toe te voegen of te verwijderen op een ongepaste manier, in plaats van zich aan te passen aan de nieuwe vereisten.

Formatgeneralisatie beoordeelde de gevoeligheid voor oppervlaktevariaties in de presentatie van problemen. Zelfs kleine veranderingen, zoals het toevoegen van ruis tokens of het lichtjes wijzigen van de promptstructuur, veroorzaakten aanzienlijke prestatieverslechtering. Dit onthulde hoe afhankelijk de modellen zijn van exacte formatpatronen uit trainingsdata.

Het broosheidsprobleem

Over alle drie dimensies heen, onthulde het onderzoek een consistent patroon: CoT-redeenering werkt goed wanneer toegepast op data die vergelijkbaar is met trainingsvoorbeelden, maar wordt fragiel en vatbaar voor falen, zelfs bij matige distributieshifts. De schijnbare redeeneringscapaciteit is eigenlijk een “broze mirage” die verdwijnt wanneer modellen onverwachte situaties tegenkomen.

Dit broosheid kan zich op verschillende manieren manifesteren. Modellen kunnen fluente, goed gestructureerde redeeneringsketens produceren die volledig verkeerd zijn. Ze kunnen perfecte logische vorm volgen, terwijl ze fundamentele logische verbindingen missen. Soms produceren ze correcte antwoorden door wiskundig toeval, terwijl ze gebrekkige redeeneringsprocessen demonstreren.

Het onderzoek toonde ook aan dat begeleide fine-tuning op kleine hoeveelheden nieuwe data snel de prestaties kan herstellen, maar dit breidt het patroonherkenningsrepertoire van het model uit in plaats van echte redeeneringscapaciteiten te ontwikkelen. Het is alsof je leert om een nieuw type wiskundig probleem op te lossen door specifieke voorbeelden te memoriseren, in plaats van de onderliggende wiskundige principes te begrijpen.

Reële implicaties

Deze bevindingen kunnen ernstige implicaties hebben voor de manier waarop we AI-systemen inzetten en vertrouwen. In hoge-inzetgebieden zoals geneeskunde, financiën of juridische analyse kan de capaciteit om plausibele, maar fundamenteel verkeerde redeenering te produceren, gevaarlijker zijn dan eenvoudig onjuiste antwoorden. De opkomst van logisch denken kan gebruikers ertoe brengen om ongerechtvaardigd vertrouwen te stellen in AI-conclusies.

Het onderzoek suggereert verschillende belangrijke richtlijnen voor AI-praktijnen. Ten eerste moeten organisaties CoT niet behandelen als een universele oplossing voor problemen. Standaardtestmethoden die gebruikmaken van data die vergelijkbaar is met trainingssets, zijn onvoldoende om echte redeeneringscapaciteiten te evalueren. In plaats daarvan is rigoureuze out-of-distribution testing essentieel om modelbeperkingen te begrijpen.

Ten tweede vereist de neiging van modellen om “fluente onzin” te produceren zorgvuldige menselijke toezicht, vooral in kritieke toepassingen. De coherente structuur van AI-gegenereerde redeeneringsketens kan fundamentele logische fouten maskeren die niet onmiddellijk zichtbaar zijn.

Verder kijken dan patroonherkenning

Misschien wel het belangrijkste is dat dit onderzoek de AI-gemeenschap uitdaagt om verder te gaan dan oppervlakteverbeteringen en systemen te ontwikkelen met echte redeeneringscapaciteiten. Huidige benaderingen die afhankelijk zijn van het opschalen van data en parameters, kunnen fundamentele limieten bereiken als ze voornamelijk geavanceerde patroonherkenningsystemen zijn.

Het onderzoek vermindert de praktische bruikbaarheid van huidige AI-systemen niet. Patroonherkenning op grote schaal kan opvallend effectief zijn voor veel toepassingen. Echter, het benadrukt het belang van het begrijpen van de ware aard van deze capaciteiten, in plaats van menselijk redeeneren toe te schrijven waar dat niet bestaat.

De weg vooruit

Dit onderzoek opent belangrijke vragen over de toekomst van AI-redeenering. Als huidige benaderingen fundamenteel beperkt zijn door hun trainingsdistributies, welke alternatieve benaderingen kunnen leiden tot robuustere redeeneringscapaciteiten? Hoe kunnen we evaluatiemethoden ontwikkelen die onderscheid maken tussen patroonherkenning en echte logische inferentie?

De bevindingen benadrukken ook het belang van transparantie en adequate evaluatie in AI-ontwikkeling. Naarmate deze systemen meer geavanceerd en overtuigend worden, kan de kloof tussen schijnbare en werkelijke capaciteiten steeds gevaarlijker worden als deze niet goed wordt begrepen.

De bodemlijn

Chain-of-Thought-redeenering in LLMs weerspiegelt vaak patroonherkenning in plaats van echte logica. Terwijl de uitvoer overtuigend kan lijken, kan het falen onder nieuwe omstandigheden, waardoor zorgen ontstaan voor kritieke gebieden zoals geneeskunde, recht en wetenschap. Dit onderzoek benadrukt het belang van betere testen en meer betrouwbare benaderingen van AI-redeenering.

Dr. Tehseen Zia is een gewaardeerd associate professor aan de COMSATS University Islamabad, met een PhD in AI van de Vienna University of Technology, Oostenrijk. Hij specialiseert zich in Artificial Intelligence, Machine Learning, Data Science en Computer Vision, en heeft significante bijdragen geleverd met publicaties in gerenommeerde wetenschappelijke tijdschriften. Dr. Tehseen heeft ook verschillende industriële projecten geleid als hoofdonderzoeker en heeft gediend als AI-consultant.