Artificial Intelligence
Vol zelfvertrouwen fout: Waarom de slimste AI-modellen het slechtst zijn in het corrigeren van zichzelf.

Veel mensen in de AI-gemeenschap geloofd wie en wat je bent Dat de volgende grote revolutie het tijdperk van zelfverbeterende AI zal zijn, waarin AI zichzelf kan verbeteren zonder menselijke tussenkomst. Het argument is: naarmate modellen capabeler worden, zullen ze uiteindelijk niet alleen van data leren, maar ook van zichzelf. Elke iteratie zou de vorige verfijnen. Fouten zouden worden geïdentificeerd, gecorrigeerd en geëlimineerd. Na verloop van tijd zou deze opeenstapeling van verbeteringen een intelligentie explosie met de meeste AI begint AI te bouwen.Deze visie ligt ten grondslag aan veel van de opwinding rond recursieve AI, autonome agenten en de langverwachte intelligentie-explosie. Centraal in deze visie staat het vermogen van AI-systemen om hun eigen fouten betrouwbaar te herstellen. Zonder robuuste zelfcorrectie is zelfverbetering echter onmogelijk. Een systeem dat niet kan herkennen wanneer het fout zit, kan niet zinvol leren van zijn eigen output, hoe krachtig het ook lijkt.
De gangbare veronderstelling was dat zelfcorrectie vanzelf zou ontstaan naarmate modellen capabeler worden. Deze overtuiging voelt intuïtief aan. Sterkere modellen weten immers meer, redeneren beter en presteren goed bij verschillende taken. Echter, recent onderzoek Dit onthult een contra-intuïtieve bevinding: geavanceerdere modellen hebben vaak moeite met het herstellen van hun eigen fouten, terwijl zwakkere modellen beter presteren in zelfcorrectie. Dit fenomeen, bekend als de nauwkeurigheids-correctieparadox, dwingt ons niet alleen na te denken over hoe AI-systemen redeneren, maar ook over hoe klaar we werkelijk zijn voor zelfverbeterende AI.
Zelfverbeterende AI begrijpen
Zelfverbeterende AI Dit verwijst naar een AI-systeem dat zijn eigen fouten kan herkennen, ervan kan leren en zijn gedrag iteratief kan verfijnen. In tegenstelling tot traditionele modellen, die uitsluitend afhankelijk zijn van door mensen samengestelde trainingsdata, zou zelfverbeterende AI zijn eigen output actief evalueren en zich in de loop van de tijd aanpassen. In theorie creëert dit een systeem .... een feedbacklus waarbij elke leercyclus voortbouwt op de vorige, wat leidt tot wat vaak wordt omschreven als een intelligentie-explosie.
Het bereiken van dit doel is echter allesbehalve eenvoudig. Zelfverbetering vereist meer dan alleen rekenkracht of grotere datasets. Het vereist betrouwbare zelfevaluatie, inclusief het vermogen om fouten te detecteren, de oorzaken ervan te achterhalen en gecorrigeerde oplossingen te produceren. Zonder deze mogelijkheden kan een model geen onderscheid maken tussen een correct en een foutief redeneerpad. Het herhalen van de verkeerde oplossing, hoe snel ook, versterkt fouten alleen maar in plaats van de prestaties te verbeteren.
Dit onderscheid is cruciaal. Bij mensen omvat leren van fouten vaak reflectie, het testen van hypotheses en het bijsturen van de koers. Voor AI moeten deze processen in het systeem zelf worden ingebouwd. Als een model zijn fouten niet betrouwbaar kan herkennen en corrigeren, kan het niet zinvol deelnemen aan een zelfverbeteringscyclus, en blijft de belofte van recursieve intelligentie theoretisch in plaats van praktisch.
De paradox van nauwkeurigheid en correctie
Zelfcorrectie wordt vaak als één enkele vaardigheid beschouwd, maar in werkelijkheid combineert het verschillende afzonderlijke capaciteiten die apart moeten worden bekeken. We kunnen het op zijn minst onderverdelen in drie meetbare subvaardigheden: foutdetectie, foutlokalisatie of brondetectie en foutcorrectie. Foutdetectie betreft de vraag of een model kan herkennen dat de uitvoer onjuist is. Foutlokalisatie richt zich op het identificeren van de locatie van de fout. Foutcorrectie verwijst naar het vermogen om een gecorrigeerde oplossing te produceren.
Door deze capaciteiten afzonderlijk te meten, onthullen onderzoekers belangrijke inzichten in de beperkingen van de huidige systemen. Ze laten zien dat modellen sterk variëren op deze gebieden. Sommige modellen zijn goed in het detecteren van fouten, maar slecht in het corrigeren ervan. Andere modellen herkennen fouten nauwelijks, maar slagen er toch in om ze te corrigeren door herhaalde pogingen. Belangrijker nog, deze inzichten tonen aan dat verbetering op één gebied geen garantie is voor verbetering op de andere gebieden.
Toen onderzoekers geavanceerde modellen testten op complexe wiskundige redeneertaken, maakten deze modellen minder fouten. Dat was te verwachten. Wat onverwacht was, was de bevinding dat: wanneer deze modellen fouten maakten, ze die minder vaak zelf corrigeerden. Zwakkere modellen daarentegen, hoewel ze meer fouten maakten, waren aanzienlijk beter in staat hun fouten te herstellen zonder externe feedback. Met andere woorden, onderzoekers ontdekten dat nauwkeurigheid en zelfcorrectie in tegengestelde richtingen bewogen, een paradox die ze de nauwkeurigheid-correctieparadox noemen. Deze bevinding daagt een diepgewortelde overtuiging in de ontwikkeling van AI uit. We gaan er vaak van uit dat schaalmodellen elk aspect van intelligentie verbeteren. De paradox laat zien dat deze aanname niet altijd opgaat, vooral niet voor introspectieve vermogens.
De hypothese van de foutendiepte
Deze paradox roept een voor de hand liggende vraag op: waarom presteren zwakkere modellen beter dan sterkere modellen als het gaat om zelfcorrectie? Onderzoekers vinden het antwoord door de volgende aspecten te bestuderen: type dan: van de fouten die modellen maken. Ze ontdekten dat sterkere modellen minder fouten maken, maar dat de fouten die ze wel maken "dieper" zijn en moeilijker te corrigeren. Zwakkere modellen maken daarentegen "oppervlakkigere" fouten die gemakkelijk te verhelpen zijn tijdens een tweede analyse.
Onderzoekers noemen dit inzicht de hypothese over de foutdiepteZe categoriseren fouten in opzetfouten, logicafouten en rekenfouten. Opzetfouten hebben betrekking op een verkeerde interpretatie van het probleem. Logische fouten treden op wanneer het redeneerpad structureel gebrekkig is. Rekenfouten zijn eenvoudige rekenfouten. Bij GPT-3.5 bestaat het grootste deel van de fouten (62%) uit eenvoudige rekenfouten. Dit zijn oppervlakkige fouten. Wanneer het model wordt gevraagd om "zorgvuldig te controleren", kan het de rekenfout vaak vinden en corrigeren. Bij DeepSeek daarentegen bestaat 77% van de fouten uit opzet- of logicafouten. Deze diepgaande fouten vereisen dat het model zijn aanpak fundamenteel heroverweegt. Sterke modellen hebben hier moeite mee omdat ze de neiging hebben vast te houden aan hun oorspronkelijke redeneerpad. Naarmate de intelligentie van het model toeneemt, blijven alleen de meest hardnekkige en lastige fouten over.
Waarom het opsporen van fouten geen garantie is voor het oplossen ervan.
Een van de meest verrassende bevindingen van de onderzoek Foutdetectie correleert niet met het vermogen om fouten te herstellen. Een model kan correct vaststellen dat zijn antwoord onjuist is, maar het toch niet corrigeren. Een ander model detecteert mogelijk nauwelijks fouten, maar verbetert wel door herhaaldelijk opnieuw te oefenen. Claude-3-Haiku is hiervan het meest sprekende voorbeeld. Claude detecteerde slechts 10.1% van zijn eigen fouten, het laagste percentage van alle geteste modellen. Ondanks deze zwakke detectie behaalde het de hoogste intrinsieke correctiesnelheid van 29.1%. Ter vergelijking: GPT-3.5 detecteerde 81.5% van zijn fouten, maar corrigeerde er slechts 26.8%.
Dit suggereert dat sommige modellen hun fouten mogelijk "per ongeluk" corrigeren door het probleem simpelweg opnieuw op te lossen via een ander steekproefpad, zelfs als ze niet herkennen dat de eerste poging fout was. Deze discrepantie is gevaarlijk voor implementatie in de praktijk. Wanneer een model te zelfverzekerd is en zijn eigen logische fouten niet detecteert, kan het een plausibele maar volledig onjuiste verklaring als waarheid presenteren. In sommige gevallen maakt het aansporen van een model om zijn eigen fouten te identificeren de situatie zelfs erger. Wanneer een model onjuist vaststelt waar het misging, klampt het zich vast aan een gebrekkige verklaring en verdubbelt het de fout. In plaats van te helpen, kunnen zelf gegenereerde aanwijzingen het model vastzetten in het verkeerde redeneerpad. Dit gedrag weerspiegelt menselijke cognitieve vertekening. Zodra we denken te weten wat er mis is gegaan, stoppen we met zoeken naar diepere oorzaken.
Herhaling helpt, maar niet in gelijke mate.
Het onderzoek toont ook aan dat iteratieve reflectie de resultaten vaak verbetert, maar niet alle modellen profiteren er op dezelfde manier van. Zwakkere modellen hebben aanzienlijk baat bij meerdere heroverwegingsrondes, omdat elke iteratie hen een nieuwe kans geeft om hun oppervlakkige problemen op te lossen. Sterkere modellen laten veel minder winst zien door iteratie. Hun fouten zijn niet gemakkelijk te verhelpen door herhaling. Zonder externe begeleiding reproduceren extra pogingen vaak dezelfde gebrekkige redenering in andere bewoordingen. Dit inzicht suggereert dat zelfverfijningstechnieken niet universeel effectief zijn. Hun succes hangt af van de aard van de gemaakte fouten, niet alleen van de intelligentie van het model.
Wat dit betekent voor het ontwerp van AI-systemen
Deze inzichten hebben praktische implicaties. Ten eerste moeten we stoppen met de aanname dat een hogere nauwkeurigheid automatisch betere zelfcorrectie impliceert. Systemen die afhankelijk zijn van autonome zelfverbetering moeten expliciet worden getest op correctiegedrag, niet alleen op de uiteindelijke prestaties. Ten tweede vereisen verschillende modellen mogelijk verschillende interventiestrategieën. Zwakkere modellen kunnen baat hebben bij eenvoudige verificatie en iteratie. Sterkere modellen vereisen mogelijk externe feedback, gestructureerde verificatie of controles met behulp van tools om diepgaande redeneerfouten te verhelpen. Ten derde moeten zelfcorrectieprocessen rekening houden met fouten. Inzicht in de gevoeligheid van een taak voor oppervlakkige of diepgaande fouten kan bepalen of zelfcorrectie überhaupt zal werken. Ten slotte moeten evaluatiebenchmarks detectie, lokalisatie en correctie van elkaar scheiden. Door ze als één enkele maatstaf te beschouwen, worden cruciale zwakheden die van belang zijn in de praktijk, verborgen.
The Bottom Line
Zelfverbeterende AI is niet alleen afhankelijk van het produceren van correcte antwoorden, maar ook van het vermogen om onjuiste antwoorden te herkennen, te diagnosticeren en te corrigeren. De paradox van nauwkeurigheid en correctie laat zien dat sterkere modellen niet automatisch beter zijn in deze taak. Naarmate modellen capabeler worden, worden hun fouten dieper geworteld, moeilijker te detecteren en resistenter tegen zelfcorrectie. Dit betekent dat vooruitgang in de schaalbaarheid van modellen alleen niet voldoende is. Als we AI-systemen willen die echt van hun eigen fouten kunnen leren, moet zelfcorrectie worden behandeld als een aparte capaciteit die expliciet wordt gemeten, getraind en ondersteund.








