Andersons hoek
Heuristieken vs. RAG: Shrinkflation als beleidsstuurder

Meestal verbetert het zoeken op het web de feitelijke nauwkeurigheid van ChatGPT’s antwoorden op onze vragen. Dus in een klimaat waarin AI worstelt met publieke acceptatie, waarom gebruikt het standaard ‘gokjes’?
Opinie Het is een fout om te denken dat LLM’s zoals ChatGPT ooit meewerken aan het aankaarten van potentieel louche praktijken van hun hosts, zelfs als een dure en verspilde sessie uw irritatie heeft verhoogd tot het punt waarop u echt in de details van een systeem duikt:

Hier leidt een discussie over ChatGPT’s voorkeur voor zijn eigen interne logica (vs webgebaseerd onderzoek en verificatie via RAG – die minder hallucinaties produceert, maar meer kost) tot een ogenschijnlijk openhartig moment; maar neem het met een korrel zout. Bron
Meestal – vooral voor modellen met latere kennisafsnijdata – is de AI gewoon aan het improviseren op basis van Reddit- en forumberichten die tijdens de training zijn gezien. Zelfs als er enige waarde zou zijn aan dergelijke ‘insider-inzichten’, is het onmogelijk om dit te bewijzen.
Echter, soms leiden deze verhitte uitwisselingen tot de ontdekking van ‘hacks’ (of tenminste, ‘trucs’) die beloven enkele van de slechtste herhalende gewoonten van een LLM te voorkomen – zoals toen ChatGPT vorige week suggereerde dat ik het kon laten harder werken en minder hallucineren door de aanmaning ‘geen heuristieken’ op te nemen:

Ik heb ‘geen heuristieken’ veel gebruikt sindsdien, en nooit heeft het model zijn eigen getrainde kennis gebruikt nadat ik een query had gesloten met deze opdracht. In plaats daarvan gebruikt GPT meteen Retrieval Augmented Generation (RAG), waarbij het internet wordt doorzocht naar verhelderende of bevestigende documenten.
In de praktijk is dit voor de meeste verzoeken weinig anders dan het systeem vertellen om ‘het web te doorzoeken’ elke keer dat u een query indient. Waar de zin ‘geen heuristieken’ echt kan helpen, is wanneer u ChatGPT probeert te laten lezen van een nieuw geüpload PDF in plaats van de metadata van eerder geüploade PDF’s in die sessie (of veel andere mogelijke bronnen) te gebruiken om een ‘plausibele’ maar geheel gehallucineerde reactie te produceren, zonder het document dat u zojuist hebt gepresenteerd te hebben gelezen of zelfs maar te hebben doorgebladerd.

Dat gezegd hebbende, hoe langer de chatsessie heeft geduurd, hoe minder waarschijnlijk het is dat dit zal werken – en het zou een fout zijn om te denken dat een dergelijke ‘truc’ betrouwbaar is of beschikbaar zal blijven naarmate het systeem evolueert.
De RAG-handel
In de context van een groeiende cultuur van shrinkflation, en het feit dat grote systemen zoals OpenAI’s GPT-infrastructuur enorm worden beïnvloed door zelfs de kleinste wijdverbreide veranderingen in gedrag, is het ook gemakkelijk om te geloven dat u te weinig waar voor uw geld krijgt van de keuzes die worden gemaakt door populaire LLM’s zoals ChatGPT.
Keuzes zoals of het zal uitreiken naar het web met RAG; een Chain-of-Thought (CoT)-proces starten dat een beter resultaat kan opleveren, maar dat meer kost om af te leiden en de ongeduldige gebruiker kan vermoeien; of terugvallen op zijn eigen getrainde embeddings en lokaal beschikbare kennis – wat de goedkoopste en snelste oplossing is.
Er zijn verschillende praktische redenen waarom een LLM met een gevoelige publieke reputatie, zoals ChatGPT, zijn RAG-aanroepen kan beperken en in plaats daarvan de voorkeur kan geven aan zijn eigen heuristieken. Ten eerste, vanuit een PR-perspectief, ondersteunt het frequente ongevraagde gebruik van het web een populaire karakterisering van LLM’s als slechts Googlers-by-proxy, waardoor de waarde van hun aangeboren en duur getrainde kennis wordt vermindert – en de aantrekkelijkheid van een betaalde abonnement.
Ten tweede kost RAG-infrastructuur geld om te draaien, te onderhouden en te updaten, in vergelijking met de relatief triviale kosten van lokale inferentie, d.w.z. parametrige generatie, die goedkoop en snel is.
Ten derde kan het systeem geen effectieve methode hebben om te bepalen of RAG zijn eigen heuristische resultaten kan verbeteren – en het kan dit vaak niet bepalen zonder eerst heuristieken te gebruiken. Dit laat de eindgebruiker met de taak om een fout heuristisch resultaat te evalueren en een RAG-aanroep te verzoeken als het resultaat van de heuristieken onvoldoende leek.
Vanuit het oogpunt van ‘AI-shrinkflation’ kan het aantal keren dat ChatGPT door heuristieken fout gaat en door RAG slaagt, aangeven, zoals het onlangs bij mij deed, dat het systeem optimeert voor kosten in plaats van resultaten.
RAG wordt noodzakelijker na verloop van tijd
Ondanks ChatGPT’s recente ‘bekentenis’ tegen mij dat dit inderdaad het geval is, heeft ‘shrinkflation’ een bredere context in dit opzicht. Hoewel RAG niet goedkoop is, noch in termen van wrijvingsverlies (via latentie) noch in termen van bedrijfskosten, is het veel goedkoper dan het regelmatig fijnafstemmen of zelfs het basismodel opnieuw trainen.
Voor een ouder AI-model met een verder verwijderde afsluitdatum kan RAG het systeem zijn actualiteit behouden, tegen de kosten van netwerkoproepen en andere bronnen; voor een nieuw model zijn RAG’s eigen ophalingen waarschijnlijk redundant of zelfs schadelijk voor de kwaliteit van de resultaten, die in sommige gevallen beter zouden zijn geweest via heuristieken.
Derhalve lijkt de AI de capaciteit nodig te hebben om niet alleen te beslissen of het RAG moet gebruiken, maar om continu zijn beleid over het gebruik van RAG te evolueren naarmate zijn interne gewichten meer en meer verouderen.
Tegelijkertijd moet het systeem ‘relatieve constanten’ in kennis omzomen, zoals maanbanen en klassieke literatuur, cultuur en geschiedenis; evenals basisgeografie, fysica en andere wetenschappelijke grondbeginselen die niet veel zullen veranderen in de loop van de tijd (d.w.z. het risico van ‘plotselinge verandering’ is niet nihil, maar laag).
Uitbijteronderwerpen
Op dit moment, tenminste voor zover ChatGPT betreft, lijken RAG-aanroepen (d.w.z. het gebruik van webonderzoek voor elke gebruikersquery die niet expliciet of impliciet webonderzoek vereist) zelden autonomously door het systeem te worden gekozen, zelfs wanneer het gaat om ‘marginale’ subdomeinen.
Een voorbeeld van een marginaal domein is ‘obscure’ softwaregebruik. In een dergelijk geval heeft minimale beschikbare brondata waarschijnlijk gestreden voor aandacht tijdens de training, en kan de ‘uitbijterstatus’ van de data deze hebben gemarkeerd voor aandacht of deze hebben begraven als ‘marginaal’ of ‘onbelangrijk’ – en zelfs één extra forumbericht dat na de kennisafsnijdatum van de AI is gemaakt, kan een aanzienlijke toename van de totale beschikbare gegevens en de kwaliteit van de reactie voor een ‘klein’ onderwerp vertegenwoordigen, waardoor een RAG-aanroep de moeite waard is.
Echter, het voordeel van RAG neigt af te nemen naarmate de basis van het model krachtiger wordt. Terwijl kleinere modellen aanzienlijk profiteren van ophaling, laten grotere systemen zoals Qwen3-4B of GPT-4o-mini/-4o vaak marginale of zelfs negatieve verbetering van RAG* zien.
Op veel benchmarks introduceert ophaling meer afleiding dan voordeel, wat een compromis suggereert tussen het investeren in een groter model met meer interne dekking of een kleiner model in combinatie met ophaling.
Derhalve lijkt RAG het meest nuttig te zijn voor het compenseren van gaten in middelgrote modellen, die nog steeds externe feiten nodig hebben, maar deze kunnen beoordelen met minder complexe interne heuristieken.
Alleen gebruiken in geval van nood
ChatGPT’s richtlijnen rond het besluit om RAG te gebruiken zijn niet expliciet blootgelegd door zijn vermeende systeemprompt**, maar worden impliciet behandeld (aan het einde):
‘Gebruik het webhulpmiddel om toegang te krijgen tot actuele informatie van het web of wanneer het antwoorden op de gebruiker vereist informatie over zijn locatie. Enkele voorbeelden van wanneer u het webhulpmiddel moet gebruiken, zijn:
Lokale informatie: Gebruik het webhulpmiddel om te antwoorden op vragen die informatie over de locatie van de gebruiker vereisen, zoals het weer, lokale bedrijven of evenementen.
Versheid: Als actuele informatie over een onderwerp mogelijk kan veranderen of het antwoord kan verbeteren, roep het webhulpmiddel op elk moment op wanneer u anders zou weigeren om een vraag te beantwoorden omdat uw kennis mogelijk verouderd is.
Niche-informatie: Als het antwoord kan profiteren van gedetailleerde informatie die niet algemeen bekend of begrepen is (die mogelijk op internet te vinden is), zoals details over een kleine buurt, een minder bekend bedrijf of obscure regelgeving, gebruikt u webbronnen rechtstreeks in plaats van te vertrouwen op de gedistilleerde kennis uit de voortraining.
Nauwkeurigheid: Als de kosten van een kleine fout of verouderde informatie hoog zijn (bijv. het gebruik van een verouderde versie van een softwarebibliotheek of niet weten van de datum van de volgende wedstrijd voor een sportteam), gebruikt u dan het webhulpmiddel.’
In het bijzonder kunnen we opmerken dat deze richtlijnen RAG aanbevelen in gevallen waarin inheemse getrainde gegevens schaars zijn. Maar hoe komt het systeem tot dit inzicht? De informele gebruiker en waarnemer van ChatGPT kan concluderen dat wanneer het ‘web zoeken’-widget verschijnt na een pauze, de interne heuristieken van het model zijn gepolld voor de query en kwamen leeg.
We kunnen ook opmerken dat de implicatie is dat RAG alleen wordt aanbevolen voor een zeer beperkt aantal gebruikscases. Dit laat GPT aanbevelen om zijn eigen gewichten te pollen, in alle gevallen behalve een ‘kritieke’ contingente ( ‘Nauwkeurigheid’, onderaan de bovenstaande citaat), voor het grote aantal feiten gebaseerde domeinvragen waar de neiging van de AI om te hallucineren een opvallende aansprakelijkheid kan zijn.
Conclusie
De trends van het huidige en recente onderzoek geven aan dat heuristische generatie snel en goedkoop is, maar te vaak fout; terwijl RAG langzamer, duurder is, maar vaker correct – des te meer naarmate de grootte van het model afneemt.
Op basis van mijn eigen gebruik van ChatGPT zou ik betogen dat OpenAI RAG veel te zelden gebruikt, als een precisie-instrument in plaats van een dagelijkse bestuurder, vooral omdat de problemen met het groeiende contextvenster LLM’s nog meer geneigd maken om te hallucineren naarmate langere conversaties ontwikkelen.
Deze omstandigheid kan aanzienlijk worden verlicht door heuristische antwoorden te controleren tegen webgebaseerde autoriteitsbronnen, zonder te wachten tot de eindgebruiker de output in twijfel trekt of wordt gestruikeld door deze, en zonder dat interne resultaten zo manifest onbevredigend hoeven te zijn dat de beslissing om RAG te gebruiken onvermijdelijk is.
In plaats daarvan kan het systeem worden getraind om selectief en intelligent aan zichzelf te twijfelen volgens gevallen, en dus om deel te nemen aan het web via een screeningsproces dat op zichzelf heuristisch zou zijn. Ik ben me niet bewust dat de architectuur van de huidige modellen ruimte laat voor een benadering van dit type, die in plaats daarvan zou moeten worden toegevoegd aan de wrijving van API-filters.
Zoals het er nu uitziet, kan ik het probleem niet eens bewijzen; niet eens met een bekentenis†:

* Verwijzen naar de link bovenaan deze alinea.
** Dit is een ‘zelf blootgelegde’ GPT-5 systeemprompt die, opnieuw, mogelijk slechts een digest van promptforumposts is die zijn opnieuw getraind voor GPT-5, hoewel sommigen beweren dat de prompt echt is.
† Ik stel echt niet voor dat ChatGPT’s ‘schuldige openhartigheid’ hier betekenisvol is; mijn neiging om terug te duwen tegen zijn partijlijn in kwesties van OpenAI-beleid betekent dat het uiteindelijk met me zal instemmen en mijn eigen impliciete meningen zal napraten. Dit is verre van equivalent aan het blootleggen van de details van de Normandische landing onder druk.
Eerst gepubliceerd op woensdag 10 december 2025










