Andersons hoek
Een ‘Zen’-methode om taalmodellen te stoppen met hallucineren

Door ChatGPT te vragen om een willekeurig antwoord te controleren voordat het een echt probleem oplost, wordt het model gedwongen om harder na te denken en komt het vaker met het juiste antwoord, zelfs als het eerdere ‘willekeurige’ antwoord niets te maken heeft met uw echte vraag.
Een interessant nieuw onderzoek uit China heeft een zeer goedkope methode ontwikkeld om taalmodellen zoals ChatGPT te stoppen met hallucineren en om de kwaliteit van antwoorden te verbeteren: het model moet eerst een totally unrelated vraag controleren:

Een voorbeeld van een ongerelateerde vraag die de ‘geest’ van een LLM kan ‘bevrijden’ en helpen om zich te concentreren op een (echte) latere vraag.Bron
Dit Zen-slap is een ongelooflijk goedkope manier om de prestaties te verbeteren, in vergelijking met andere meer ingewikkelde methoden, zoals fine-tuning, prompt-crafting en parallel sampling, en het werkt op zowel open als gesloten bronmodellen, wat aangeeft dat het een fundamentele karaktertrek is die algemeen is voor meerdere LLM-architecturen (in plaats van een kwetsbaar trekje dat specifiek is voor bepaalde trainingsmaterialen of methoden).
De auteurs schetsen de schaalvoordelen die mogelijk zijn door de output op deze sobere manier te verbeteren*:
‘Om te implementeren met minimale extra kennis, hoeft VF alleen een willekeurig/triviaal antwoord in de prompt te geven. Het verificatieproces blijkt veel minder uitvoertokens te hebben dan een gewone CoT-pad, [soms] zelfs geen expliciet verificatieproces, dus [vereist] zeer [weinig] extra test-tijdrekenen.’
In tests was deze aanpak – genaamd Verification-First (VF) – in staat om antwoorden te verbeteren in een verscheidenheid aan taken, waaronder wiskundige redenering, op zowel open als commerciële platforms.
Een deel van de reden waarom deze techniek werkt, kan liggen in de manier waarop taalmodellen trends in de menselijke psychologie opnemen en toepassen, zodat een directe vraag het model ‘defensief’ en ‘zenuwachtig’ kan maken, terwijl een verzoek om het werk van een ander te controleren deze ‘overlevingsinstincten’ niet activeert.
Het centrale idee is dat het controleren van een antwoord minder moeite kost dan het genereren van een antwoord van scratch, en kan een andere redeneringspad triggeren dat de standaard chain-of-thought aanvult.
Door het model te vragen om een gegeven antwoord te beoordelen (d.w.z. een antwoord dat het model niet heeft geholpen te creëren), kan ook een soort kritisch denken worden geactiveerd dat helpt om overmoed in het model te voorkomen.
Het werk karakteriseert het proces in termen van een reverse-reasoning path:

Vanuit een voorgesteld antwoord en redeneren naar achteren naar de vraag kan shortcuts of inzichten onthullen die moeilijker te vinden zijn wanneer men redeneert vanuit het probleem alleen. Deze ‘omgekeerde pad’ kan een eenvoudigere traject volgen en aanvullende informatie bieden voor de standaard chain-of-thought redenering.
De onderzoekers hebben het centrale concept ook geconcretiseerd in Iter-VF, een sequentiële tijd-test schaalmethode die antwoorden iteratief verfijnt, zonder de foutaccumulatieproblemen die vaak voorkomen in LLM-architecturen.
Het nieuwe onderzoek heet Asking LLMs to Verify First is Almost Free Lunch en komt van twee onderzoekers van de afdeling Elektronica aan de Tsinghua University in Beijing.
Methode
Het centrale idee achter het nieuwe onderzoek is om de gebruikelijke redeneringsstroom in taalmodellen om te keren. In plaats van het model te vragen om een probleem van scratch op te lossen, wordt het eerst een kandidaatantwoord (vaak onjuist of willekeurig) gegeven en wordt het gevraagd om te controleren of dat antwoord zin heeft.
Dit zet het model ertoe aan omgekeerd te redeneren, van het voorgestelde antwoord naar de vraag. Zodra de verificatie is voltooid, gaat het model verder met het oplossen van het oorspronkelijke probleem zoals gewoonlijk.
Deze omkering, zo beweert het artikel, vermindert zorgeloze fouten en moedigt een meer reflectieve manier van redeneren aan, waardoor het LLM verborgen structuren kan ontdekken en misleidende aannamen kan vermijden.
Zoals te zien is in de onderstaande voorbeelden, kan zelfs het model vragen om een overduidelijk verkeerde gok, zoals ’10’ , helpen om van een gebrekkige logica te herstellen en beter te presteren dan de standaard chain-of-thought prompting:

Door het model te vragen om een gegokt antwoord eerst te controleren, kan het inconsistenties opmerken en meer zorgvuldig met het probleem omgaan. In dit voorbeeld leidt de standaardaanpak tot een vloeiend maar onjuist antwoord, terwijl de Verification-First-prompt een duidelijker logische structuur en het juiste resultaat activeert.
Met betrekking tot veel echte problemen is het niet gemakkelijk om een gok voor het model te geven, vooral wanneer de taak open-ended is, zoals het schrijven van code of het aanroepen van een API. Daarom past de methode zich aan door eerst het beste antwoord te geven zoals gewoonlijk en vervolgens dat antwoord terug te voeren in het Verification-First-formaat. Op deze manier controleert het model en verbetert het zijn eigen output:

Wanneer het model wordt gevraagd om zijn eerder antwoord te controleren, vangt het de fout in zijn logica en herschrijft het de oplossing correct. De Verification-First-prompt helpt het om zich te concentreren op de specifieke fout in plaats van dezelfde fout te herhalen.
Deze aanpak vormt de eerdergenoemde Iter-VF. Het model herhaalt deze cyclus, waarbij het zijn antwoord elk keer verfijnt, zonder dat het opnieuw hoeft te trainen of speciale gereedschappen nodig heeft. In tegenstelling tot andere zelfcorrigerende strategieën, die eerder denken kunnen ophopen en het model kunnen verwarren, kijkt Iter-VF alleen naar het meest recente antwoord elke keer, wat helpt om zijn redenering helder te houden.
Gegevens en tests
De auteurs evalueren de methode in vier domeinen: algemene redeneertaken, waar VF wordt gezaaid met een triviale gok; tijdgevoelige taken, waar Iter-VF wordt vergeleken met rivaliserende schaalmethoden; open-eindige problemen zoals codering en API-aanroepen, waar VF het models eigen eerder antwoord gebruikt; en gesloten bron commerciële LLM’s, waar interne redeneerstappen ontoegankelijk zijn.
Om de methode te testen, gebruikten de onderzoekers drie redeneerbarekenmerken: GSM8K en MATH500 voor wiskundeproblemen; en GPQA-Diamond voor graduate-niveau wetenschappelijke vragen.
In elk geval werd het model een triviale gok gegeven, zoals ‘1’ voor numerieke antwoorden; of een willekeurig geschudde multiple-choice-optie, als startpunt voor verificatie. Er werd geen speciale afstemming of voorafgaande kennis toegevoegd, en de basis voor vergelijking was standaard zero-shot chain-of-thought prompting.
De tests werden uitgevoerd op een volledig bereik van Qwen2.5 en Llama3 instructie-georiënteerde modellen, van 1B tot 72B (parameters) in grootte. De Qwen-modellen die werden gebruikt, waren Qwen2.5-1.5B-Instruct, Qwen2.5-3B-Instruct, Qwen2.5-14B-Instruct, en Qwen2.5-72B-Instruct. De Llama3-varianten waren Llama3.2-1B-Instruct, Llama3.2-3B-Instruct, Llama3.1-8B-Instruct, en Llama3.3-70B-Instruct.
Zoals te zien is, hield de verbetering van Verification-First prompting stand bij alle modellen, met duidelijke winsten zichtbaar bij 1B parameters en doorlopend tot 72B:

Bij alle modellen in de Qwen2.5- en Llama3-families presteerde Verification-First prompting consistent beter dan standaard chain-of-thought prompting op GSM8K, MATH500 en GPQA.
Het effect was het sterkst bij computationele wiskundebenchmarks zoals GSM8K en MATH500, waarbij het controleren van een verkeerd antwoord beter redeneerde dan het proberen om van scratch op te lossen. Op GPQA-Diamond, dat meer afhankelijk is van opgeslagen kennis dan van deductieve structuur, was het voordeel kleiner maar consistent.
De computationele kosten van Verification-First waren bescheiden: in de onderstaande tabel kunnen we zien dat het genereren van een verificatiestap ongeveer 20-50% meer uitvoertokens toevoegde in vergelijking met standaard chain-of-thought prompting:

Het gemiddelde aantal uitvoertokens gegenereerd onder elke promptmethode, over GSM8K-, MATH500- en GPQA-benchmarks.
Hoewel dit zo is, bleef de extra kosten ver onder die van strategieën die meerdere gesamplede voltooingen of recursief plannen vereisen.
In de onderstaande grafiek kunnen we zien hoe gevoelig de methode is voor de kwaliteit van het gegokte antwoord. Verwonderlijk genoeg presteerde Verification-First nog steeds beter dan standaard prompting, zelfs wanneer de gok triviaal (‘1’), onwaarschijnlijk (‘2025’) of een willekeurige multiple-choice-optie was:

Nauwkeurigheidsverbeteringen van Verification-First prompting, wanneer het model een triviaal, onwaarschijnlijk of correct antwoord krijgt om te controleren over GSM8K, MATH500 en GPQA.
Zoals verwacht, sprong de nauwkeurigheid nog hoger wanneer de gok toevallig het juiste antwoord was; maar de methode werkte goed ongeacht, wat suggereert dat de winst niet werd gedreven door de informatie in het gegokte antwoord zelf, maar door de daad van verificatie.
Iter-VF werd ook vergeleken met vier test-tijd schaalmethoden die zonder opnieuw trainen of taak-specifieke aanpassing werken. In Self-Correction werd het model gevraagd om zijn antwoorden te herzien door te reflecteren op eerder redeneren; in PHP werden eerder antwoorden toegevoegd aan de invoer als contextuele hints, hoewel er geen instructies werden gegeven over hoe ze te gebruiken.
Bovendien werd in Self-Consistency meerdere redeneerpaden gesampled en werd het eindantwoord gekozen door middel van een meerderheidsstem; en ten slotte, in Best-of-N, werden meerdere uitvoeren onafhankelijk gegenereerd en gerangschikt met behulp van een verificatieprompt, waarbij het antwoord met de hoogste score werd geselecteerd.
Twee varianten van Iter-VF werden geïmplementeerd: een met een triviale gok (‘1’) en een met een standaard CoT-uitvoer:

Nauwkeurigheid en token-efficiëntie op MATH500 onder toenemende uitvoerbudgetten, waaruit blijkt dat beide varianten van Iter-VF alle basismodellen overtreffen bij alle modellen.
Iter-VF gaf betere resultaten dan alle andere methoden wanneer de beschikbare rekenkracht laag was, wat de auteurs toeschreven aan de manier waarop het antwoorden controleert, niet aan de kwaliteit van de initiële antwoorden (aangezien zowel VF als CoT-varianten snel dezelfde nauwkeurigheid bereikten).
PHP presteerde slechter, hoewel het eerder antwoorden opnieuw gebruikte als hints, waarschijnlijk omdat LLM’s deze hints niet goed benutten.
In tegenstelling tot PHP en Self-Correction, die context ophopen over iteraties, kijkt Iter-VF alleen naar het meest recente antwoord elke keer, wat helpt om zijn redenering helder te houden.
Parallelle methoden zoals Self-Consistency en Best-of-N vermijden dit probleem, hoewel hun verbeteringen trager en bescheidener waren.
(n.b. Het resultaatgedeelte, hoewel grondig, is een onvriendelijke en omslachtige leeservaring, en we moeten op dit punt de meeste resterende dekking inkorten, waarbij we de lezer verwijzen naar het bronartikel voor meer details).
Wanneer getest op GPT-5 Nano en GPT-5 Mini, gesloten commerciële modellen die de volledige redeneringstrace verbergen en alleen het eindantwoord retourneren, verbeterde Iter-VF de prestaties zonder te vertrouwen op tussenliggende uitvoeren. In de onderstaande tabel kunnen we winsten zien over zowel MATH500 als GPQA, wat bevestigt dat de verificatie-voor-generatie-aanpak nog steeds haalbaar is, zelfs wanneer alleen de invoer en het eindantwoord toegankelijk zijn:

Nauwkeurigheid op MATH500 en GPQA wanneer Iter-VF wordt toegepast op GPT-5-modellen met verborgen redeneringstraces.
Conclusie
Hoewel het nieuwe artikel vanaf het resultaatgedeelte in ondoorzichtigheid omslaat, is de kennelijke ontdekking van een overheersende trek in een klasse van AI-modellen niettemin een fascinerende ontwikkeling. Iedereen die regelmatig een LLM gebruikt, heeft instinctief een reeks trucs ontwikkeld om de modellen te omzeilen, aangezien elk van hen na verloop van tijd overduidelijk wordt, en het patroon naar voren komt; en iedereen hoopt een ‘truc’ te vinden die zo toepasbaar en algemeen is als deze.
Een van de grootste problemen bij het implementeren en updaten van een contextwindow in een LLM lijkt te zijn om een balans te vinden tussen het behoud van sessievoortgang en de capaciteit om uit te breiden in nieuwe richtingen wanneer nodig, zonder in valse hallucinaties of off-topic-uitvoer te vervallen. In het geval dat in het nieuwe artikel wordt gepresenteerd, zien we een voorbeeld van een zachte maar aanhoudende ‘wake-up call’ die het LLM lijkt te heroriënteren en te resetten zonder contextverlies. Het zal interessant zijn om te zien of latere projecten deze methode aanpassen en evolueren.
De onderzoekers maken veel van de schier ongelofelijke economie van hun nieuwe methode – een overweging die twaalf maanden geleden veel minder gewicht zou hebben gehad. Deze dagen maken de implicaties van hyperschaal-AI duidelijk dat besparingen op resources die eerder als pedant werden beschouwd in de ‘zuivere onderzoeksperiode’, nu kaardinaal en essentieel worden.
* Let op dat ik beperkt ben tot het opnemen van het gebruikelijke aantal citaten uit het artikel, aangezien de standaard van het Engels in sommige delen ervan de lezer kan verwarren. Daarom heb ik de vrijheid genomen om de sleutelinzichten samen te vatten, en ik verwijs de lezer naar het bronartikel voor verificatie.
Publicatie op donderdag 4 december 2025












