Andersons vinkel
En ‘Zen’-metode til at forhindre sprogmodeller i at hallucinere

At bede ChatGPT om at faktatjekke et tilfældigt svar, før det løser et virkeligt problem, får det til at tænke hårdere og få svaret rigtigt mere ofte – selv hvis det tidligere ’tilfældige’ svar ikke har noget at gøre med din virkelige forespørgsel.
En interessant ny artikel fra Kina har udviklet en meget lavkostmetode til at forhindre sprogmodeller som ChatGPT i at hallucinere, og til at forbedre kvaliteten af svarene: Få modellen til at faktatjekke svaret på et fuldstændig urelateret spørgsmål først:

Et eksempel på et urelateret spørgsmål, der kan ‘frigøre’ en LLMs sind og hjælpe den til at fokusere på et (virkeligt) efterfølgende spørgsmål. Kilde
Dette Zen-slap er en utrolig billig måde at forbedre performance på, sammenlignet med andre mere involverede metoder, såsom fine-tuning, prompt-crafting og parallel sampling, og det virker på både åbne og lukkede kilde-modeller, hvilket indikerer, at der er opdaget en fundamental karakteregenskab, der er fælles for multiple LLM-arkitekturer (i stedet for en skrøbelig ejendommelighed, der er specifik for bestemte træningsmaterialer eller metoder).
Forfatterne beskriver de økonomiske skalafordele, der er mulige ved at forbedre output på denne spartanske måde*:
‘For at implementere med minimal ekstra forudgående viden, behøver VF kun at give et tilfældigt eller trivialt svar i prompten. Verifikationsprocessen viser sig at have langt færre output-tokens end en almindelig CoT-prompt, [nogle gange] endda ingen eksplisit verifikationsproces, og derfor [kræver] meget [lille] ekstra test-tid-komputation.’
I tests var denne metode – kaldet Verification-First (VF) – i stand til at forbedre svarene i en diversitet af opgaver, herunder matematisk resonnering, på både åbne og kommercielle platforme.
En del af årsagen til, at denne teknik virker, kan være grundet i den måde, hvorpå sprogmodeller suger op og tilegner sig tendenser i menneskers psykologi, så en direkte spørgsmål kan få modellen til at være ‘forsvarlig’ og ‘nervøs’, hvorimod en anmodning om at verificere et andet svar ikke engager disse ‘overlevelsesinstinkter’.
Kerneargumentet er, at verifikation af et svar kræver mindre indsats end at generere et fra scratch, og kan udløse en anden resonansvej, der supplerer standard chain-of-thought.
At bede modellen om at kritiserer et givet svar (dvs. et svar, som modellen ikke har været involveret i at skabe) kan også aktivere en form for kritisk tænkning, der hjælper med at undgå overtiltro til modellens egne første indtryk.
Arbejdet karakteriserer processen i forhold til en reverse-reasoning path:

Startende fra et foreslået svar og resonnerende baglæns mod spørgsmålet kan afsløre genveje eller indsigt, der er sværere at finde, når man resonnerer fremad fra problemet alene. Denne ‘omvendte vej’ kan følge en enklere bane og tilbyde supplerende information til standard chain-of-thought-resonnering.
Forskerne har også konkreteret den centrale idé til Iter-VF, en sekventiel tid-test-skaleringsmetode, der iterativt forbedrer svarene og undgår fejlakkumulationsproblemet, der er almindeligt i selvkorrektionsstrategier i LLM-arkitekturer.
Den nye artikel har titlen At bede LLM’er om at verificere først er næsten en gratis lunch og kommer fra to forskere ved Elektronisk Ingeniør-afdelingen på Tsinghua Universitet i Beijing.
Metode
Den centrale idé bag den nye artikel er at omdrejne den sædvanlige resonansflow i sprogmodeller. I stedet for at bede modellen om at løse et problem fra scratch, gives den først et kandidat-svar (ofte forkert eller arbitrært) og bedes om at kontrollere, om dette svar giver mening.
Dette får modellen til at resonere i omvendt, arbejdende baglæns fra det foreslåede svar mod spørgsmålet. Når verifikationen er fuldført, går modellen derefter videre med at løse det oprindelige problem som sædvanligt.
Dette omdrejningspunkt, som artiklen fastslår, reducerer uforsvarlige fejl og opmuntrer til en mere reflekterende måde at resonere på, hvilket hjælper LLM’en med at afsløre skjulte strukturer og undgå misvisende antagelser.
Som vist i eksemplerne nedenfor kan selv at bede modellen om at verificere et åbenbart forkert gæt som ’10’ hjælpe den med at genoprette fejl og overgå standard chain-of-thought-prompting:

At bede modellen om at verificere et gæt først hjælper den med at spotte inkonsistenser og engagere sig mere omhyggeligt med problemet. I dette eksempel fører den standardmæssige tilgang til en flydende, men forkert løsning, mens Verification-First-prompten udløser en klarere logisk struktur og det korrekte resultat.
I forhold til mange virkelige problemer er det ikke let at give et gæt, som modellen kan kontrollere, især når opgaven er åben, såsom skrivning af kode eller kald til en API. Derfor tilpasser metoden sig bedre, ved først at give sit bedste svar som sædvanligt og derefter at føde dette svar tilbage i Verification-First-formatet. På denne måde kontrollerer modellen og forbedrer sit eget output:

Når modellen bedes om at verificere sit eget tidligere output, fanger den fejlen i sin logik og skriver løsningen korrekt. Verification-First-prompten hjælper den med at fokusere på den specifikke fejl og ikke gentage den samme fejl.
Denne tilgang udgør den ovennævnte Iter-VF. Modellen gentager denne cyklus, forbedrer sit svar hver gang, uden behov for genoptræning eller specialudstyr. I modsætning til andre selvkorrektionsstrategier, der kan akkumulere kontekst over iterationer, betragter Iter-VF kun det seneste svar på hver gang, hvilket hjælper med at holde dens resonans klar.
Data og tests
Forfatterne evaluerer metoden i fire domæner: generelle resonansopgaver, hvor VF seedes med et trivialt gæt; tidskritiske opgaver, hvor Iter-VF sammenlignes med rivaliserende skaleringsmetoder; åbne problemer såsom kodning og API-kald, hvor VF bruger modellens eget tidligere svar; og lukkede kommercielle LLM’er, hvor interne resonansskridt er utilgængelige.
Til at teste metoden brugte forskerne tre resonans-benchmarks: GSM8K og MATH500 til matematisk resonnering; og GPQA-Diamond til videnskabs-spørgsmål på doktor-niveau.
På hver af disse benchmarks blev modellen givet enten et trivialt gæt, såsom ‘1’ for numeriske svar; eller et tilfældigt-shufflet multiple-choice-tilbud, som startpunkt for verifikation. Der blev ikke tilføjet nogen særlig tilpasning eller forudgående viden, og grundlinjen for sammenligning var standard zero-shot chain-of-thought-prompting.
Testene blev udført på en fuld række af Qwen2.5 og Llama3 instruktions-tilpassede modeller, fra 1B til 72B (parametre) i størrelse. Qwen-modellerne, der blev brugt, var Qwen2.5-1.5B-Instruct, Qwen2.5-3B-Instruct, Qwen2.5-14B-Instruct og Qwen2.5-72B-Instruct. Llama3-varianten var Llama3.2-1B-Instruct, Llama3.2-3B-Instruct, Llama3.1-8B-Instruct og Llama3.3-70B-Instruct.
Som vist nedenfor, holdt forbedringen fra Verification-First-prompting fast på tværs af modellernes størrelse, med klare gevinster synlige selv på 1B parametre og fortsættende op til 72B:

På tværs af alle modellernes størrelse i Qwen2.5- og Llama3-familierne, overgik Verification-First-prompting konsekvent standard chain-of-thought-prompting på GSM8K, MATH500 og GPQA-Diamond.
Effekten var stærkest på beregnings-intensivt matematisk benchmark, såsom GSM8K og MATH500, hvor verifikation af et forkert svar udløste bedre resonans end at forsøge at løse fra scratch. På GPQA-Diamond, som afhænger mere af lagret viden end deduktiv struktur, var fordelene mindre, men konsekvente.
Den komputationelle omkostning af Verification-First var beskeden: I tabellen nedenfor kan vi se, at generering af en verifikations-trin tilføjede omkring 20-50% flere output-tokens i forhold til standard chain-of-thought-prompting:

Gennemsnittet af output-tokens genereret under hver prompt-metode på tværs af GSM8K-, MATH500- og GPQA-benchmarks.
Trods dette, forblev den ekstra omkostning langt under den, der kræves af strategier, der kræver multiple sampled-completions eller rekursiv planlægning.
I grafen nedenfor kan vi se, hvor følsom metoden er over for kvaliteten af det gættede svar. Overraskende nok, selv når gættet er trivialt (‘1’), urimeligt (‘2025’) eller et tilfældigt multiple-choice-tilbud, overgår Verification-First-prompting standard-prompting:

Nøjagtighedsforbedringer fra Verification-First-prompting, når modellen gives et trivialt, urimeligt eller korrekt svar at verificere på tværs af GSM8K, MATH500 og GPQA.
Som forventet, stiger nøjagtigheden yderligere, når gættet er det korrekte svar; men metoden virkede godt uanset, hvilket tyder på, at forbedringerne ikke blev drevet af informationen i det gættede svar selv, men simpelthen af handling af verifikation.
Iter-VF blev også sammenlignet med fire test-tid-skaleringsstrategier, der opererer uden genoptræning eller opgave-specifik tilpasning. I Selvkorrektion blev modellen bedt om at revidere sine svar ved at reflektere over tidligere resonansskridt; i PHP blev tidligere svar føjet til input som kontekstuelle hints, selv om der ikke blev givet nogen instruktioner om, hvordan de skulle bruges.
Desuden blev i Selvkonsekvens multiple resonansveje sampled og det endelige svar valgt ved flertalsafstemning; og endelig i Bedst-af-N blev flere outputs genereret uafhængigt og vurderet ved hjælp af en verifikationsprompt, hvor det højest vurderede svar blev valgt.
To varianter af Iter-VF blev implementeret: en, der blev initialiseret med et trivialt gæt (‘1’); og en anden, der blev seedet med et standard CoT-output:

Nøjagtighed og token-effektivitet på MATH500 under øgende output-budgetter, viser, at begge varianter af Iter-VF overgår alle baseline-metoder på tværs af modellernes størrelse.
Iter-VF gav bedre resultater end alle andre metoder, når den tilgængelige beregningskapacitet var lav, hvilket forfatterne tilskrev den måde, hvorpå den kontrollerer svarene, og ikke hvor godt de første svar var (da både VF- og CoT-varianten hurtigt nåede tilsvarende nøjagtighed).
PHP fungerede dårligere, selv om den genbrugte tidligere svar som hints, sandsynligvis fordi LLM’er ikke udnyttede disse hints godt.
I modsætning til PHP og Selvkorrektion, der akkumulerer kontekst over iterationer, betragter Iter-VF kun det seneste svar på hver gang. Dette Markovske tilgang undgår den akkumulerede forvirring af udvidede resonans-kæder – en svaghed, der er særligt skadelig for Selvkorrektion.
Parallele metoder som Selvkonsekvens og Bedst-af-N undgik dette problem, selv om deres forbedringer var langsommere og mere beskedne.
(Bemærk: Resultat-sektionen, selv om den er udførlig, er en uvenlig og prolix læsning, og vi må på dette punkt forkorte det meste af den resterende dækning og henviser læseren til kilde-artiklen for flere detaljer).
Da testet på GPT-5 Nano og GPT-5 Mini, lukkede kommercielle modeller, der skjuler den fulde resonans-spor og kun returnerer det endelige svar, forbedrede Iter-VF performances uden at afhænge af mellemliggende outputs. I tabellen nedenfor kan vi se forbedringer på både MATH500 og GPQA, hvilket bekræfter, at verify-then-generate-tilgangen forbliver brugbar, selv når kun input og det endelige svar er tilgængelige:

Nøjagtighed på MATH500 og GPQA, når Iter-VF anvendes på GPT-5-modeller med skjulte resonans-spor.
Konklusion
Selv om den nye artikel drejer ind i uigennemsigtighed fra resultatsktionen og frem, er opdagelsen af en overordnet egenskab i en klasse af AI-modeller alligevel en fascinerende udvikling. Enhver, der regelmæssigt bruger en LLM, har instinktivt udviklet en række tricks til at arbejde omkring modellens svagheder, da hver af dem bliver åbenbar med tiden, og mønsteret opstår; og alle håber at finde en ‘trick’ så anvendelig og generaliseret som denne.
En af de største problemer ved at implementere og opdatere en kontekst-vindue i en LLM synes at være at finde en balance mellem bevarelse af sessions-fremskridt og evnen til at udvikle sig i nye retninger, når det er nødvendigt, uden at falde i spurious hallucinationer eller afledt output. I det tilfælde, der præsenteres i den nye artikel, ser vi et eksempel på en mild, men insisterende ‘vækkel-signal’, der synes at genfokusere og nulstille LLM’en uden tab af kontekst. Det vil være interessant at se, om efterfølgende projekter tilpasser og udvikler metoden.
Forskerne fremhæver meget den store økonomi i deres nye metode – en overvejelse, der ville have haft langt mindre vægt blot 12 måneder tidligere. I disse dage gør implikationerne af hyperskala-AI det klart, at ressourcebesparelser, der tidligere blev betragtet som pedantiske i ‘ren forskning’-æraen, nu er blevet kardinalt og afgørende.
* Vær venlig at bemærk, at jeg er begrænset i at inkludere det sædvanlige antal citater fra artiklen, da standarden for engelsk i nogle dele af den kunne forvirre læseren. Derfor har jeg taget friheden til at sammenfatte nøgle-insights i stedet og henviser læseren til kilde-artiklen for verificering.
Offentliggjort torsdag, 4. december 2025












