Andersonův úhel

‘Zen’ Metoda pro Zastavení Hallucinací Jazykových Modelů

mm
AI-generated image: A robot sits in front of a laptop and a 'Eureka!' light-bulb lights up over its head. Z-Image, Qwen Edit (509), and Firefly V3

Rozkazovat ChatGPT, aby ověřil náhodnou odpověď před řešením skutečného problému, způsobí, že model bude více přemýšlet a častěji poskytne správnou odpověď – i když předchozí „náhodná“ odpověď nemá nic společného s vaším skutečným dotazem.

 

Zajímavá nová studie z Číny vyvinula velmi nízkorozpočtovou metodu, jak zabránit jazykovým modelům, jako je ChatGPT, hallucinacím, a zlepšit kvalitu odpovědí: nechat model ověřit odpověď na úplně nesouvisející otázku:

Příklad nesouvisející otázky, která může „osvobodit mysl“ LLM a pomoci mu soustředit se na (skutečný) následující dotaz. Zdroj: https://arxiv.org/pdf/2511.21734

Příklad nesouvisející otázky, která může „osvobodit mysl“ LLM a pomoci mu soustředit se na (skutečný) následující dotaz. Zdroj

Tato Zenová rána je neuvěřitelně levným způsobem, jak zlepšit výkon, ve srovnání s jinými více zapojenými metodami, jako je fine-tuning, prompt-crafting a parallel sampling, a funguje na otevřených i uzavřených zdrojových modelech, což naznačuje, že byla objevena základní charakteristika společná více LLM architekturám (místo křehké vlastnosti specifické pro konkrétní trénovací materiály nebo metody).

Autoři studie popisují ekonomické výhody této metody*:

‘Pro implementaci s minimálními dalšími znalostmi stačí VF poskytnout náhodnou/triviální odpověď v promptu. Verifikační proces má mnohem méně výstupních tokenů než běžná CoT cesta, [někdy] dokonce ani žádnou explicitní verifikační proces, a proto [vyžaduje] velmi [málo] dalších testovacích výpočtů.’

V testech tato metoda – nazvaná Verification-First (VF) – dokázala zlepšit odpovědi v různých úkolech, včetně matematického uvažování, napříč otevřenými i komerčními platformami.

Část důvodu, proč tato technika funguje, může být založena na způsobu, jakým jazykové modely absorbují a aplikují trendy v lidské psychologii, takže přímá otázka může způsobit, že model bude „defenzivní“ a „nervózní“, zatímco žádost o ověření práce někoho jiného neaktivuje tyto „přežití instinkty“.

Základní myšlenka spočívá v tom, že ověření odpovědi vyžaduje méně úsilí než generování odpovědi od začátku, a může spustit jiný rozumový proces, který doplňuje standardní řetězec myšlenek.

Promptování modelu, aby kritizoval danou odpověď (tj. odpověď, kterou model sám nevytvořil), může také aktivovat určitý druh kritického myšlení, který pomáhá vyhnout se přehnané důvěře ve vlastní první dojmy modelu.

Práce charakterizuje proces jako reverse-reasoning path:

Zahájení od navrhované odpovědi a zpětné uvažování směrem k otázce může odhalit zkratky nebo nápady, které jsou obtížněji nalezeny, když se uvažuje vpřed od problému samotného. Tato „zpětná cesta“ může následovat jednodušší trajektorii a nabízet doplňující informace k standardnímu řetězci myšlenek.

Zahájení od navrhované odpovědi a zpětné uvažování směrem k otázce může odhalit zkratky nebo nápady, které jsou obtížněji nalezeny, když se uvažuje vpřed od problému samotného. Tato „zpětná cesta“ může následovat jednodušší trajektorii a nabízet doplňující informace k standardnímu řetězci myšlenek.

Výzkumníci také konkrétně definovali centrální koncept jako Iter-VF, sekvenční časově-testovanou metodu, která iterativně rafinuje odpovědi, vyhýbající se problému akumulace chyb, který je společný pro samo-korekční strategie často nalezené v LLM architekturách.

Nová práce se jmenuje Žádání LLM, aby ověřily jako první, je téměř zdarma, a pochází od dvou výzkumníků z oddělení elektronického inženýrství na Tsinghua University v Pekingu.

Metoda

Centrální myšlenka za novou prací spočívá v otočení běžného toku uvažování v jazykových modelech. Místo toho, aby se model zeptal na problém od začátku, je mu nejprve předložena kandidátská odpověď (často nesprávná nebo libovolná) a je požádán, aby ověřil, zda tato odpověď má smysl.

Toto promptování modelu uvažovat pozpátku, pracovat zpětně od navrhované odpovědi směrem k otázce. Jakmile je ověření dokončeno, model poté pokračuje v řešení původního problému, jak je obvyklé.

Tato reverze, práce tvrdí, snižuje nedbalé chyby a podporuje více reflexivní způsob uvažování, pomáhající LLM objevit skrytou strukturu a vyhnout se matoucím předpokladům.

Jako je vidět v příkladech níže, dokonce i promptování modelu, aby ověřil zjevně špatnou odpověď, jako ’10’ , může pomoci mu zotavit se z chybné logiky a překonat standardní řetězec myšlenek:

Promptování modelu, aby ověřil odhadnutou odpověď, pomáhá mu najít nesrovnalosti a zapojit se více pečlivě do problému. V tomto příkladu standardní přístup vede k plynulé, ale nesprávné řešení, zatímco prompt Verification-First spouští jasnější logickou strukturu a správný výsledek.

Promptování modelu, aby ověřil odhadnutou odpověď, pomáhá mu najít nesrovnalosti a zapojit se více pečlivě do problému. V tomto příkladu standardní přístup vede k plynulé, ale nesprávné řešení, zatímco prompt Verification-First spouští jasnější logickou strukturu a správný výsledek.

V případě mnoha skutečných problémů není snadné poskytnout odhad pro model, aby jej ověřil, zvláště když je úkol otevřený, jako je psaní kódu nebo volání API. Proto, aby se metoda lépe přizpůsobila, je model nejprve požádán, aby poskytl svou nejlepší odpověď, a poté je tato odpověď vrácena do formátu Verification-First. Tímto způsobem model ověřuje a zlepšuje svou vlastní výstup:

Když je model požádán, aby ověřil svou vlastní předchozí odpověď, chytí chybu v své logice a přepíše řešení správně. Prompt Verification-First pomáhá mu soustředit se na konkrétní chybu, spíše než opakovat stejnou chybu.

Když je model požádán, aby ověřil svou vlastní předchozí odpověď, chytí chybu v své logice a přepíše řešení správně. Prompt Verification-First pomáhá mu soustředit se na konkrétní chybu, spíše než opakovat stejnou chybu.

Tato metoda se skládá z výše zmíněného Iter-VF. Model opakuje tento cyklus, rafinuje svou odpověď každým kolem, bez potřeby přeškolování nebo speciálního nástroje. Na rozdíl od jiných samo-korekčních strategií, které mohou nahromadit předchozí myšlení a riskovat zmatení modelu, Iter-VF se dívá pouze na nejnovější odpověď každým kolem, což pomáhá udržet jeho uvažování jasným.

Data a Testy

Autoři hodnotí metodu ve čtyřech doménách: obecné úkoly uvažování, kde VF je osazen triviální odhad; časo-vědomé úkoly, kde Iter-VF je porovnán se soupeřícími metodami škálování; otevřené problémy, jako je psaní kódu a volání API, kde VF používá modelovu vlastní předchozí odpověď; a uzavřené komerční LLM, kde vnitřní kroky uvažování jsou nepřístupné.

Pro testování metody výzkumníci použili tři testovací sady: GSM8K a MATH500 pro matematické problémy; a GPQA-Diamond pro otázky z oblasti vědy na úrovni absolventů.

V každém případě byl model dán buď triviální odhad, jako ‘1’ pro numerické odpovědi; nebo náhodně seřazená možnost multiple-choice, jako výchozí bod pro ověření. Žádné speciální ladění nebo předchozí znalosti nebyly přidány, a základna pro srovnání byla standardní zero-shot řetězec myšlenek.

Testy probíhaly napříč plným rozsahem Qwen2.5 a Llama3 instrukčně laděných modelů, od 1B do 72B (parametrů) velikosti. Qwen modely, které byly použity, byly Qwen2.5-1.5B-Instruct, Qwen2.5-3B-Instruct, Qwen2.5-14B-Instruct, a Qwen2.5-72B-Instruct. Llama3 varianty byly Llama3.2-1B-Instruct, Llama3.2-3B-Instruct, Llama3.1-8B-Instruct, a Llama3.3-70B-Instruct.

Jako je vidět níže, zlepšení z Verification-First promptování drželo stálé napříč modelovými velikostmi, s jasnými zisky viditelnými i na 1B parametrech a pokračujícími až na 72B:

Napříč všemi modelovými velikostmi v rodinách Qwen2.5 a Llama3, Verification-First promptování konzistentně překonalo standardní řetězec myšlenek na GSM8K, MATH500 a GPQA-Diamond.

Napříč všemi modelovými velikostmi v rodinách Qwen2.5 a Llama3, Verification-First promptování konzistentně překonalo standardní řetězec myšlenek na GSM8K, MATH500 a GPQA-Diamond.

Účinek se ukázal jako nejsilnější na výpočetně náročných matematických testech, jako GSM8K a MATH500, kde ověření špatné odpovědi vedlo k lepšímu uvažování než pokus o řešení od začátku. Na GPQA-Diamond, který závisí více na uložených znalostech než na deduktivní struktuře, byla výhoda menší, ale konzistentní.

Computační náklady Verification-First byly skromné: v tabulce níže můžeme vidět, že generování verifikačního kroku přidalo kolem 20-50% více výstupních tokenů ve srovnání se standardním řetězcem myšlenek:

Průměrný počet výstupních tokenů generovaných pod každou promptovací metodou, napříč GSM8K, MATH500 a GPQA testy.

Průměrný počet výstupních tokenů generovaných pod každou promptovací metodou, napříč GSM8K, MATH500 a GPQA testy.

Přes toto, dodatečné náklady zůstaly daleko pod tím, co vyžadují strategie, které potřebují více vzorkovaných dokončení nebo rekurzivní plánování.

Na grafu níže můžeme vidět, jak citlivá je metoda na kvalitu odhadnuté odpovědi. Překvapivě, i když je odhad triviální (‘1’), nepravděpodobný (‘2025’), nebo náhodná možnost multiple-choice, Verification-First stále překonává standardní promptování:

Zlepšení přesnosti z Verification-First promptování, když je model dán triviální, nepravděpodobnou nebo správnou odpovědí k ověření napříč GSM8K, MATH500 a GPQA.

Zlepšení přesnosti z Verification-First promptování, když je model dán triviální, nepravděpodobnou nebo správnou odpovědí k ověření napříč GSM8K, MATH500 a GPQA.

Jako očekáváno, přesnost skokově vzrostla, když byl odhad správnou odpovědí; ale metoda fungovala dobře bez ohledu na to, což naznačuje, že zlepšení nebyla způsobena informacemi v odhadnuté odpovědi samotné, ale prostě aktem ověření.

Iter-VF byl také porovnán s čtyřmi testovacími strategiemi škálování, které fungují bez přeškolování nebo úpravy úkolu. V Self-Correction, model byl promptován, aby revidoval své odpovědi, reflektujíc na předchozí kroky uvažování; v PHP, předchozí odpovědi byly připojeny k vstupu jako kontextové nápovědy, i když nebyly žádné instrukce, jak je použít.

Dále, v Self-Consistency, byly vzorkovány více rozumových cest a konečná odpověď byla vybrána většinovým hlasováním; a konečně, v Best-of-N, byly generovány několik výstupů nezávisle a hodnoceny pomocí verifikační nápovědy, s nejvyšší skóre vybrané.

Dvě varianty Iter-VF byly implementovány: jedna inicializovaná triviálním odhadem (‘1’), a druhá osazená standardní CoT výstupem:

Přesnost a tokenová efektivita na MATH500 pod rostoucím výstupním rozpočtem, ukazující, že obě varianty Iter-VF překonávají všechny základní metody napříč modelovými velikostmi.

Přesnost a tokenová efektivita na MATH500 pod rostoucím výstupním rozpočtem, ukazující, že obě varianty Iter-VF překonávají všechny základní metody napříč modelovými velikostmi.

Iter-VF poskytl lepší výsledky než všechny ostatní metody, když byla k dispozici nízká výpočetní kapacita, což autoři připsali způsobu, jakým ověřuje odpovědi, a ne tomu, jak dobré byly počáteční odpovědi (protože obě varianty VF a CoT rychle dosáhly podobné přesnosti).

PHP fungoval hůře, i když znovu použil předchozí odpovědi jako nápovědy, pravděpodobně protože LLMs nevyužily tyto nápovědy dobře.

Na rozdíl od PHP a Self-Correction, které nahromadily kontext napříč iteracemi, Iter-VF považoval pouze nejnovější odpověď každým kolem, což pomohlo vyhnout se kumulativnímu zmatení – slabosti, která je zvláště škodlivá pro Self-Correction.

Paralelní metody, jako Self-Consistency a Best-of-N, se vyhnuly tomuto problému, i když jejich zlepšení byla pomalejší a skromnější.

(n.b. Výsledková sekce, ačkoli je důkladná, je nevlídná a prolixní, a musíme tudíž zkrátit většinu zbývajícího pokrytí, a odkázat čtenáře na zdroj článku pro více detailů).

Když byl testován na GPT-5 Nano a GPT-5 Mini, uzavřené komerční modely, které skrývají plnou stopu uvažování a vracejí pouze konečnou odpověď, Iter-VF zlepšil výkon bez závislosti na mezilehlých výstupech. V tabulce níže můžeme vidět zisky napříč MATH500 a GPQA, potvrzující, že přístup verify-then-generate zůstává životaschopný i když je dostupný pouze vstup a konečná odpověď:

Přesnost na MATH500 a GPQA, když je Iter-VF aplikován na GPT-5 modely se skrytými stopami uvažování.

Přesnost na MATH500 a GPQA, když je Iter-VF aplikován na GPT-5 modely se skrytými stopami uvažování.

Závěr

Ačkoli nová práce skáče do neprůhlednosti od sekce výsledků, zdá se, že objev základní charakteristiky třídy AI modelů je přesto fascinujícím vývojem. Každý, kdo pravidelně používá LLM, bude instinktivně vyvinul sadu triků, aby obešel nedostatky modelu, jakmile se stanou zřejmými, a vzorec se objeví; a všichni doufají, že najdou „trik“ tak aplikovatelný a generalizovaný jako tento.

Jedním z největších problémů při implementaci a aktualizaci kontextového okna v LLM je najít rovnováhu mezi uchováním pokroku relace a schopností vyrazit do nových směrů podle potřeby, bez pádu do falešných halucinací nebo mimo téma výstupu. V případě prezentovaném novou prací vidíme příklad jemného, ale trvalého „probuzení“, které zdá se, že resetuje a refokuje LLM, bez ztráty kontextu. Bude zajímavé sledovat, zda budou následné projekty přizpůsobovat a evolucí této metody.

Výzkumníci zdůrazňují enormní ekonomii své nové metody – úvahu, která by měla mnohem menší váhu, než kdyby byla provedena před 12 měsíci. Dnes je zřejmé, že hypervelikální AI dělá jasnou, že úspory zdrojů, které byly dříve považovány za pedantické, jsou nyní zásadní a nezbytné.

 

* Vezměte prosím na vědomí, že jsem omezen zahrnutím obvyklého počtu citací z článku, protože standard angličtiny nalezený v některých částech by mohl zmást čtenáře. Tudíž jsem se rozhodl shrnout klíčové poznatky místo toho, a odkazuji čtenáře na zdroj článku pro ověření.

První zveřejnění: čtvrtek, 4. prosince 2025

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai