Andersonův úhel
Heuristika vs. RAG: Shrinkflation jako řídící politika

Většinou vede vyhledávání na webu ke zlepšení faktické přesnosti odpovědí ChatGPT na naše otázky. Tak proč v klimatu, kde AI bojuje o veřejnou akceptaci, používá místo toho “odhady”?
Opinion Je to omyl věřit, že LLM, jako je ChatGPT, se někdy zabývají whistleblowingem na potenciálně pochybné praktiky svých hostitelů, i když nákladná a zbytečná relace vás dostatečně rozhněvala, abyste se真的 ponořili do nedostatků systému:

Zde diskuse o preferenci ChatGPT pro jeho vlastní vnitřní logiku (vs web-based výzkum a verifikaci prostřednictvím RAG – který produkuje méně halucinací, ale stojí více) vyvolává zdánlivý okamžik otevřenosti; ale vezměte to s rezervou. Source
Většinou – zejména pro modely s pozdějšími knowledge cut-off dates – je AI prostě improvizuje na základě příspěvků z Redditu a fór, které viděla během trénování. I kdyby existovala nějaká skutečná hodnota takových “interních informací”, je nemožné to prokázat.
Nicméně, někdy tyto vášnivé diskuse vedou k objevení “hacků” (nebo alespoň “triků”), které slibují zabránit některým z nejhorších opakujících se návyků LLM – jako když minulý týden ChatGPT navrhl, že mohu jej donutit pracovat tvrději a halucinovat méně, pokud přidám adjuraci ‘no heuristics’:

Používám ‘no heuristics’ hodně od té doby, a ani jednou se model neuchýlil ke svému vlastnímu trénovanému znalostem poté, co jsem uzavřela dotaz touto příkazem. Místo toho GPT okamžitě používá Retrieval Augmented Generation (RAG), který prohledává internet pro osvětlující nebo potvrzující dokumenty.
V praxi, pro většinu požadavků, se jedná o málo jiného, než říci systému “prohledat web” pokaždé, když podáte dotaz. Kde ‘no heuristics’ skutečně může pomoci, je když se snažíte donutit ChatGPT skutečně přečíst nový nahráný PDF místo použití metadat z předchozích PDF nahrávek v téže relaci (nebo mnoha dalších možných zdrojů), aby produkoval “pravděpodobnou” ale zcela halucinovanou odpověď, aniž by přečetl nebo alespoň prolétl dokument, který jste právě představili.

To řečeno, čím déle trvá chatovací relace, tím méně pravděpodobné, že to bude fungovat – a bylo by chybou myslet si, že takový “trik” je spolehlivý nebo zůstane dostupný, jakmile se systém vyvíjí.
RAG Obchod
V kontextu rostoucí kultury shrinkflation a skutečnosti, že velké systémy, jako je infrastruktura OpenAI GPT, jsou enormně ovlivněny i malými změnami v chování, je také snadné uvěřit, že dostáváte menší hodnotu z voleb provedených populárními LLM, jako je ChatGPT.
Volby, jako je zda se bude uchýlit k webu s RAG; zda zahájí Chain-of-Thought (CoT) proces, který by mohl získat lepší výsledek, ale který bude stát více a může unavit netrpělivého uživatele; nebo zda se uchýlí ke svým vlastním trénovaným vložením a místně dostupným znalostem – což je nejlevnější a nejrychlejší řešení možné.
Existuje několik praktických důvodů, proč by LLM s citlivým veřejným profilem, jako je ChatGPT, mohl preferovat omezit své RAG hovory, místo toho favorizovat své vlastní heuristiky. První, z hlediska PR, časté nepožádané použití webu podporuje populární charakterizaci LLM jako pouhých Googlerů-by-proxy, snižující hodnotu jejich vrozených a drahých trénovaných znalostí – a atraktivitu placené předplatného.
Druhý, RAG infrastruktura stojí peníze na běh, údržbu a aktualizaci, ve srovnání s relativně triviálními náklady na lokální inferenci, tj. parametrickou generaci, která je levná a rychlá.
Třetím, systém nemusí mít efektivní metodu pro určení, zda by RAG mohl vylepšit své vlastní heuristické výsledky – a často nemůže určit toto bez předchozího spuštění heuristiky. To zanechává konečného uživatele s úkolem vyhodnotit chybný heuristický výsledek a požadovat RAG hovor v případě, že výsledek z heuristiky se zdál být nedostatečný.
Z hlediska “AI shrinkflation” může počet chyb ChatGPT prostřednictvím heuristik a úspěchů prostřednictvím RAG naznačit, jako to nedávno učinilo u mě, že systém optimalizuje náklady spíše než výsledky.
RAG Roste Nutné S Časem
Navzdory “příznivé” konfesi ChatGPT, že tomu tak skutečně je, “shrinkflation” má širší kontext v tomto ohledu. Ačkoli RAG není levný, ani z hlediska tření zkušeností (prostřednictvím latence) nebo nákladů na běh, je mnohem levnější než pravidelné fine-tuning nebo dokonce přeškolování základního modelu.
Pro starší model AI s vzdálenějším datem ukončení znalostí může RAG udržet systém aktuální, za cenu síťových hovorů a dalších zdrojů; pro novější model je RAG自己的 retrievals více pravděpodobně redundantní nebo poškozující kvalitu výsledků, které by jinak mohly být lépe prostřednictvím heuristik.
Proto by se zdálo, že AI potřebuje kapacitu nejen rozhodnout, zda se má uchýlit k RAG, ale také kontinuálně vyvíjet svou politiku na používání RAG, jakmile jeho vnitřní váhy budou více a více zastaralé.
Současně potřebuje systém izolovat “relativní konstanty” v znalostech, jako jsou lunární orbity a klasická literatura, kultura a historie; stejně jako základní geografie, fyzika a další vědecké principy, které jsou nepravděpodobné, že se budou výrazně vyvíjet v čase (tj. riziko “náhle změny” není nulové, ale nízké).
Outlier Témata
V současné době, alespoň pokud jde o ChatGPT, RAG hovory (tj. použití webu pro výzkum pro jakoukoli uživatelskou otázku, která nevyžaduje explicitně nebo implicitně web výzkum) zřídka jsou autonomně zvoleny systémem, i když se jedná o “okrajová” subdomény.
Jedním z takových příkladů okrajové domény je “neobvyklé” použití softwaru. V takovém případě minimální dostupná zdrojová data bojovala o pozornost během trénování, a “outlier” status dat mohl buď označit pro pozornost nebo pohřbít jako “okrajový” nebo “nepodstatný” – a dokonce jeden další fórumový příspěvek provedený po datu ukončení znalostí AI by mohl reprezentovat podstatný nárůst celkových dostupných dat a kvality odpovědi pro “malé” téma, což by činilo RAG hovor smysluplným.
Nicméně, výhoda RAG tende snížit se, jak základní model roste. Zatímco menší modely profitují významně z retrievals, větší systémy, jako Qwen3-4B nebo GPT-4o-mini/-4o, často ukazují marginální nebo dokonce negativní zlepšení z RAG*.
Na mnoha benchmarcích, retrieval zavádí více rozptýlení než benefit, naznačující obchod mezi investicí do většího modelu s více interními pokrytími nebo menším modelem spárovaným s retrievalem.
Proto se RAG zdá být nejvíce užitečným pro kompenzaci mezery ve středněvelkých modelech, které stále potřebují externí fakta, ale mohou je vyhodnotit s méně složitými interními heuristikami.
Používejte Pouze V Nouzových Situacích
Směrné politiky ChatGPT kolem rozhodnutí použít RAG nejsou explicitně odhaleny jeho údajným systémovým promptem**, ale jsou implicitně adresovány (na konci):
‘Použijte nástroj pro přístup k aktuálnímu informace z webu nebo když odpověď na uživatele vyžaduje informace o jeho umístění. Některé příklady, kdy použít nástroj pro web, zahrnují:
Místní informace: Použijte nástroj pro web k odpovědi na otázky, které vyžadují informace o umístění uživatele, jako je počasí, místní podniky nebo události.
Swieżest:
Wenn aktuální informace na téma mohou potenciálně změnit nebo vylepšit odpověď, zavolejte nástroj pro web kdykoli byste jinak odmítli odpovědět na otázku, protože vaše znalosti mohly být zastaralé.
Niche informace: Pokud by odpověď mohla profitovat z podrobných informací, které nejsou široce známy nebo pochopitelné (které by mohly být nalezeny na internetu), jako jsou podrobnosti o malé čtvrti, méně známé společnosti nebo arcana regulace, použijte webové zdroje přímo místo spoléhání se na destilované znalosti z předchozího trénování.
Přesnost: Pokud by cena malé chyby nebo zastaralé informace byla vysoká (například použití zastaralé verze softwarové knihovny nebo neznalosti data následujícího zápasu pro sportovní tým), pak použijte nástroj pro web.’
Zejména můžeme si všimnout, že tyto směrnice podporují RAG v případech, kdy nativní trénovaná data jsou vzácná. Ale jak systém dospěje k tomuto pochopení? Neformální uživatel a pozorovatel ChatGPT by mohl dospět k závěru, že v těch případech, kdy se “prohledávání webu” widget zobrazí po pauze, vnitřní heuristiky modelu byly právě dotázány pro dotaz a přišly naprázdno.
Můžeme také si všimnout, že implicitně, RAG je doporučen pouze pro velmi omezený počet použití. To zanechává GPT doporučené pro dotázání svých vlastních vah, ve všech případech, kromě “kritické” kontingence (‘Přesnost’, na konci výše uvedeného citátu), pro většinu faktických dotazů, kde přirozená tendence AI k halucinacím by mohla být značnou vadou.
Závěr
Trendy současné a nedávné výzkumu naznačují, že heuristická generace je rychlá a levná, ale často chybná; zatímco RAG je pomalejší, dražší, ale mnohem častěji správná – čím více, tím menší je velikost modelu.
Na základě mého vlastního použití ChatGPT bych argumentoval, že OpenAI používá RAG příliš zřídka, jako přesnou nástroj spíše než denního řidiče, zejména proto, že problémy s rostoucími kontextovými okny činí LLM více pravděpodobným, že budou halucinovat, jakmile se dlouhé konverzace vyvíjejí.
Tato okolnost by mohla být značně zmírněna kontrolou heuristických odpovědí proti webovým autoritativním zdrojům, bez čekání na to, až uživatel zpochybní výstup nebo bude trikován jím, a bez toho, aby vnitřní výsledky musely být tak manifestně uspokojivé, že rozhodnutí použít RAG je nevyhnutelné.
Místo toho by systém mohl být trénován na selektivně a inteligentně pochybovat o sobě podle případů a proto se uchýlit k webu prostřednictvím screeningového procesu, který by byl sám o sobě heuristický. Nemám vědomí, že architektury současných modelů zanechávají prostor pro přístup tohoto typu, který by musel být přidán k tření API filtrů.
Jak tomu je, nemůžu ani prokázat, zda existuje problém; ani s “příznivou” konfesí†:

* Přístupujte, prosím, odkaz na začátku tohoto odstavce.
** To je “self-exposed” GPT-5 systémový prompt, který, opět, může být pouze souhrnem z prompt fóra příspěvků přeškoleno pro GPT-5, ačkoli někteří udržují, že prompt je skutečný.
† Skutečně nemám v úmyslu naznačit, že “příznivá” otevřenost ChatGPT je zde významná; moje tendence tlačit proti jeho stranické linii ve věcech OpenAI politiky znamená, že nakonec “souhlasí” se mnou a opakuje mé vlastní implicitní názory stejně. To je daleko od ekvivalentu prozrazení detailů o vylodění v Normandii pod tlakem.
Poprvé zveřejněno ve středu, 10. prosince 2025










