Andersons vinkel

Heuristiker vs. RAG: Shrinkflation som en politikdriver

Published December 10, 2025

Updated April 25, 2026

Martin Anderson

A tiny robot tries to type on a full-size laptop by using a pencil. Z-Image V1.

I de fleste tilfælde forbedrer søgning på internettet den faktuelle nøjagtighed af ChatGPT’s svar på vores spørgsmål. Så i en klima, hvor AI kæmper for offentlig accept, hvorfor vælger den at “gætte”?

Opinion Det er en fejl at tro, at LLM’er som ChatGPT nogensinde engagerer sig i whistleblowing om de potentelt skyggefulde praksisser fra deres værter, selv hvis en dyrekøbt og spildt session har fået dig til at gå i dybden på et systems mangler:

Her diskuteres ChatGPT’s præference for sin egen interne logik (vs. web-baseret forskning og verificering via RAG – som producerer færre hallucinationer, men koster mere) og fremkalder et åbenbart øjeblik af åbenhed; men tag det med en nålde salt. Kilde

I de fleste tilfælde – især for modeller med senere kunskabsafskæringsdatoer – er AI’en bare med på Reddit- og forumindlæg set under træning. Selv hvis der var nogen virkelig værdi i sådanne ‘insider-indsigter’, er det umuligt at bevise.

Men nogle gange fører disse ophedede udvekslinger til opdagelsen af ‘hacks’ (eller i hvert fald ‘tricks’) der lover at forhindre nogle af de værste gentagne vaner på en LLM – som da ChatGPT sidste uge foreslog, at jeg kunne få det til at arbejde hårdere og hallucinere mindre ved at inkludere adjurationen ‘ingen heuristikker’:

ChatGPT

Jeg har brugt ‘ingen heuristikker’ meget siden da, og ikke en enkelt gang har modellen søgt tilbage til sin egen trænet viden efter, at jeg lukkede en forespørgsel med denne kommando. I stedet bruger GPT straks Retrieval Augmented Generation (RAG), som søger på internettet efter oplysende eller bekræftende dokumenter.

I praksis er dette lidt anderledes end at sige systemet til at ‘søge på internettet’ hver gang du sender en forespørgsel. Hvor ‘ingen heuristikker’-frasen virkelig kan hjælpe, er når du prøver at få ChatGPT til at læse en ny uploaded PDF i stedet for at bruge metadata fra tidligere PDF-uploads i denne session (eller mange andre mulige kilder), for at producere et ‘plausibelt’ men helt hallucineret svar, uden at have læst eller endda skimmet dokumentet, du lige har præsenteret.

ChatGPT

Det skal siges, at jo længere en chat-session har været i gang, jo mindre sandsynligt er det, at dette vil fungere – og det ville være en fejl at tro, at en sådan ‘trick’ er pålidelig eller vil forblive tilgængelig, mens systemet udvikler sig.

RAG-handlen

I sammenhæng med en voksende kultur af shrinkflation, og det faktum, at store systemer som OpenAI’s GPT-infrastruktur er enormt påvirket af selv de mindste udbredte ændringer i adfærd, er det også let at tro, at man får for lidt værdi fra de valg, der træffes af populære LLM’er som ChatGPT.

Valg som om, hvorvidt det vil søge på internettet med RAG; starte en Chain-of-Thought (CoT)-proces, der måske kan opnå et bedre resultat, men som vil koste mere at slutte og måske trætte den utålmodige bruger; eller søge tilbage til sin egen trænet viden og lokalt tilgængelige kundskaber – som er den billigste og hurtigste løsning mulig.

Der er flere praktiske grunde til, at en LLM med en følsom offentlig profil, som ChatGPT, kan foretrække at begrænse sine RAG-opkald og i stedet foretrække sine egne heuristikker. Først og fremmest er det fra et PR-perspektiv, at hyppig ubudt brug af internettet støtter en populær karakterisering af LLM’er som blot Googlers-by-proxy, hvilket mindsker værdien af deres indre og dyrt trænede viden – og appellen af en betalt abonnement.

For det andet koster RAG-infrastruktur penge at køre, vedligeholde og opdatere, sammenlignet med den relativt ubetydelige omkostning ved lokal slutning, dvs. parametrisk generering, som er billig og hurtig.

For det tredje har systemet måske ikke en effektiv metode til at bestemme, om RAG kan forbedre sine egne heuristiske resultater – og det kan ofte ikke bestemme dette uden at køre heuristikker først. Dette efterlader slutbrugeren med opgaven at evaluere et fejlbehæftet heuristisk resultat og anmode om en RAG-opkald i tilfælde af, at resultatet fra heuristikkerne syntes at falde kort.

Set fra ‘AI-shrinkflation’-synspunktet kan antallet af gange, ChatGPT fejler gennem heuristikker og lykkes gennem RAG, indikere, som det nylig gjorde for mig, at systemet optimerer for omkostninger snarere end resultater.

RAG bliver nødvendigt over tid

På trods af ChatGPT’s seneste ’tilståelse’ til mig om, at dette er tilfældet, har ‘shrinkflation’ en bredere kontekst i denne henseende. Selv om RAG ikke er billig, hverken i forhold til friktion af oplevelse (gennem latency) eller omkostning til at køre, er det meget billigere end enten at finjustere eller endda genoptræne grundmodellen.

For en ældre AI-model med en mere fjernt kunskabsafskæringsdato kan RAG opretholde systemets valuta, til omkostning af netværksopkald og andre ressourcer; for en nyere model er RAG’s egne hentninger mere sandsynligt redundant eller skadelig for kvaliteten af resultaterne, som i nogle tilfælde ville have været bedre gennem heuristikker.

Derfor synes AI’en at have brug for kapaciteten ikke kun til at afgøre, om den skal søge tilbage til RAG, men til kontinuerligt udvikle sin politik for at bruge RAG, efterhånden som dens interne vægte bliver mere og mere forældede.

Samtidig har systemet brug for at afgrænse ‘relative konstanter’ i viden, såsom månebaner og klassisk litteratur, kultur og historie; samt grundlæggende geografi, fysik og andre videnskabelige grundprincipper, der sandsynligvis ikke vil udvikle sig meget over tid (dvs. risikoen for ‘pludselig ændring’ er ikke ikke-existerende, men lav).

Udliggende emner

For øjeblikket, i hvert fald så langt ChatGPT er bekymret, synes RAG-opkald (dvs. brugen af webforskning til enhver brugerforespørgsel, der ikke udtrykkeligt eller underforstået kræver webforskning) sjældent at blive valgt autonomt af systemet, selv når det handler om ‘marginale’ underdomæner.

Et sådant eksempel på en marginal domæne er ‘sjælden’ softwareanvendelse. I sådant tilfælde vil minimal tilgængelig kildedata have kæmpet for opmærksomhed under træning, og dataens ‘udløberstatus’ kan enten have markeret det til opmærksomhed eller begravet det som ‘marginale’ eller ‘ubetydelige’ – og selv en enkelt ekstra forumopslag lavet efter AI’ens kunskabsafskæringsdato kunne repræsentere en betydelig øgning i den samlede tilgængelige data og kvalitet af svaret for et ‘småt’ emne, hvilket gør et RAG-opkald værdifuldt.

Men fordelene ved RAG tenderer til at mindske efterhånden, som grundmodellen bliver mere kraftfuld. Mens mindre modeller får stor udbytte af hentning, viser større systemer som Qwen3-4B eller GPT-4o-mini/-4 ofte marginale eller endda negative forbedringer fra RAG*.

På mange benchmarks introducerer hentning mere forstyrrelse end fordel, hvilket tyder på en afvejning mellem at investere i en større model med mere intern dækning eller en mindre model parret med hentning.

Derfor synes RAG at være mest nyttig til at kompensere for huller i mid–størrelsesmodeller, der stadig har brug for eksterne fakta, men kan vurdere dem med mindre komplekse interne heuristikker.

Kun brug i nødstilfælde

ChatGPT’s retningslinjer for beslutningen om at bruge RAG er ikke åbent eksponeret af dens påståede systemprompt**, men er implicit adresseret (mod slutningen):

‘Brug webværktøjet til at få adgang til opdateret information fra internettet eller når svaret på brugerens forespørgsel kræver information om deres placering. Nogle eksempler på, når man skal bruge webværktøjet, omfatter:

Lokal information: Brug webværktøjet til at svare på spørgsmål, der kræver information om brugerens placering, såsom vejr, lokale forretninger eller begivenheder.

Friskehed: Hvis opdateret information om et emne potentielt kan ændre eller forbedre svaret, ring til webværktøjet hver gang, du ellers ville nægte at svare på et spørgsmål, fordi din viden måske er forældet.

Niche-information: Hvis svaret vil have gavn af detaljeret information, der ikke er bredt kendt eller forstået (som kan findes på internettet), såsom detaljer om et lille kvarter, en mindre kendt virksomhed eller arkane regler, brug webkilder direkte i stedet for at stole på den destillerede viden fra fortræning.

Nøjagtighed: Hvis omkostningen ved en lille fejl eller forældet information er høj (f.eks. brug af en forældet version af et softwarebibliotek eller ikke at kende datoen for det næste spil for et hold), så brug webværktøjet.’

I særdeleshed kan vi bemærke disse retningslinjer, der fremmer RAG i tilfælde, hvor naturligt trænet data er knappe. Men hvordan kommer systemet til denne forståelse? Den tilfældige bruger og iagttager af ChatGPT kan konkludere, at når ‘søgning på internettet’-widgettet vises efter en pause, har modellens interne heuristikker lige været afhørt for forespørgslen, og kom tomhændet tilbage.

Vi kan også bemærke, at det implicit antydes, at RAG kun anbefales til et meget begrænset antal brugs Tilfælde. Dette efterlader GPT anbefalet til at afhøre sin egen viden i alle tilfælde, undtagen i en ‘kritisk’ kontingens (‘Nøjagtighed’, nederst i ovenstående citat), for det overordnede antal faktiske domæneforespørgsler, hvor AI’ens indre tendens til at hallucinere kunne være en bemærkelsesværdig ansvar.

Konklusion

Tendenserne i nuværende og seneste forskning indikerer, at heuristisk generering er hurtig og billig, men forkert for ofte; mens RAG er langsommere, mere dyrt, men langt hyppigere korrekt – jo mere, efterhånden som modellens størrelse mindskes.

Baseret på min egen brug af ChatGPT ville jeg argumentere for, at OpenAI bruger RAG alt for sparsomt, som et præcisionsværktøj snarere end en daglig chauffør, især da problemerne med voksende kontekstvinduer gør LLM’er mere tilbøjelige til at hallucinere, efterhånden som lange samtaler udvikler sig.

Denne omstændighed kunne væsentligt lettes ved at kontrollere heuristiske svar mod webbaserede autoritetskilder, uden at vente på, at slutbrugeren tvivler på outputtet eller bliver fanget af det, og uden at interne resultater behøver at være så åbenbart utilfredsstillende, at beslutningen om at bruge RAG er uundgåelig.

I stedet kunne systemet være trænet til at selektivt og intelligent tvivle på sig selv efter tilfælde, og derfor til at engagere sig med internettet gennem en screeningsproces, der i sig selv ville være heuristisk. Jeg er ikke bekendt med, at arkitekturen af nuværende modeller efterlader plads til en tilgang af denne type, som i stedet skulle tilføjes til friktionen af API-filtre.

Som det er nu, kan jeg ikke engang bevise, at der er et problem; ikke engang med en tilståelse^†:

ChatGPT tilstår

* Se venligst linket øverst i denne paragraf.

** Dette er en ‘selvexponeret’ GPT-5-systemprompt, der igen blot kan være en samlet post fra prompt-forummet, der er genoptrænet til GPT-5, selv om nogen fastholder, at prompten er ægte.

^† Jeg foreslår virkelig ikke, at ChatGPT’s ‘skyldig åbenhed’ er meningsfuld her; min tendens til at presse imod dens partilinje i spørgsmål om OpenAI-politik betyder, at det til sidst ‘eniger’ sig med mig og gentager mine egne underforståede meninger alligevel. Dette er langt fra lig med at afsløre detaljerne om Normandiet-landgangen under pres.

Først udgivet onsdag, den 10. december 2025