Connect with us

Heuristiker vs. RAG: Shrinkflation som en politisk drivkraft

Andersons vinkel

Heuristiker vs. RAG: Shrinkflation som en politisk drivkraft

mm
A tiny robot tries to type on a full-size laptop by using a pencil. Z-Image V1.

I de flesta fall förbättrar sökning på webben den faktiska noggrannheten i ChatGPTs svar på våra frågor. Så i en klimat där AI kämpar för allmän acceptans, varför använder den “gissningar”?

 

Åsikt Det är ett misstag att tro att LLM:er som ChatGPT någonsin avslöjar de potentiellt tvivelaktiga praktikerna hos deras värdar, även om en dyrbart och slösad session har retat upp dig tillräckligt för att verkligen granska systemets brister:

Här diskuteras ChatGPTs preferens för sin egen interna logik (vs webbaserad forskning och verifiering genom RAG – som producerar färre hallucinationer, men kostar mer) och inducerar en uppenbar ögonblick av öppenhet; men ta det med en nypa salt. Källa: chatgpt.com

Här diskuteras ChatGPTs preferens för sin egen interna logik (vs webbaserad forskning och verifiering genom RAG – som producerar färre hallucinationer, men kostar mer) och inducerar en uppenbar ögonblick av öppenhet; men ta det med en nypa salt. Källa

För det mesta – särskilt för modeller med senare kunskapsavskärningsdatum – är AI:n bara improviserar på Reddit- och foruminlägg som den såg under utbildningen. Även om det fanns något verkligt värde i sådana “insiderinsikter”, är det omöjligt att bevisa.

Men ibland leder dessa upphettade utbyten till upptäckten av “hacker” (eller åtminstone “knep”) som lovar att förhindra några av de värsta repetitiva vanorna på en LLM – som när ChatGPT föreslog att jag kunde få den att arbeta hårdare och hallucinera mindre genom att inkludera adjurationen ‘no heuristics’:

ChatGPT

Jag har använt ‘no heuristics’ mycket sedan dess, och inte en enda gång har modellen använt sin egen utbildade kunskap efter att jag stängt en fråga med detta kommando. Istället använder GPT omedelbart Retrieval Augmented Generation (RAG), som söker på internet efter upplysande eller bekräftande dokument.

I praktiken är detta för de flesta förfrågningar inte mycket annorlunda än att säga till systemet att “söka på webben” varje gång du skickar en fråga. Där ‘no heuristics’-frasen verkligen kan hjälpa är när du försöker få ChatGPT att faktiskt läsa en ny uppladdad PDF istället för att använda metadata från tidigare PDF-uppladdningar under samma session (eller många andra möjliga källor), för att producera ett “plausibelt” men helt hallucinerat svar, utan att ha läst eller ens skummat igenom dokumentet som du just presenterade.

ChatGPT

Det ska dock sägas att ju längre chatsessionen har pågått, desto mindre troligt är det att detta kommer att fungera – och det vore ett misstag att tro att något sådant “knep” är tillförlitligt eller kommer att förbli tillgängligt när systemet utvecklas.

RAG-branschen

I sammanhanget av en växande kultur av shrinkflation, och det faktum att stora system som OpenAI:s GPT-infrastruktur starkt påverkas av även de minsta utbredda beteendeförändringarna, är det också lätt att tro att man får för lite för pengarna från de val som görs av populära LLM:er som ChatGPT.

Val som omfattar om den ska nå ut till webben med RAG; starta en Chain-of-Thought (CoT)-process som kan ge ett bättre resultat, men som kommer att kosta mer att inferera och kan trötta den otåliga användaren; eller förlita sig på sin egen utbildade kunskap och lokalt tillgängliga kunskap – som är den billigaste och snabbaste lösningen möjlig.

Det finns flera praktiska skäl till varför en LLM med en känslig offentlig profil, som ChatGPT, kan föredra att begränsa sina RAG-samtal, och istället föredra sin egen heuristik. Först och främst, ur ett PR-perspektiv, stöder den frekventa oombedda användningen av webben en populär karakterisering av LLM:er som blotta Googlers-by-proxy, vilket minskar värdet av deras medfödda och dyrt utbildade kunskap – och attraktionen hos en betald prenumeration.

Sedan kostar RAG-infrastruktur pengar att köra, underhålla och uppdatera, jämfört med den relativt obetydliga kostnaden för lokal inferens, d.v.s. parametrisk generering, som är billig och snabb.

Tredje, systemet kan inte ha en effektiv metod för att avgöra om RAG kan förbättra sina egna heuristiska resultat – och det kan ofta inte avgöra detta utan att först köra heuristiken. Detta lämnar slutanvändaren med uppgiften att utvärdera ett felaktigt heuristiskt resultat och begära en RAG-samtal om resultatet från heuristiken verkar ha fallit kort.

Ur “AI-shrinkflations” synvinkel kan antalet gånger ChatGPT felar genom heuristik och lyckas genom RAG indikera, som det nyligen gjorde för mig, att systemet optimerar för kostnad snarare än resultat.

RAG växer nödvändig över tid

Trots ChatGPTs nyliga “bekännelse” till mig att detta verkligen är fallet, har “shrinkflation” en bredare kontext i detta avseende. Även om RAG inte är billigt, antingen i termer av friktionen i upplevelsen (genom latency) eller kostnad att köra, är det mycket billigare än att regelbundet finjustera eller till och med omträna grundmodellen.

För en äldre AI-modell med ett mer avlägset avskärningsdatum kan RAG upprätthålla systemets aktualitet, till kostnaden av nätverksanrop och andra resurser; för en nyare modell är RAGs egna återvinningar mer benägna att vara överflödiga eller till och med skadliga för resultaten, som i vissa fall skulle ha varit bättre genom heuristik.

Därför verkar AI:n behöva förmågan att inte bara bedöma om den ska använda RAG, utan också att kontinuerligt utveckla sin policy för att använda RAG när dess interna vikter blir mer och mer föråldrade.

Samtidigt behöver systemet ringa in “relativa konstanter” i kunskap, som till exempel månens banor och klassisk litteratur, kultur och historia; samt grundläggande geografi, fysik och andra vetenskapliga principer som är osannolika att utvecklas mycket över tid (d.v.s. risken för “plötslig förändring” är inte obefintlig, men låg).

Udda ämnen

För tillfället, åtminstone såvitt ChatGPT beträffar, verkar RAG-samtal (d.v.s. användningen av webbforskning för alla användarfrågor som inte uttryckligen eller underförstått kräver webbforskning) sällan vara autonomt valda av systemet, även när det gäller “marginala” underdomäner.

Ett sådant exempel på en marginal domän är “obskur” programvaruanvändning. I ett sådant fall kommer den minimala tillgängliga källdata som kämpat för uppmärksamhet under utbildningen att ha flaggats för uppmärksamhet eller begrarets som “marginal” eller “obetydlig” – och till och med en enda extra forumspostning som gjorts efter AI:s kunskapsavskärningsdatum kan representera en betydande ökning av total tillgänglig data och kvalitet på svaret för ett “litet” ämne, vilket gör ett RAG-samtal värt att genomföra.

Men fördelen med RAG tenderar att minska när basmodellen blir mer kraftfull. Medan mindre modeller drar nytta av återvinning, visar större system som Qwen3-4B eller GPT-4o-mini/-4o ofta marginell eller till och med negativ förbättring från RAG*.

På många benchmark-tester introducerar återvinning mer distraktion än nytta, vilket tyder på en avvägning mellan att investera i en större modell med mer intern täckning eller en mindre modell parat med återvinning.

Därför verkar RAG vara mest användbart för att kompensera för luckor imellanstorleksmodeller, som fortfarande behöver externa fakta, men kan bedöma dem med mindre komplex intern heuristik.

Använd endast i nödfall

ChatGPTs ledande principer kring beslutet att använda RAG är inte öppet exponerade av dess påstådda systemprompt**, men är implicit behandlade (mot slutet):

‘Använd webbverktyget för att komma åt uppdaterad information från webben eller när du svarar på användaren kräver information om deras plats. Några exempel på när du ska använda webbverktyget är:

Lokal information: Använd webbverktyget för att svara på frågor som kräver information om användarens plats, som vädret, lokala företag eller evenemang.

Färskhet: Om uppdaterad information om ett ämne kan potentiellt förändra eller förbättra svaret, ring webbverktyget varje gång du annars skulle vägra att svara på en fråga för att din kunskap kan vara föråldrad.

Nischinformation: Om svaret skulle dra nytta av detaljerad information som inte är allmänt känd eller förstådd (som kan hittas på internet), som detaljer om ett litet grannskap, ett mindre känt företag eller arkaiska regler, använd webbkällor direkt istället för att förlita sig på den destillerade kunskapen från förutbildning.

Noggrannhet: Om kostnaden för ett litet misstag eller föråldrad information är hög (t.ex. att använda en föråldrad version av ett programvarubibliotek eller inte veta datum för nästa match för ett sportlag), använd då webbverktyget.’

I synnerhet kan vi notera att dessa riktlinjer främjar RAG i fall där naturligt tränad data är knapp. Men hur kommer systemet fram till denna förståelse? Den ovanliga användaren och observatören av ChatGPT kan dra slutsatsen att när “sök på webben”-widgeten visas efter en paus, har modellens interna heuristik just omröstats för frågan och kommit tom.

Vi kan också notera att enligt implikationen rekommenderas RAG endast för ett mycket begränsat antal användningsfall. Detta lämnar GPT att rekommendera att det ska rösta sin egen vikt i alla utom ett “kritiskt” kontingensfall (‘Noggrannhet’, i botten av ovanstående citat), för det stora antalet faktabaserade domänfrågor där AI:s naturliga tendens att hallucinera kan vara en notabel skuld.

Slutsats

Trenderna i nuvarande och nyligen genomförd forskning tyder på att heuristisk generering är snabb och billig, men fel för ofta; medan RAG är långsammare, dyrare, men mycket mer korrekt – ju mer som modellens storlek minskar.

Baserat på min egen användning av ChatGPT skulle jag hävda att OpenAI använder RAG alldeles för sällan, som ett precisionsverktyg snarare än en daglig förare, särskilt eftersom problemen med växande kontextfönster gör LLM:er mer benägna att hallucinera när långa samtal utvecklas.

Denna omständighet kunde lindras avsevärt genom att kontrollera heuristiska svar mot webbaserade auktoritativa källor, utan att vänta på att slutanvändaren tvivlar på utdata eller blir hindrad av det, och utan att interna resultat behöver vara så uppenbart otillfredsställande att beslutet att använda RAG är oundvikligt.

Istället kunde systemet tränas för att selektivt och intelligent tvivla på sig själv enligt fall, och därmed engagera sig med webben genom en skärmningsprocess som i sig själv vore heuristisk. Jag är inte medveten om att arkitekturen i nuvarande modeller lämnar utrymme för ett tillvägagångssätt av detta slag, som istället skulle behöva läggas till friktionen i API-filtrar.

Som det står nu kan jag inte ens bevisa att det finns ett problem; inte ens med en bekännelse:

ChatGPT bekänner

 

* Vänligen se länken i början av denna paragraf.

** Detta är en ‘självexponerad’ GPT-5-systemprompt som, igen, kan vara en sammanfattning från promptforum-inlägg omtränad för GPT-5, även om vissa hävdar att prompten är äkta.

Jag föreslår verkligen inte att ChatGPTs ‘skyldig öppenhet’ är meningsfull här; min tendens att pusha tillbaka mot dess partilinje i frågor om OpenAI:s policy innebär att det så småningom ‘samtycker’ med mig och upprepar mina egna underförstådda åsikter ändå. Detta är långt ifrån ekvivalent med att yppa detaljerna om Normandies invasion under tryck.  

Publicerad första gången onsdag, den 10 december 2025

Författare på maskinlärande, domänspecialist inom mänsklig bildsyntes. Före detta chef för forskningsinnehåll på Metaphysic.ai.