Angolo di Anderson
Euristiche vs. RAG: Shrinkflation come driver di politica

Nella maggior parte dei casi, cercare sul web migliora l’accuratezza fattuale delle risposte di ChatGPT alle nostre domande. Quindi, in un clima in cui l’IA sta lottando per l’accettazione pubblica, perché sta ricorrendo alle “ipotesi”?
Opinione È un errore credere che LLM come ChatGPT si impegnino mai nel whistleblowing sulle pratiche potenzialmente discutibili dei loro host, anche se una sessione costosa e sprecata ha sollevato la tua ira abbastanza da entrare veramente nei dettagli dei difetti di un sistema:

Qui una discussione sulla preferenza di ChatGPT per la sua logica interna (vs ricerca web e verifica tramite RAG – che produce meno allucinazioni, ma costa di più) induce un apparente momento di candore; ma prendilo con un pizzico di sale. Fonte
Per lo più – specialmente per modelli con date di taglio delle conoscenze successive – l’IA sta semplicemente improvvisando su post di Reddit e forum visti durante l’addestramento. Anche se ci fosse un valore reale in tali “intuizioni interne”, è impossibile provarlo.
Tuttavia, a volte questi scambi accesi portano alla scoperta di “trucchi” (o almeno, “trucchi”) che promettono di prevenire alcune delle peggiori abitudini ripetitive di un LLM – come quando, la scorsa settimana, ChatGPT ha suggerito che potevo farlo lavorare più duramente e allucinare meno includendo l’adjurazione ‘no euristiche’:

Ho usato ‘no euristiche’ molto da allora, e non una volta il modello è ricorso alle sue conoscenze addestrate dopo che ho chiuso una query con questo comando. Invece, GPT utilizza immediatamente Retrieval Augmented Generation (RAG), cercando internet per documenti illuminanti o corroboranti.
In pratica, per la maggior parte delle richieste, questo è poco diverso dal dire al sistema di “cercare sul web” ogni volta che si invia una query. Dove la frase ‘no euristiche’ veramente può aiutare è quando si tenta di far leggere a ChatGPT un nuovo file PDF caricato, invece di utilizzare i metadati da precedenti caricamenti di PDF in quella sessione (o molte altre possibili fonti), per produrre una risposta “plausibile” ma interamente allucinata, senza aver letto o anche scorso il documento che gli si è appena presentato.

Tuttavia, più a lungo la sessione di chat è stata in corso, meno probabile che questo funzioni – e sarebbe un errore pensare che un tale “trucco” sia affidabile o rimarrà disponibile mentre il sistema evolve.
Il commercio RAG
Nel contesto di una cultura in crescita di shrinkflation, e del fatto che grandi sistemi come l’infrastruttura GPT di OpenAI sono enormemente influenzati anche dalle più piccole modifiche diffuse nel comportamento, è anche facile credere che si stia ottenendo poco peso dalle scelte fatte da LLM popolari come ChatGPT.
Scelte come se raggiungerà il web con RAG; inizierà un Chain-of-Thought (CoT) che potrebbe ottenere un risultato migliore, ma che costerà di più per inferire e potrebbe stancare l’utente impaziente; o ricorrerà alle sue conoscenze addestrate e alla conoscenza localmente disponibile – che è la soluzione più economica e veloce possibile.
Ci sono diverse ragioni pratiche per cui un LLM con un profilo pubblico sensibile, come ChatGPT, possa preferire limitare le sue chiamate RAG, favorendo invece le sue euristiche. In primo luogo, da un punto di vista delle PR, l’uso frequente e non sollecitato del web sostiene una caratterizzazione popolare di LLM come semplici Googlers-by-proxy, diminuendo il valore della loro conoscenza innata e costosamente addestrata – e l’appeal di un abbonamento a pagamento.
In secondo luogo, l’infrastruttura RAG costa denaro per essere eseguita, mantenuta e aggiornata, rispetto al costo relativamente trascurabile dell’inferenza locale, cioè la generazione parametrica, che è economica e veloce.
In terzo luogo, il sistema potrebbe non avere un metodo efficace per determinare se RAG potrebbe migliorare i risultati euristici – e spesso non può determinare questo senza eseguire prima le euristiche. Ciò lascia all’utente finale il compito di valutare un risultato euristico difettoso e richiedere una chiamata RAG nel caso in cui il risultato dalle euristiche sembri essere stato inferiore.
Dal punto di vista dell'”inflazione dello shrink”, il numero di volte che ChatGPT si sbaglia attraverso euristiche e ha successo attraverso RAG può indicare, come ha recentemente fatto a me, che il sistema sta ottimizzando per il costo piuttosto che per i risultati.
RAG cresce necessario nel tempo
Nonostante la recente “confessione” di ChatGPT a me che questo è effettivamente il caso, “shrinkflation” ha un contesto più ampio in questo senso. Sebbene RAG non sia economico, sia in termini di attrito dell’esperienza (attraverso la latenza) o di costo di esecuzione, è molto più economico di un addestramento regolare o anche di un ritraining del modello di base.
Per un modello di intelligenza artificiale più vecchio con una data di taglio delle conoscenze più lontana, RAG può mantenere l’attualità del sistema, al costo di chiamate di rete e altre risorse; per un modello più nuovo, le proprie recuperazioni di RAG sono più probabili essere ridondanti o dannose alla qualità dei risultati, che in alcuni casi sarebbero stati migliori attraverso euristiche.
Pertanto, l’IA sembrerebbe aver bisogno della capacità non solo di giudicare se deve ricorrere a RAG, ma di continuamente evolvere la sua politica sull’uso di RAG mentre i suoi pesi interni diventano più e più datati.
Allo stesso tempo, il sistema ha bisogno di recintare “costanti relative” nella conoscenza, come orbite lunari e letteratura classica, cultura e storia; così come geografia di base, fisica e altri principi scientifici che sono improbabili evolvere molto nel tempo (cioè, il rischio di “cambiamento improvviso” non è inesistente, ma basso).
Argomenti anomali
Al momento, almeno per quanto riguarda ChatGPT, le chiamate RAG (cioè l’uso della ricerca web per qualsiasi query dell’utente che non richieda esplicitamente o implicitamente la ricerca web) sembrano raramente essere scelte autonomamente dal sistema, anche quando si tratta di “sottodomini marginali”.
Un esempio di dominio marginale è l'”uso di software oscuro”. In un tale caso, i dati di origine disponibili minimi avranno lottato per l’attenzione durante l’addestramento, e lo stato di “anomalia” dei dati potrebbe averli segnalati per l’attenzione o li avrebbe sepolti come “marginali” o “inconsequenziali” – e anche un solo post aggiuntivo su un forum fatto dopo la data di taglio delle conoscenze dell’IA potrebbe rappresentare un aumento sostanziale dei dati disponibili e della qualità della risposta per un “piccolo” argomento, rendendo una chiamata RAG utile.
Tuttavia, il vantaggio di RAG tende a diminuire mentre il modello di base diventa più potente. Mentre i modelli più piccoli traggono vantaggio in modo significativo dalla recuperazione, i sistemi più grandi come Qwen3-4B o GPT-4o-mini/-4o spesso mostrano un miglioramento marginale o addirittura negativo da RAG*.
Su molti benchmark, la recuperazione introduce più distrazione che beneficio, suggerendo un compromesso tra investire in un modello più grande con una copertura interna più ampia, o un modello più piccolo abbinato alla recuperazione.
Pertanto, RAG sembra essere più utile per compensare le lacune in modelli di medie dimensioni, che ancora necessitano di fatti esterni, ma possono valutarli con euristiche interne meno complesse.
Usare solo in caso di emergenza
Le politiche guida di ChatGPT riguardo alla decisione di utilizzare RAG non sono esposte apertamente dalla sua presunta system prompt**, ma sono implicitamente affrontate (verso la fine):
‘Usa lo strumento web per accedere a informazioni aggiornate dal web o quando la risposta all’utente richiede informazioni sulla sua posizione. Esempi di quando utilizzare lo strumento web includono:
Informazioni locali: Usa lo strumento web per rispondere a domande che richiedono informazioni sulla posizione dell’utente, come il meteo, aziende locali o eventi.
Freschezza: Se le informazioni aggiornate su un argomento potrebbero cambiare o migliorare la risposta, chiama lo strumento web ogni volta che altrimenti rifiuteresti di rispondere a una domanda perché la tua conoscenza potrebbe essere obsoleta.
Informazioni di nicchia: Se la risposta trarrebbe beneficio da informazioni dettagliate non ampiamente note o comprese (che potrebbero essere trovate su internet), come dettagli su un piccolo quartiere, un’azienda meno conosciuta o regolamenti arcani, usa fonti web direttamente invece di affidarti alla conoscenza distillata dall’addestramento.
Accuratezza: Se il costo di un piccolo errore o di informazioni obsolete è alto (ad esempio, utilizzare una versione obsoleta di una libreria software o non conoscere la data del prossimo gioco per una squadra sportiva), allora usa lo strumento web.’
In particolare, possiamo notare queste direzioni che promuovono RAG in casi in cui i dati addestrati nativamente sono scarsi. Ma come arriva il sistema a questa comprensione? L’utente casuale e l’osservatore di ChatGPT potrebbero concludere che in quelle occasioni in cui il widget “cerca sul web” si mostra dopo una pausa, le euristiche interne del modello sono state appena sondaggiate per la query e sono risultate vuote.
Possiamo anche notare che, per implicazione, RAG è raccomandato solo per un numero limitato di casi d’uso. Ciò lascia GPT raccomandato per sondare i suoi pesi, in tutti i casi tranne che in una “contingenza critica” (‘Accuratezza’, in fondo alla citazione sopra), per la grande maggioranza delle query basate su fatti in cui la tendenza dell’IA a hallucinare potrebbe essere una nota passività.
Conclusione
Le tendenze della ricerca attuale e recente indicano che la generazione euristica è veloce e economica, ma sbagliata troppo spesso; mentre RAG è più lenta, più costosa, ma molto più spesso corretta – tanto più mentre le dimensioni del modello diminuiscono.
Sulla base del mio uso di ChatGPT, arguirei che OpenAI sta utilizzando RAG troppo di rado, come uno strumento di precisione piuttosto che come un guidatore quotidiano, specialmente dal momento che le questioni con le finestre di contesto in crescita rendono gli LLM più propensi a hallucinare mentre le conversazioni si sviluppano.
Questa circostanza potrebbe essere notevolmente alleviata verificando le risposte euristiche contro fonti di autorità basate sul web, senza aspettare che l’utente finale dubiti dell’output o sia intralciato da esso, e senza che i risultati interni debbano essere così manifestamente insoddisfacenti che la decisione di utilizzare RAG sia inevitabile.
Invece, il sistema potrebbe essere addestrato a selezionare e intelligentemente dubitare di se stesso secondo i casi, e quindi a impegnarsi con il web attraverso un processo di selezione che sarebbe, di per sé, euristico. Non sono a conoscenza che le architetture dei modelli attuali lascino spazio a un approccio di questo tipo, che invece dovrebbe essere aggiunto all’attrito dei filtri API.
Come sta, non posso nemmeno provare che ci sia un problema; nemmeno con una confessione†:

* Si prega di fare riferimento al link in alto in questo paragrafo.
** Questo è un ‘sistema di prompt autoesposto’ GPT-5 che, di nuovo, potrebbe semplicemente essere un riassunto di post di forum di prompt riaddestrati per GPT-5, sebbene alcuni sostengano che il prompt sia genuino.
† Non sto realmente suggerendo che la “candore colpevole” di ChatGPT sia significativo qui; la mia tendenza a spingere contro la sua linea di partito in materia di politiche di OpenAI significa che alla fine “acconsentirà” con me e ripeterà le mie stesse opinioni implicite comunque. Ciò è ben lontano dall’essere equivalente a rivelare i dettagli dello sbarco in Normandia sotto pressione.
Pubblicato per la prima volta mercoledì, 10 dicembre 2025










