Angle d’Anderson
Heuristiques vs RAG : la shrinkflation en tant que moteur de politique

La plupart du temps, la recherche sur le web améliore l’exactitude factuelle des réponses de ChatGPT à nos questions. Alors, dans un climat où l’IA lutte pour son acceptation publique, pourquoi recourt-elle à des « suppositions » ?
Opinion Il est erroné de penser que les LLM tels que ChatGPT se livrent jamais à des dénonciations sur les pratiques potentiellement douteuses de leurs hôtes, même si une session coûteuse et gaspillée a suffisamment éveillé votre ire pour vraiment vous plonger dans les défaillances d’un système :

Ici, une discussion sur la préférence de ChatGPT pour sa propre logique interne (par opposition à la recherche et à la vérification basées sur le web via RAG – qui produit moins d’hallucinations, mais coûte plus) induit un moment apparent de candeur ; mais prenez-le avec un grain de sel. Source
La plupart du temps – en particulier pour les modèles avec des dates de fin de connaissances plus récentes – l’IA se contente de jouer sur les publications Reddit et les forums vus pendant l’entraînement. Même s’il y avait une véritable valeur à ces « aperçus internes », il est impossible de le prouver.
Cependant, parfois ces échanges houleux conduisent à la découverte de « trucs » (ou au moins de « trucs ») qui promettent d’éviter certaines des pires habitudes répétitives d’un LLM – comme lorsque, la semaine dernière, ChatGPT m’a suggéré que je pouvais le faire travailler plus dur et « halluciner » moins en incluant l’adjuration ‘pas d’héuristiques’ :

J’ai utilisé ‘pas d’héuristiques’ beaucoup depuis, et le modèle n’a jamais recours à ses propres connaissances formées après que j’aie fermé une requête avec cette commande. Au lieu de cela, GPT utilise immédiatement la génération augmentée de récupération (RAG), en recherchant sur Internet des documents éclairants ou corroborants.
Dans la pratique, pour la plupart des demandes, cela diffère peu de dire au système de « rechercher sur le web » chaque fois que vous soumettez une requête. Là où la phrase « pas d’héuristiques » réellement peut aider, c’est lorsqu’on essaie d’obtenir que ChatGPT lise vraiment un nouveau PDF téléchargé au lieu d’utiliser les métadonnées des PDF téléchargés précédemment dans cette session (ou d’autres sources possibles), pour produire une réponse « plausible » mais entièrement hallucinée, n’ayant pas lu, ou même parcouru le document que vous venez de présenter.

Cela étant dit, plus la session de conversation a duré, moins il est probable que cela fonctionne – et il serait une erreur de penser que tout « truc » est fiable ou restera disponible à mesure que le système évolue.
Le commerce RAG
Dans le contexte d’une culture grandissante de shrinkflation, et du fait que de grands systèmes tels que l’infrastructure GPT d’OpenAI sont énormément affectés par même les plus petits changements généralisés de comportement, il est également facile de croire qu’on reçoit moins que sa part des choix faits par des LLM populaires tels que ChatGPT.
Des choix tels que celui de savoir s’il va consulter le web avec RAG ; commencer un processus de chaîne de pensée (CoT) qui pourrait obtenir un meilleur résultat, mais qui coûtera plus à déduire et pourrait fatiguer l’utilisateur impatient ; ou recourir à ses propres connaissances formées et à ses connaissances locales – qui est la solution la moins chère et la plus rapide possible.
Il y a plusieurs raisons pratiques pour lesquelles un LLM avec un profil public sensible, comme ChatGPT, peut préférer limiter ses appels RAG, favorisant plutôt ses propres héuristiques. Tout d’abord, d’un point de vue PR, l’utilisation fréquente et non sollicitée du web soutient une caractérisation populaire des LLM comme de simples Googlers par procuration, diminuant la valeur de leurs connaissances innées et coûteusement formées – et l’attrait d’un abonnement payant.
Deuxièmement, l’infrastructure RAG coûte de l’argent à exécuter, à maintenir et à mettre à jour, par rapport au coût relativement négligeable de l’inférence locale, c’est-à-dire la génération paramétrique, qui est bon marché et rapide.
Troisièmement, le système peut ne pas avoir une méthode efficace pour déterminer si RAG pourrait améliorer ses propres résultats héuristiques – et il ne peut souvent pas déterminer cela sans exécuter d’abord les héuristiques. Cela laisse l’utilisateur final avec la tâche d’évaluer un résultat héuristique défectueux et de demander un appel RAG dans le cas où le résultat des héuristiques semblait être en deçà.
Du point de vue de la « shrinkflation de l’IA », le nombre de fois où ChatGPT se trompe par héuristiques et réussit par RAG peut indiquer, comme cela m’a récemment été montré, que le système est optimisé pour le coût plutôt que pour les résultats.
RAG devient nécessaire avec le temps
Malgré la « confession » récente de ChatGPT à mon égard, selon laquelle c’est effectivement le cas, la « shrinkflation » a un contexte plus large à cet égard. Même si RAG n’est pas bon marché, en termes de friction d’expérience (via la latence) ou de coût d’exécution, il est beaucoup moins cher que de réaffiner ou même de réentraîner le modèle de base.
Pour un modèle d’IA plus ancien avec une date de fin de connaissances plus éloignée, RAG peut maintenir la monnaie du système, au coût d’appels réseau et d’autres ressources ; pour un modèle plus récent, les propres récupérations de RAG sont plus susceptibles d’être redondantes ou même nuisibles à la qualité des résultats, qui dans certains cas auraient été meilleurs via les héuristiques.
Par conséquent, l’IA semblerait avoir besoin de la capacité non seulement de déterminer s’il doit recourir à RAG, mais de continuellement évoluer sa politique sur l’utilisation de RAG à mesure que ses poids internes deviennent de plus en plus obsolètes.
Dans le même temps, le système a besoin de protéger les « constant relatives » dans les connaissances, telles que les orbites lunaires et la littérature classique, la culture et l’histoire ; ainsi que la géographie de base, la physique et d’autres principes scientifiques qui sont peu susceptibles d’évoluer beaucoup avec le temps (c’est-à-dire que le risque de « changement soudain » n’est pas nul, mais faible).
Sujets atypiques
Actuellement, du moins en ce qui concerne ChatGPT, les appels RAG (c’est-à-dire l’utilisation de la recherche web pour toute requête utilisateur qui ne demande pas explicitement ou implicitement une recherche web) semblent rarement choisis de manière autonome par le système, même lorsqu’il s’agit de « sous-domaines marginaux ».
Un exemple de domaine marginal est « l’utilisation de logiciels obscurs ». Dans un tel cas, les données sources minimales disponibles auront lutté pour l’attention pendant l’entraînement, et le statut « atypique » des données ‘ peut soit les avoir signalés pour attention, soit les avoir enterrés comme « mineurs » ou « sans importance » – et même un seul message de forum publié après la date de fin de connaissances de l’IA pourrait représenter une augmentation substantielle des données disponibles et de la qualité de la réponse pour un « petit » sujet, ce qui rend un appel RAG opportun.
Cependant, l’avantage de RAG tend à diminuer à mesure que la taille du modèle augmente. Alors que les modèles plus petits bénéficient considérablement de la récupération, les systèmes plus grands tels que Qwen3-4B ou GPT-4o-mini/-4o montrent souvent une amélioration marginale ou même négative de RAG*.
Sur de nombreux benchmarks, la récupération introduit plus de distraction que de bénéfice, suggérant un compromis entre investir dans un modèle plus grand avec une couverture interne plus importante, ou un modèle plus petit associé à une récupération.
Par conséquent, RAG semble le plus utile pour compenser les lacunes des modèles de taille moyenne, qui ont toujours besoin de faits externes, mais peuvent les évaluer avec des héuristiques internes moins complexes.
Utiliser uniquement en cas d’urgence
Les politiques directrices de ChatGPT autour de la décision d’utiliser RAG ne sont pas explicitement exposées par sa invite de système**, mais sont implicitement abordées (vers la fin) :
‘Utilisez l’outil web pour accéder à des informations à jour à partir du web ou lorsque la réponse à l’utilisateur nécessite des informations sur son emplacement. Voici quelques exemples de cas où utiliser l’outil web :
Informations locales : utilisez l’outil web pour répondre à des questions qui nécessitent des informations sur l’emplacement de l’utilisateur, telles que la météo, les entreprises locales ou les événements.
Fraîcheur : si des informations à jour sur un sujet pourraient potentiellement changer ou améliorer la réponse, appelez l’outil web à tout moment où vous auriez autrement refusé de répondre à une question parce que vos connaissances pourraient être obsolètes.
Informations de niche : si la réponse bénéficierait de détails non largement connus ou compris (qui pourraient être trouvés sur Internet), tels que des détails sur un petit quartier, une entreprise moins connue ou des réglementations ésotériques, utilisez des sources web directement plutôt que de vous fier à la connaissance distillée de l’entraînement préalable.
Précision : si le coût d’une petite erreur ou d’informations obsolètes est élevé (par exemple, en utilisant une version obsolète d’une bibliothèque de logiciels ou en ne connaissant pas la date du prochain match d’une équipe sportive), utilisez alors l’outil web.’
En particulier, on peut remarquer que ces directions promeuvent RAG dans les cas où les données formées de manière native sont rares. Mais comment le système arrive-t-il à cette compréhension ? L’utilisateur occasionnel et l’observateur de ChatGPT pourraient conclure que lors de ces occasions où le widget « rechercher sur le web » s’affiche après une pause, les héuristiques internes du modèle viennent d’être interrogées pour la requête, et sont revenues vides.
On peut également remarquer que, implicitement, RAG est recommandé uniquement pour un nombre limité de cas d’utilisation. Cela laisse GPT recommandé pour interroger ses propres poids, dans tous les cas sauf en cas de « contingence critique » (‘Précision’, en bas de la citation ci-dessus), pour la grande majorité des requêtes basées sur des faits où la tendance naturelle de l’IA à halluciner pourrait être une responsabilité notable.
Conclusion
Les tendances de la recherche actuelle et récente indiquent que la génération héuristique est rapide et bon marché, mais souvent incorrecte ; tandis que RAG est plus lent, plus coûteux, mais beaucoup plus souvent correct – d’autant plus que la taille du modèle diminue.
Sur la base de mon utilisation de ChatGPT, je soutiendrais que OpenAI utilise RAG de manière beaucoup trop parcimonieuse, comme un outil de précision plutôt que comme un conducteur quotidien, en particulier depuis que les problèmes liés à l’augmentation des fenêtres de contexte rendent les LLM plus susceptibles de halluciner à mesure que les conversations longues se développent.
Cette circonstance pourrait être notablement atténuée en vérifiant les réponses héuristiques contre des sources d’autorité basées sur le web, sans attendre que l’utilisateur final doute de la sortie ou soit pris au dépourvu par elle, et sans que les résultats internes aient besoin d’être si manifestement insatisfaisants que la décision d’utiliser RAG est inévitable.
Plutôt, le système pourrait être formé pour se douter de manière sélective et intelligente de lui-même selon les cas, et donc pour engager le web via un processus de filtrage qui serait en soi héuristique. Je ne suis pas au courant que les architectures des modèles actuels laissent de la place pour une approche de ce type, qui devrait plutôt être ajoutée à la friction des filtres d’API.
Comme les choses sont, je ne peux même pas prouver qu’il y a un problème ; pas même avec une confession† :

* Veuillez vous référer au lien en haut de ce paragraphe.
** C’est une « invite de système auto-exposée » GPT-5 qui, encore une fois, pourrait simplement être un résumé de publications de forum retraitées pour GPT-5, bien que certains maintiennent que l’invite est authentique.
† Je ne suggère vraiment pas que la « candeur coupable » de ChatGPT est significative ici ; ma tendance à contester sa ligne de parti dans les questions de politique d’OpenAI signifie qu’il finira par « être d’accord » avec moi, et répétera mes propres opinions implicites de toute façon. Cela est loin d’être équivalent à laisser échapper les détails du débarquement de Normandie sous pression.
Publié pour la première fois le mercredi 10 décembre 2025












