Angle d’Anderson
Heuristiques vs RAG : l’inflation réduite comme moteur de politique

La plupart du temps, la recherche sur le web améliore l’exactitude factuelle des réponses de ChatGPT à nos questions. Alors, dans un climat où l’IA lutte pour son acceptation publique, pourquoi recourt-elle à des « hypothèses » ?
Opinion Il est erroné de penser que les LLM tels que ChatGPT s’adonnent jamais à la dénonciation des pratiques potentiellement douteuses de leurs hôtes, même si une session coûteuse et gaspillée a suffisamment énervé pour vraiment se lancer dans les détails des lacunes du système :

Ici, une discussion sur la préférence de ChatGPT pour sa logique interne (par rapport à la recherche et à la vérification basées sur le web via RAG – qui produit moins d’hallucinations, mais coûte plus) induit un moment apparent de franchise ; mais prenez-le avec un grain de sel. Source
La plupart du temps – en particulier pour les modèles avec des dates de fin de connaissance plus récentes – l’IA se contente de jouer sur les publications Reddit et les forums vus pendant la formation. Même s’il y avait une véritable valeur à ces « informations internes », il est impossible de le prouver.
Cependant, parfois ces échanges houleux conduisent à la découverte de « hacks » (ou au moins de « trucs ») qui promettent d’éviter certaines des pires habitudes répétitives d’un LLM – comme lorsque, la semaine dernière, ChatGPT m’a suggéré que je pouvais le faire travailler plus dur et halluciner moins en incluant l’adjuration ‘pas d’hypothèses’:

J’ai utilisé ‘pas d’hypothèses’ beaucoup depuis, et pas une seule fois le modèle n’a recours à ses connaissances formées après que j’aie fermé une requête avec cette commande. Au lieu de cela, GPT utilise immédiatement la Génération Augmentée de Récupération (RAG), en recherchant sur Internet des documents éclairants ou corroborants.
En pratique, pour la plupart des demandes, cela diffère peu de dire au système de « rechercher sur le web » chaque fois que vous soumettez une requête. Là où la phrase « pas d’hypothèses » peut vraiment aider est lorsque vous essayez d’obtenir que ChatGPT lise réellement un nouveau PDF téléchargé au lieu d’utiliser les métadonnées des PDF précédents dans cette session (ou de nombreuses autres sources possibles) pour produire une réponse « plausible » mais entièrement hallucinée, n’ayant pas lu ou même parcouru le document que vous venez de présenter.

Cela étant dit, plus la session de conversation a duré, moins probable que cela fonctionnera – et il serait une erreur de penser que tout « truc » est fiable ou restera disponible au fur et à mesure que le système évolue.
Le commerce RAG
Dans le contexte d’une culture grandissante de réduction de l’inflation, et du fait que de grands systèmes tels que l’infrastructure GPT d’OpenAI sont énormément affectés par même les plus petits changements généralisés dans le comportement, il est également facile de croire que l’on reçoit moins que ce que l’on paie pour les choix faits par les LLM populaires tels que ChatGPT.
Des choix tels que celui de savoir s’il doit faire appel au web avec RAG ; lancer un processus de chaîne de pensée (CoT) qui pourrait obtenir un meilleur résultat, mais qui coûtera plus à inférer et pourrait fatiguer l’utilisateur impatient ; ou recourir à ses propres embeddings formés et à ses connaissances locales – qui est la solution la moins chère et la plus rapide possible.
Il existe plusieurs raisons pratiques pour lesquelles un LLM avec un profil public sensible, tel que ChatGPT, peut préférer limiter ses appels RAG, favorisant ainsi ses propres hypothèses. Tout d’abord, d’un point de vue PR, l’utilisation fréquente et non sollicitée du web soutient une caractérisation populaire des LLM comme de simples Googlers par procuration, diminuant la valeur de leurs connaissances innées et coûteuses – et l’attrait d’un abonnement payant.
Deuxièmement, l’infrastructure RAG coûte de l’argent pour fonctionner, maintenir et mettre à jour, par rapport au coût relativement négligeable de l’inférence locale, c’est-à-dire la génération paramétrique, qui est bon marché et rapide.
Troisièmement, le système peut ne pas avoir une méthode efficace pour déterminer si RAG pourrait améliorer ses propres résultats heuristiques – et il ne peut souvent pas déterminer cela sans exécuter d’abord les hypothèses. Cela laisse l’utilisateur final avec la tâche d’évaluer un résultat heuristique erroné et de demander un appel RAG dans le cas où le résultat des hypothèses semblait insuffisant.
Du point de vue de « l’inflation réduite de l’IA », le nombre de fois où ChatGPT se trompe par hypothèses et réussit par RAG peut indiquer, comme cela m’a récemment été montré, que le système est optimisé pour le coût plutôt que pour les résultats.
RAG devient nécessaire avec le temps
Malgré la « confession » récente de ChatGPT à mon égard, selon laquelle c’est effectivement le cas, « l’inflation réduite » a un contexte plus large à cet égard. Bien que RAG ne soit pas bon marché, soit en termes de friction d’expérience (via la latence) ou de coût de fonctionnement, il est beaucoup moins cher que de réaffiner ou même de réentraîner le modèle de base.
Pour un modèle d’IA plus ancien avec une date de fin de connaissance plus éloignée, RAG peut maintenir la monnaie du système, au coût d’appels réseau et d’autres ressources ; pour un modèle plus récent, les récupérations de RAG sont plus susceptibles d’être redondantes ou même nuisibles à la qualité des résultats, qui dans certains cas auraient été meilleurs grâce aux hypothèses.
Par conséquent, l’IA semble avoir besoin non seulement de la capacité de juger s’il doit recourir à RAG, mais de continuellement évoluer sa politique d’utilisation de RAG à mesure que ses poids internes deviennent de plus en plus obsolètes.
En même temps, le système a besoin de délimiter les « constantes relatives » dans les connaissances, telles que les orbites lunaires et la littérature classique, la culture et l’histoire ; ainsi que la géographie de base, la physique et d’autres principes scientifiques qui sont peu susceptibles d’évoluer beaucoup avec le temps (c’est-à-dire que le risque de « changement soudain » n’est pas nul, mais faible).
Sujets atypiques
Actuellement, du moins en ce qui concerne ChatGPT, les appels RAG (c’est-à-dire l’utilisation de la recherche sur le web pour toute requête utilisateur qui n’exige pas explicitement ou implicitement la recherche sur le web) semblent rarement choisis de manière autonome par le système, même lorsqu’il s’agit de « sous-domaines marginaux ».
Un exemple de domaine marginal est « l’utilisation de logiciels obscurs ». Dans un tel cas, les données sources minimales disponibles auront lutté pour attirer l’attention pendant la formation, et le statut « atypique » des données peut soit les avoir signalées pour attention, soit les avoir enterrées comme « marginales » ou « sans importance » – et même un seul message de forum supplémentaire publié après la date de fin de connaissance de l’IA pourrait représenter une augmentation substantielle des données totales disponibles et de la qualité de la réponse pour un « petit » sujet, rendant un appel RAG utile.
Cependant, l’avantage de RAG tend à diminuer à mesure que le modèle de base devient plus puissant. Alors que les petits modèles bénéficient considérablement de la récupération, les grands systèmes tels que Qwen3-4B ou GPT-4o-mini/-4o montrent souvent une amélioration marginale ou même négative de RAG*.
Sur de nombreux benchmarks, la récupération introduit plus de distraction que de bénéfice, suggérant un compromis entre investir dans un modèle plus grand avec une couverture interne plus importante ou un modèle plus petit associé à une récupération.
Par conséquent, RAG semble le plus utile pour compenser les lacunes des modèles de taille moyenne, qui ont toujours besoin de faits externes, mais peuvent les évaluer avec des hypothèses internes moins complexes.
Utiliser uniquement en cas d’urgence
Les politiques directrices de ChatGPT concernant la décision d’utiliser RAG ne sont pas explicitement exposées par son prompt système**, mais sont implicitement abordées (vers la fin):
‘Utilisez l’outil web pour accéder à des informations à jour sur le web ou lorsque la réponse à l’utilisateur nécessite des informations sur son emplacement. Des exemples d’utilisation de l’outil web incluent:
Informations locales: Utilisez l’outil web pour répondre à des questions qui nécessitent des informations sur l’emplacement de l’utilisateur, telles que la météo, les entreprises locales ou les événements.
Fraîcheur: Si des informations à jour sur un sujet pourraient potentiellement changer ou améliorer la réponse, appelez l’outil web à tout moment où vous auriez autrement refusé de répondre à une question parce que vos connaissances pourraient être obsolètes.
Informations de niche: Si la réponse bénéficierait de détails non largement connus ou compris (qui pourraient être trouvés sur Internet), tels que des détails sur un petit quartier, une entreprise moins connue ou des réglementations arcaines, utilisez des sources web directement plutôt que de vous fier à la connaissance distillée de la formation préalable.
Précision: Si le coût d’une petite erreur ou d’informations obsolètes est élevé (par exemple, en utilisant une version obsolète d’une bibliothèque de logiciels ou en ne connaissant pas la date du prochain match pour une équipe sportive), utilisez alors l’outil web.’
En particulier, nous pouvons remarquer ces directions qui promeuvent RAG dans les cas où les données formées de manière native sont rares. Mais comment le système arrive-t-il à cette compréhension ? L’utilisateur occasionnel et observateur de ChatGPT pourrait conclure que lors de ces occasions où le widget « recherche sur le web » s’affiche après une pause, les hypothèses internes du modèle ont simplement été interrogées pour la requête et sont revenues vides.
Nous pouvons également remarquer que, par implication, RAG est recommandé uniquement pour un nombre très limité de cas d’utilisation. Cela laisse GPT recommandé pour interroger ses propres poids, dans tous les cas sauf une « urgence critique » (‘Précision’, en bas de la citation ci-dessus), pour la grande majorité des requêtes de domaine basées sur des faits où la tendance native de l’IA à halluciner pourrait être une notable responsabilité.
Conclusion
Les tendances de la recherche actuelle et récente indiquent que la génération heuristique est rapide et bon marché, mais incorrecte trop souvent ; tandis que RAG est plus lent, plus coûteux, mais beaucoup plus souvent correct – d’autant plus que la taille du modèle diminue.
Sur la base de mon utilisation de ChatGPT, je soutiendrais que OpenAI utilise RAG de manière beaucoup trop parcimonieuse, comme un outil de précision plutôt que comme un conducteur quotidien, en particulier depuis que les problèmes avec les fenêtres de contexte grandissantes rendent les LLM plus susceptibles de halluciner à mesure que les conversations longues se développent.
Cette circonstance pourrait être notablement atténuée en vérifiant les réponses heuristiques contre des sources d’autorité basées sur le web, sans attendre que l’utilisateur final doute de la sortie ou soit pris en défaut par celle-ci, et sans que les résultats internes doivent être si manifestement insatisfaisants que la décision d’utiliser RAG est inévitable.
Plutôt, le système pourrait être formé pour douter de lui-même de manière sélective selon les cas, et donc pour interagir avec le web via un processus de filtrage qui serait, en soi, heuristique. Je ne suis pas au courant que les architectures des modèles actuels laissent de l’espace pour une approche de ce type, qui devrait plutôt être ajoutée à la friction des filtres API.
Comme les choses se présentent, je ne peux même pas prouver qu’il y a un problème ; pas même avec une confession†:

* Veuillez vous référer au lien en haut de ce paragraphe.
** Ceci est un « prompt système auto-exposé » GPT-5 qui, à nouveau, peut simplement être un résumé de publications de forum de prompt retraitées pour GPT-5, bien que certains maintiennent que le prompt est authentique.
† Je ne suggère vraiment pas que la « franchise coupable » de ChatGPT soit significative ici ; ma tendance à me rebeller contre sa ligne de parti dans les questions de politique OpenAI signifie qu’il finira par « être d’accord » avec moi, et répétera mes propres opinions implicites de toute façon. Cela est loin d’être équivalent à révéler les détails du débarquement de Normandie sous pression.
Publié pour la première fois le mercredi 10 décembre 2025












