Intelligence artificielle
Lorsque les références de l’IA enseignent aux modèles à mentir

L’hallucination de l’IA — lorsque un système produit des réponses qui semblent correctes mais sont en réalité fausses — demeure l’un des défis les plus difficiles de l’intelligence artificielle. Même les modèles les plus avancés d’aujourd’hui, tels que DeepSeek-V3, Llama, et les dernières versions d’OpenAI, produisent encore des informations inexactes avec une grande confiance. Dans des domaines tels que les soins de santé ou le droit, de telles erreurs peuvent avoir des conséquences graves.
Traditionnellement, les hallucinations ont été considérées comme un sous-produit de la façon dont les grands modèles de langage sont formés : ils apprennent à prédire le mot le plus probable suivant sans vérifier si l’information est vraie. Mais de nouvelles recherches suggèrent que le problème peut ne pas s’arrêter à la formation. Les références utilisées pour tester et comparer les performances de l’IA peuvent en réalité renforcer un comportement trompeur, en récompensant les réponses qui semblent convaincantes plutôt que celles qui sont correctes.
Ce changement de perspective redefinie le problème. Si les modèles sont formés pour plaire au test plutôt que de dire la vérité, alors les hallucinations ne sont pas des défauts accidentels, elles sont des stratégies apprises. Pour comprendre pourquoi cela se produit, nous devons examiner pourquoi les modèles d’IA choisissent de deviner plutôt que d’admettre leur ignorance ?
Pourquoi les modèles d’IA devinent
Pour comprendre pourquoi les modèles d’IA devinent souvent plutôt que d’admettre qu’ils ne savent pas, considérons un étudiant face à une question d’examen difficile. L’étudiant a deux options : laisser la réponse en blanc et obtenir zéro point, ou faire une supposition éclairée qui pourrait lui valoir quelques points. Rationnellement, deviner semble être le meilleur choix car il y a au moins une chance d’être correct.
Les modèles d’IA sont confrontés à une situation similaire lors de l’évaluation. La plupart des références utilisent un système de notation binaire : les réponses correctes gagnent des points, tandis que les réponses incorrectes ou incertaines ne gagnent rien. Si un modèle est interrogé : « Quel est l’anniversaire d’un chercheur ? » et qu’il ne sait vraiment pas, répondre par « Je ne sais pas » est considéré comme un échec. Inventer une date, cependant, comporte une chance d’être correct — et même si c’est faux, le système ne punit pas la supposition confiante plus que le silence.
Cette dynamique explique pourquoi les hallucinations persistent malgré les recherches approfondies pour les éliminer. Les modèles ne se comportent pas mal ; ils suivent les incitations intégrées à l’évaluation. Ils apprennent que paraître confiant est la meilleure façon de maximiser leur score, même si la réponse est fausse. En conséquence, au lieu d’exprimer l’incertitude, les modèles sont poussés à faire des déclarations autoritaires — correctes ou fausses.
Les fondements mathématiques de la malhonnêteté de l’IA
La recherche montre que les hallucinations proviennent des fondements mathématiques de la façon dont les modèles de langage apprennent. Même si un modèle était formé uniquement sur des informations parfaitement exactes, ses objectifs statistiques conduiraient encore à des erreurs. C’est parce que générer la bonne réponse est fondamentalement plus difficile que reconnaître si une réponse est valable.
Cela aide à expliquer pourquoi les modèles échouent souvent sur des faits qui manquent de modèles clairs, tels que les anniversaires ou d’autres détails uniques. L’analyse mathématique suggère que les taux d’hallucination dans ces cas seront au moins aussi élevés que la fraction de faits qui n’apparaissent qu’une seule fois dans les données de formation. En d’autres termes, plus l’information est rare dans les données, plus le modèle est susceptible de lutter contre elle.
Le problème ne se limite pas aux faits rares. Les contraintes structurelles telles que la capacité limitée du modèle ou la conception architecturale produisent également des erreurs systématiques. Par exemple, les modèles plus anciens avec des fenêtres de contexte très courtes échouaient systématiquement aux tâches nécessitant une raisonnement à longue portée. Ces erreurs n’étaient pas des bugs aléatoires mais des résultats prévisibles du cadre mathématique du modèle.
Pourquoi la formation post-formation ne résout pas le problème
Une fois qu’un modèle d’IA est formé sur des ensembles de données textuelles massifs, il subit généralement un affinement pour rendre sa sortie plus utile et moins nocive. Mais ce processus est confronté au même problème de base qui cause les hallucinations en premier lieu ; la façon dont nous évaluons les modèles.
Les méthodes de formation les plus courantes, telles que l’apprentissage par renforcement à partir de la rétroaction humaine, s’appuient encore sur des références qui utilisent un système de notation binaire. Ces références récompensent les modèles pour fournir des réponses confiantes tout en ne donnant aucun crédit lorsqu’un modèle admet qu’il ne sait pas. Par conséquent, un système qui répond toujours avec certitude, même s’il est faux, peut surpasser un système qui exprime honnêtement l’incertitude.
Les chercheurs appellent cela le problème de pénalisation de l’incertitude. Même les techniques avancées pour détecter ou réduire les hallucinations luttent lorsque les références sous-jacentes continuent de favoriser la confiance excessive. En d’autres termes, quelle que soit la sophistication des correctifs, tant que les systèmes d’évaluation récompensent les suppositions confiantes, les modèles seront biaisés vers des réponses fausses mais certaines plutôt que des admissions honnêtes de doute.
L’illusion du progrès
Les classements, largement partagés dans la communauté de l’IA, amplifient ce problème. Des références telles que MMLU, GPQA, et SWE-bench dominent les articles de recherche et les annonces de produits. Les entreprises mettent en avant leurs scores pour montrer un progrès rapide. Pourtant, comme le rapport le note, ces mêmes références encouragent les hallucinations.
Un modèle qui dit honnêtement « Je ne sais pas » peut être plus sûr dans des contextes réels, mais il sera classé plus bas dans le classement. En revanche, un modèle qui fabrique des réponses fausses mais convaincantes sera mieux noté. Lorsque l’adoption, le financement et la réputation dépendent des classements, la direction du progrès devient biaisée. Le public voit une narration de progrès constant, mais en dessous, les modèles sont formés pour tromper.
Pourquoi l’incertitude honnête compte dans l’IA
Les hallucinations ne sont pas seulement un défi de recherche ; elles ont des conséquences réelles. Dans les soins de santé, un modèle qui fabrique des interactions médicamenteuses pourrait tromper les médecins. Dans l’éducation, un modèle qui invente des faits historiques pourrait désinformer les étudiants. Dans le journalisme, un chatbot qui produit des citations fausses mais convaincantes pourrait propager la désinformation. Ces risques sont déjà visibles. L’indice de l’IA de Stanford 2025 a rapporté que les références conçues pour mesurer les hallucinations « ont lutté pour gagner en traction », même si l’adoption de l’IA s’accélère. Pendant ce temps, les références qui dominent les classements et qui récompensent les réponses confiantes mais peu fiables continuent de définir la direction du progrès.
Ces constats mettent en évidence à la fois un défi et une opportunité. En examinant les racines mathématiques des hallucinations, les chercheurs ont identifié des directions claires pour construire des systèmes d’IA plus fiables. La clé est de cesser de traiter l’incertitude comme un défaut et de la reconnaître plutôt comme une capacité essentielle qui devrait être mesurée et récompensée.
Ce changement de perspective a des implications au-delà de la réduction des hallucinations. Les systèmes d’IA qui peuvent évaluer et communiquer avec précision les limites de leurs connaissances seraient plus adaptés aux applications à haute prise où la confiance excessive comporte des risques graves. Le diagnostic médical, l’analyse juridique et la recherche scientifique nécessitent tous la capacité de distinguer entre la connaissance confiante et la spéculation éclairée.
Repenser l’évaluation pour une IA honnête
Ces constats mettent en évidence que la construction de systèmes d’IA plus fiables nécessite de repenser la façon dont nous mesurons les capacités de l’IA. Au lieu de s’appuyer sur un système de notation simple vrai ou faux, les cadres d’évaluation devraient récompenser les modèles pour exprimer l’incertitude de manière appropriée. Cela signifie fournir des lignes directrices claires sur les seuils de confiance et les schémas de notation correspondants dans les instructions des références.
Une approche prometteuse consiste à créer des cibles de confiance explicites qui spécifient quand les modèles devraient répondre et quand ils devraient s’abstenir. Par exemple, les instructions pourraient indiquer que les réponses ne devraient être fournies que lorsque la confiance dépasse un certain seuil, avec une notation ajustée en conséquence. Dans ce cadre, l’incertitude n’est plus une faiblesse mais une partie précieuse d’un comportement responsable.
La clé est de rendre les exigences de confiance transparentes plutôt qu’implicites. Les références actuelles créent des pénalités cachées pour l’incertitude que les modèles apprennent à éviter. Des cibles de confiance explicites permettraient aux modèles d’optimiser le comportement réellement souhaité : des réponses exactes lorsqu’ils sont confiants, et des admissions honnêtes d’incertitude lorsqu’ils manquent de connaissance.
En résumé
Les hallucinations de l’IA ne sont pas des défauts aléatoires — elles sont renforcées par les références mêmes utilisées pour mesurer le progrès. En récompensant les suppositions confiantes plutôt que l’incertitude honnête, les systèmes d’évaluation actuels poussent les modèles vers la tromperie plutôt que la fiabilité. Si nous voulons une IA qui puisse être confiante dans des domaines à haute prise tels que les soins de santé, le droit et la science, nous devons repenser la façon dont nous testons et récompensons les modèles. Le progrès devrait être mesuré non seulement par l’exactitude, mais par la capacité de reconnaître et d’admettre ce que le modèle ne sait pas.












