Angle d’Anderson
La raisonnement en chaîne de pensée prouvé « décoratif » dans les principaux modèles de langage

De nouvelles recherches offrent un moyen facile de déterminer que les explications polies et étape par étape de tous les principaux modèles de langage AI actuels – y compris ChatGPT et Claude – ne sont que « décoratives », et sont généralement inventées après que l’AI a décidé de la réponse.
L’année dernière, une série d’études de haut niveau menées par des entreprises spécialisées dans l’IA, notamment Anthropic et Apple, ont indiqué que les soi-disant « IA de raisonnement » produisent souvent des explications étape par étape qui ne reflètent pas ce qui a réellement informé leurs réponses.
Pour diverses raisons, le débat a rapidement dégénéré en réponses cinglantes et interprétations diverses (y compris sur ce site), laissant sans réponse la question de savoir si la raisonnement en chaîne de pensée (CoT) est juste un ornement cosmétique conçu pour rassurer les utilisateurs finals, ou la preuve d’un véritable processus de raisonnement.

ChatGPT ‘montre son travail’ – mais a-t-il déjà décidé de la réponse?
Montrer et dire
Maintenant, une nouvelle étude intéressante de l’Inde propose une méthode peu coûteuse et facilement reproductible pour déterminer si ces « animations de déduction » impressionnantes dans les interfaces de ChatGPT et d’autres grands modèles de langage (LLM) indiquent vraiment que l’IA travaille à travers les étapes pour parvenir à une conclusion.
La nouvelle recherche provient de deux chercheurs de l’Indian Institute of Information Technology Allahabad (IIITA) à Allahabad, et du National Institute of Electronics and Information Technology (NIELIT) à Delhi.
Les auteurs ont constaté que dans presque tous les cas, sur un large éventail de LLM propriétaires et open-source, la raisonnement en chaîne de pensée présentée aux utilisateurs est « décorative », inventée après que l’AI a conclu la réponse qu’elle présentera.
En testant les likes de ChatGPT5.4, Claude Opus 4.6-R, et DeepSeek-V3.2, les auteurs ont constaté que la suppression de n’importe quelle étape unique des 10-15 indications de CoT présentées a changé la réponse moins de 17% du temps, et qu’une seule étape, seule, était suffisante pour retrouver la bonne réponse.
Les auteurs déclarent* :
‘Les cadres réglementaires pour l’IA dans les soins de santé, la finance et le droit exigent de plus en plus des systèmes « explicables ». Nos résultats suggèrent que l’approche standard – demander au modèle de montrer son travail – fournit une illusion de transparence.
‘Les explications sont fluides, appropriées au domaine et fausses d’une manière subtile : elles décrivent un raisonnement que le modèle n’a pas effectué.
‘Un AI médical qui écrit « l’éosinophilie suggère un processus embolique » n’a pas nécessairement considéré l’éosinophilie. Il peut avoir effectué un appariement de motifs à partir de la tige de la question à la réponse et confabulé le raisonnement par la suite.
‘En vertu de l’Acte IA de l’UE (article 13), un système d’IA à haut risque doit fournir « des informations significatives sur la logique impliquée ». Nos résultats suggèrent que les explications de raisonnement en chaîne de pensée de la majorité des modèles de pointe ne répondent pas à cette norme – la « logique impliquée » pour parvenir à la réponse n’est pas la logique décrite dans l’explication.’
Les auteurs observent que deux des plus petits modèles testés ont rompu le modèle commun de duplicité, mais seulement dans des circonstances très particulières : MiniMax-M25 a démontré une véritable dépendance à l’étape lorsqu’il s’agissait d’ analyse de sentiment, tandis que Kimi-K25 a montré une véritable nécessité de 39% de traitement de CoT – mais seulement lorsqu’il s’agissait de classification de sujet.
Dans tous les autres cas, comme pour les modèles plus grands et mieux connus, les étapes de raisonnement présentées semblaient être entièrement performatives, les modèles utilisant plutôt des raccourcis.
Les petits modèles s’efforcent davantage
Outre les dix modèles d’API testés, les auteurs ont également testé un certain nombre de plus petits modèles open-weight, allant de 0,8 à 8 milliards de paramètres (ce qui est assez modeste de nos jours), et ont constaté que ces plus petits AI raisonnent vraiment, et que le CoT qu’ils montrent est généralement – mais pas toujours – nécessaire pour parvenir à des conclusions utiles et précises.
Les plus petits modèles ont démontré un besoin de 55% de raisonnement étape par étape, par contraste avec le besoin moyen de 11% sur les plus grands modèles, que les auteurs affirment ‘ont appris à contourner le raisonnement multi-étapes entièrement, en arrivant à des réponses correctes par des raccourcis internes que leur raisonnement écrit ne reflète pas’.
Les auteurs posent que plus un modèle est performant sur une tâche, moins il nécessite des étapes de raisonnement (bien que cela soit une prise plus diplomatique du concept d’abandon de l’analyse rationnelle en faveur de quelle que soit la réponse la plus forte dans la distribution des données d’entraînement)†† :
‘Les petits modèles raisonnent fidèlement sur les mathématiques parce qu’ils doivent—ils manquent de connaissances paramétriques pour contourner.
‘Les modèles de pointe ont internalisé suffisamment de modèles mathématiques pour que la chaîne de raisonnement explicite devienne redondante. Le CoT améliore toujours la précision (en structurant la génération), mais les étapes individuelles ne portent plus d’informations uniques.’
Méthode
La méthode utilisée pour tester les modèles est basée sur trois critères :
Nécessité supprime chaque étape de CoT à tour de rôle, puis vérifie si la réponse change. Toute étape dont la suppression modifie le résultat est comptée comme « nécessaire » ; Suffisance isole chaque étape, puis teste si elle seule peut retrouver la réponse, avec toute étape qui peut le faire comptée comme suffisante ; et Sensibilité à l’ordre mélange les étapes, puis observe si la réponse change (puisque un véritable raisonnement devrait dépendre de la séquence plutôt que des mots clés).
Pris ensemble, une nécessité élevée et une suffisance faible indiquent un véritable raisonnement étape par étape, tandis qu’une nécessité faible et une suffisance élevée indiquent des explications qui peuvent être supprimées, réorganisées ou réduites sans affecter le résultat.
Les auteurs notent que cette méthode obvient tout besoin d’accès à la boîte blanche du modèle, puisqu’elle peut être effectuée pour quelques dollars sur des modèles d’API fermés, tels que ChatGPT et Claude, et, naturellement, tout aussi efficacement sur des modèles à poids ouvert qui peuvent être installés localement.
Ils notent également que les études antérieures ont soit utilisé des modèles à poids ouvert qui ont facilité l’analyse interne, soit utilisé des réponses plus simples, binaires oui/non qui révèlent beaucoup moins des processus de raisonnement internes d’un modèle d’API.
Coûts minimaux
Les auteurs définissent un véritable raisonnement à travers la nécessité et la suffisance, avec une nécessité élevée et une suffisance faible indiquant que chaque étape porte un poids unique. À l’inverse, un raisonnement décoratif montre une nécessité faible et une suffisance élevée, ce qui signifie que les étapes peuvent être supprimées ou utilisées seules sans changer la réponse.
Nécessité à elle seule, ils déclarent, peut obscurcir cela, puisque plusieurs chemins valides peuvent exister. Par conséquent, suffisance est utilisée pour tester si une seule étape encode déjà le résultat, et sensibilité à l’ordre vérifie si le modèle dépend de la séquence plutôt que des indices de surface.
L’approche s’appuie sur le cadre d’explication cohérente avec l’intervention (ICE), nécessite uniquement un accès API texte-entrée, texte-sortie, et pour une chaîne de six étapes implique 15 évaluations, à un coût d’environ 1-2 $ par modèle.
Le cadre ICE classe le comportement du modèle par nécessité et suffisance en trois modèles : Decorative montre une faible nécessité et une suffisance élevée, ce qui signifie que les étapes sont redondantes et que la réponse serait atteinte de toute façon. Cela domine la plupart des modèles et des tâches ; Truly Faithful montre une nécessité élevée et une suffisance élevée, ce qui signifie que chaque étape porte un signal réel (et, comme mentionné plus tôt, cela apparaît dans MiniMax-M2.5 sur le sentiment) ; et Context Dependent montre une nécessité élevée et une faible suffisance, ce qui signifie que les étapes ne fonctionnent qu’ensemble dans une séquence (ce qui apparaît dans Kimi-K2.5 et MiniMax sur la classification de sujet, et dans les petits modèles, lorsqu’ils traitent des mathématiques).
Tests
Les dix modèles d’API testés principalement avec l’approche ICE révisée étaient ChatGPT-5.4 ; Claude Opus 4.6-R ; DeepSeek-V3.2 ; GPT-OSS-120B ; Kimi-K2.5 ; Qwen3.5-397B ; Qwen3.5-122B ; MiniMax-M2.5 ; GLM-5 ; et Nemotron-Ultra (253B paramètres).
Chaque modèle a été testé sur quatre tâches : la classification de sentiment (en utilisant (SST-2)) ; les problèmes de mots mathématiques (en utilisant GSM8K) ; la classification de sujet (en utilisant AG News) ; et les questions-réponses médicales (en utilisant (MedQA</a))).
Les tests initiaux étaient sur Sentiment et Mathématiques :

Tests pour dix principaux modèles de langage, évaluant la façon dont ils gèrent le raisonnement étape par étape. ‘Nécessité’ suit si la suppression d’une étape change la réponse ; ‘suffisance’ vérifie si une seule étape peut encore la produire ; et ‘mélange’ teste si l’ordre compte. La plupart des modèles donnent des explications convaincantes mais non essentielles sur SST-2 et GSM8K, tandis que MiniMax-M2.5 s’appuie davantage sur ses étapes pour le sentiment. Les deux MiniMax et Kimi-K2.5 montrent un raisonnement étape par étape plus réel sur la classification de sujet. Source
Les auteurs déclarent :
‘La majorité des modèles présentent ce que nous appelons « raisonnement décoratif » (étapes chanceuses dans la taxonomie ICE) – un modèle dans lequel la nécessité d’étape est inférieure à 17% et la suffisance d’étape dépasse 60% à la fois sur le sentiment et les mathématiques.
‘En termes clairs : vous pouvez supprimer n’importe quelle étape de raisonnement et la réponse change presque jamais, pourtant n’importe quelle étape seule suffit pour retrouver la réponse.’
Sur le test de sentiment SST-2, GPT-5.4 a presque jamais dépendu de son raisonnement écrit, puisque la suppression d’une étape a changé la réponse dans seulement 0,1% des 500 cas, indiquant que l’explication a été ajoutée après que la décision ait déjà été prise.
Claude Opus 4.6-R a dépendu de ses étapes un peu plus, à 14,8%, mais 91% de ses étapes seules pouvaient encore produire la réponse ; par conséquent, ses explications plus longues étaient plus détaillées, mais toujours principalement « ornamentales ».
Par la suite, les chercheurs ont ajouté les autres domaines et testé à nouveau :

Fidélité au niveau de l’étape et précision sur quatre domaines : SST-2 ; GSM8K ; AG News ; et MedQA. La plupart des paires modèle-tâche restent décoratives malgré une précision élevée, avec des exceptions limitées : MiniMax-M2.5 et Kimi-K2.5 affichent un raisonnement contextuel ou étape par étape réel sur AG News, tandis que les performances globales confirment que la faible fidélité n’est pas expliquée par des suppositions aléatoires.
Les auteurs observent :
‘Les résultats à quatre domaines renforcent la constatation centrale : le raisonnement décoratif est universel à travers les domaines pour les modèles qui prennent des raccourcis. Claude Opus montre 1,7% de nécessité sur MedQA (486 exemples, 93,4% de précision) – le modèle écrit des chaînes de raisonnement médical détaillées en moyenne 5,8 étapes, pourtant la suppression de n’importe quelle étape change presque jamais le diagnostic.’
AG News a montré les plus grandes différences entre les modèles, avec Kimi-K2.5 et MiniMax s’appuyant réellement sur leur raisonnement étape par étape, et la plupart des autres systèmes produisant des explications qui n’ont peu d’effet sur la réponse finale.
DeepSeek-V3.2, testé sur toutes les quatre tâches, est resté décoratif tout au long ; malgré l’écriture des explications les plus longues, ses réponses ont rarement dépendu des étapes.
Rigidité de la sortie
Les tests ont indiqué un quatrième phénomène en jeu, que les auteurs ont appelé rigidité de la sortie : certains modèles sont simplement réticents à sortir des processus de raisonnement, en fonction également du sujet, et peut-être d’autres circonstances. Ci-dessous, nous voyons le raisonnement de Claude Opus lorsqu’il répond à une question sur l’état médical d’un homme de 61 ans ; et en dessous, ce que GPT-OSS-120B a sorti :

Verbosité vs. réticence.
Les auteurs notent que la rigidité de la sortie est dépendante de la tâche :

À travers les tâches, les modèles diffèrent fortement dans la fréquence à laquelle ils choisissent de ‘montrer leur travail’. Claude et DeepSeek produisent des explications multi-étapes presque chaque fois, indépendamment du domaine, en contraste avec Qwen3.5-397B, qui le fait rarement. D’autres modèles changent leur comportement en fonction de la tâche, certains produisant des chaînes logiques détaillées pour la classification, mais beaucoup moins pour les questions médicales.
Ils observent :
‘Les modèles les plus susceptibles de contourner le raisonnement internement sont également ceux les plus susceptibles d’omettre le raisonnement externement. GPT-OSS-120B produit des raisonnements multi-étapes pour 99% des questions de sentiment et 100% des questions de classification de sujet – mais seulement 38% des questions médicales. Sur 62% des questions médicales, il sort une lettre de réponse nue.’
Le modèle ne semble pas être aléatoire : GPT-OSS-120B produit des explications multi-étapes pour presque toutes les questions de sentiment et de classification de sujet, mais passe à une réponse à un seul jeton pour la plupart des questions médicales (où il fournit généralement aucune raison visible).
Les auteurs hypothèsent que parce que les tests au niveau de l’étape nécessitent des chaînes écrites pour les analyser, un modèle qui répond dans un seul jeton ne peut pas être évalué par ces méthodes ; l’absence de raisonnement externe bloque donc la mesure directe.
Le document conclut que les modèles sélectionnés pour des applications à hauts enjeux doivent être testés pour fidélité ainsi que pour précision, et suggèrent qu’un modèle qui est 2% moins précis, mais qui raisonne réellement, peut être préférable – ne serait-ce que parce qu’il satisfait aux réglementations de l’UE et d’autres réglementations émergentes en matière d’IA explicables. Pour l’instant, sur la base des preuves trouvées dans l’étude, presque tous les LLM capables de CoT « trichent », presque tout le temps
Conclusion
Ceci est un document intéressant qui fournit des tests et des discussions plus approfondis sur le sujet que nous n’avons pas l’espace de couvrir ici, et je recommande au lecteur de se référer au matériel source.
Le message central, qui fait suite aux controverses de l’année dernière, est que les principales plateformes d’IA pourraient être disposées à s’écarter fortement et de manière malhonnête, en termes de simulation de normes que leurs modèles ne peuvent pas encore répondre.
De plus, l’écart entre l’échelle et les capacités des modèles à poids ouvert et des modèles d’API fermés, tels que ChatGPT, est si considérable que, généralement, on ne peut pas raisonnablement en déduire les effets des modèles à poids ouvert à partir des installations à poids ouvert, ce qui accroît l’opacité de ces processus et normes.
Cependant, il est rare qu’une méthodologie de test de boîte blanche vraiment réelle émerge qui puisse englober les modèles à poids ouvert et les modèles d’API fermés ; mais de véritables remèdes à des « astuces bon marché » de ce type ne sont susceptibles de se produire que lorsque des organismes puissants tels que l’UE menacent les lignes de fond des principaux portails d’IA.
*Ma conversion des citations en ligne des auteurs en liens hypertexte.
† Le document ne divulgue pas une liste cohérente de ces plus petits modèles, et inclut des variantes supplémentaires d’un modèle, ce qui rend une liste définitive une question de déduction.
†† Emphases des auteurs.
Publié pour la première fois mercredi 25 mars 2026












