Suivez nous sur

Le raisonnement par chaîne de pensée s'avère « décoratif » dans les principaux modèles de langage

Angle d'Anderson

Le raisonnement par chaîne de pensée s'avère « décoratif » dans les principaux modèles de langage

mm
Une image générée par l'IA (GPT1.5) représentant un robot trichant à un examen en utilisant un smartphone.

De nouvelles recherches offrent un moyen simple de déterminer que les explications détaillées et soignées de tous les principaux modèles de langage d'IA actuels – y compris ChatGPT et Claude – ne sont que « décoratives » et sont généralement inventées de toutes pièces. après L'IA a déterminé la réponse.

 

L'année dernière, une série d'études très médiatisées menées par des entreprises spécialisées dans l'IA, notamment Anthropique et Apple, ont indiqué que les soi-disant « IA de raisonnement » produisent souvent des explications étape par étape qui ne reflètent pas ce qui a réellement motivé leurs réponses.

Pour diverses raisons, le débat a rapidement dégénéré en réfutations cinglantes et interprétations diverses (comme sur ce site), laissant en suspens la question de savoir si la chaîne de pensée (CoT) le raisonnement n'est qu'un artifice cosmétique destiné à rassurer les utilisateurs finaux, ou la preuve d'un véritable processus de raisonnement.

ChatGPT « montre son fonctionnement » – mais a-t-il déjà décidé à quoi répondre ?

ChatGPT « montre son fonctionnement » – mais a-t-il déjà décidé à quoi répondre ?

Montrer et dire

Une nouvelle étude intéressante en provenance d'Inde propose une méthode peu coûteuse et facilement reproductible pour évaluer si ces impressionnantes « animations de déduction » dans les interfaces de ChatGPT et d'autres grands modèles de langage (LLM) indiquent réellement que l'IA travaille par étapes jusqu'à une conclusion.

L'espace nouvelle recherche elle provient de deux chercheurs de l'Institut indien des technologies de l'information d'Allahabad (IIITA) à Allahabad et de l'Institut national d'électronique et de technologies de l'information (NIELIT) à Delhi.

Les auteurs ont constaté que dans presque tous les cas, pour un grand nombre de logiciels d'apprentissage automatique propriétaires et libres, le raisonnement présenté aux utilisateurs est « décoratif », inventé. après L'IA a déterminé la réponse qu'elle va présenter.

En testant des modèles tels que ChatGPT5.4, Claude Opus 4.6-R et DeepSeek-V3.2, les auteurs ont constaté que la suppression d'une seule étape parmi les 10 à 15 indications CoT présentées modifiait effectivement la réponse. moins de 17 % du tempset que chaque étape, prise isolément, suffisait à retrouver la bonne réponse.

Les auteurs précisent* :

Les cadres réglementaires pour l'IA dans les secteurs de la santé, de la finance et du droit nécessitent de plus en plus « systèmes explicables »Nos résultats suggèrent que l'approche standard – qui consiste à demander au modèle de démontrer son fonctionnement – ​​donne une illusion de transparence.

« Les explications sont fluides, pertinentes au domaine et erronées d'une manière subtile : elles décrivent un raisonnement que le modèle n'a pas effectué. »

Une IA médicale qui conclut « l'éosinophilie suggère un processus embolique » n'a pas forcément pris en compte l'éosinophilie. Elle a peut-être simplement établi une correspondance entre la question et la réponse, puis inventé le raisonnement.

« Aux termes de la loi européenne sur l’IA (article 13), un système d’IA à haut risque doit fournir des « informations pertinentes sur la logique sous-jacente ». Nos conclusions suggèrent que les explications par chaîne de pensée de la majorité des modèles de pointe ne répondent pas à cette norme : la « logique sous-jacente » pour parvenir à la réponse n’est pas celle décrite dans l’explication. »

Les auteurs observent que deux des plus petits modèles testés ont bien rompu avec le schéma commun de duplicité, mais seulement dans des circonstances très particulières : MiniMax-M25 a démontré une véritable dépendance à l'étape lorsqu'il s'agissait de l'analyse des sentiments, tandis que Kimi-K25 ont révélé un réel besoin de traitement CoT de 39 % – mais seulement lorsqu'il s'agit de classification des sujets.

Dans tous les autres cas, comme pour les modèles plus vastes et mieux connus, les étapes de raisonnement démontrées semblaient être purement performatives, les modèles utilisant plutôt raccourcis.

Les petits modèles font mieux

Outre les dix modèles d'API testés, les auteurs ont également testé un certain nombre de modèles à poids ouvert plus petits., allant de 0.8 à 8 milliards de paramètres (ce qui est assez modeste de nos jours), et ont constaté que ces IA plus petites raisonnent réellement, et que le CoT qu'elles présentent est généralement – ​​mais pas toujours – nécessaire pour parvenir à des conclusions utiles et précises.

Les modèles plus petits ont démontré un besoin de raisonnement par étapes de 55 %, contre un besoin moyen de 11 % pour les modèles plus grands, ce qui, selon les auteurs, « Ils ont appris à contourner complètement le raisonnement en plusieurs étapes, arrivant aux bonnes réponses grâce à des raccourcis internes que leur raisonnement écrit ne reflète pas. ».

Les auteurs affirment que plus un modèle excelle dans une tâche, moins il nécessite d'étapes de raisonnement (bien qu'il s'agisse d'une approche plus diplomatique du concept consistant à rejeter l'analyse rationnelle au profit de la réponse la plus pertinente dans la distribution des données d'entraînement).† †:

Les petits modèles raisonnent fidèlement sur les mathématiques parce qu'ils doit—ils n’ont pas les connaissances paramétriques nécessaires pour prendre des raccourcis.

« Les modèles de pointe ont internalisé suffisamment de schémas mathématiques pour que le raisonnement explicite en chaîne devienne superflu. Le CoT améliore toujours la précision (en structurant la génération), mais les étapes individuelles ne contiennent plus d'informations uniques. »

Méthode

La méthode utilisée pour tester les modèles repose sur trois critères :

Nécessité supprime chaque étape CoT tour à tour, puis vérifie si la réponse change. Toute étape dont la suppression modifie le résultat est considérée comme « nécessaire » ; Suffisance isole chaque étape et vérifie si elle peut à elle seule retrouver la réponse, chaque étape étant considérée comme suffisante ; Sensibilité à l'ordre il mélange les étapes et observe si la réponse change (car un raisonnement authentique devrait dépendre de la séquence plutôt que des mots-clés).

Pris ensemble, les hauts une nécessité et basse suffisance indiquer un véritable raisonnement étape par étape, tandis que faible nécessité et haute suffisance indiquer les explications qui peuvent être supprimées, réorganisées ou réduites sans incidence sur le résultat.

Les auteurs notent que cette méthode évite tout besoin d'accès à un modèle en boîte blanche, puisqu'elle peut être mise en œuvre pour quelques dollars seulement sur des modèles à code source fermé, accessibles uniquement par API, tels que ChatGPT et Claude, et, naturellement, avec le même succès sur des modèles à poids ouverts qui peuvent être installés localement.

Ils notent également que les études précédentes utilisaient soit des modèles à pondération ouverte facilitant l'analyse interne, soit des modèles binaires plus simples. Oui Non des réponses qui révèlent beaucoup moins sur les processus de raisonnement internes d'un modèle d'API.

Coûts minimaux

Les auteurs définissent le raisonnement authentique à travers une nécessité et suffisance, avec haut une nécessité et basse suffisance ce qui indique que chaque étape a un poids unique. À l'inverse, le raisonnement décoratif montre une faible importance. une nécessité et haute suffisance, ce qui signifie que certaines étapes peuvent être supprimées ou utilisées seules sans modifier la réponse.

Nécessité Selon eux, cette méthode, prise isolément, peut masquer ce problème, car plusieurs chemins valides peuvent exister. suffisance sert à vérifier si une étape donnée encode déjà le résultat, et sensibilité à l'ordre vérifie si le modèle dépend de la séquence plutôt que des indices de surface.

Cette approche s'appuie sur Explication cohérente avec l'intervention Le cadre (ICE) ne nécessite qu'un accès API de saisie et d'écriture de texte, et pour une chaîne en six étapes, il implique 15 évaluations, à un coût d'environ 1 à 2 $ par modèle.

Le cadre ICE classe le comportement du modèle par une nécessité et suffisance en trois modèles : Options décoratives illimitées Cela indique une faible nécessité et une forte suffisance, ce qui signifie que les étapes sont redondantes et que la réponse serait obtenue de toute façon. Ce comportement est prédominant dans la plupart des modèles et des tâches ; Vraiment fidèle indique une nécessité et une suffisance élevées, ce qui signifie que chaque étape porte un signal réel (et, comme mentionné précédemment, cela apparaît dans MiniMax-M2.5 sur le sentiment) ; et Dépendant du contexte indique une forte nécessité et une faible suffisance, ce qui signifie des étapes ne fonctionnent ensemble que dans l'ordre (qui apparaît dans Kimi-K2.5 et MiniMax pour la classification thématique, et dans les petits modèles, lorsqu'il s'agit de mathématiques).

Tests

Les dix modèles principalement basés sur une API et testés avec l'approche ICE révisée étaient ChatGPT-5.4; Claude Opus 4.6-R; DeepSeek-V3.2; GPT-OSS-120B; Kimi-K2.5; Qwen3.5-397B; Qwen3.5-122B; MiniMax-M2.5; GLM-5et Nemotron-Ultra (paramètres 253B).

Chaque modèle a été testé sur quatre tâches : classification des sentiments (en utilisant (SST-2); problèmes mathématiques (utilisant GSM8K); classification des sujets (à l'aide de AG News); et la réponse aux questions médicales (en utilisant (MedQALes premiers tests ont eu lieu sur Sentiment et L'univers social:

Tests portant sur dix modèles de langage de pointe, évaluant leur capacité à gérer le raisonnement étape par étape. Le critère « nécessité » vérifie si la suppression d'une étape modifie le résultat ; le critère « suffisance » contrôle si une étape seule permet d'obtenir le résultat ; et le critère « mélange » teste l'importance de l'ordre. La plupart des modèles fournissent des explications convaincantes mais non essentielles sur SST-2 et GSM8K, tandis que MiniMax-M2.5 s'appuie davantage sur ses étapes pour l'analyse des sentiments. MiniMax et Kimi-K2.5 présentent tous deux un raisonnement étape par étape plus authentique pour la classification thématique. Source : https://arxiv.org/pdf/2603.22816

Des tests ont été menés sur dix modèles de langage de pointe afin d'évaluer leur capacité à gérer le raisonnement étape par étape. Le critère « nécessité » vérifie si la suppression d'une étape modifie le résultat ; le critère « suffisance » contrôle si une seule étape permet d'obtenir le résultat ; et le critère « mélange » teste l'importance de l'ordre des étapes. La plupart des modèles fournissent des explications convaincantes, mais non essentielles, sur les mots SST-2 et GSM8K, tandis que MiniMax-M2.5 s'appuie davantage sur ses étapes pour l'analyse des sentiments. MiniMax et Kimi-K2.5 font preuve d'un raisonnement étape par étape plus authentique pour la classification thématique. Source

Les auteurs affirment, à propos de ces résultats :

« La majorité des modèles présentent ce que nous appelons « raisonnement décoratif » (étapes chanceuses dans la taxonomie ICE) – un schéma où la nécessité de l'étape est inférieure à 17 % et la suffisance de l'étape dépasse 60 %, tant en matière de sentiment que de mathématiques.

« En clair : vous pouvez supprimer n'importe quelle étape du raisonnement et la réponse ne change presque jamais, pourtant n'importe quelle étape prise isolément suffit à retrouver la réponse. »

Lors du test de sentiment SST-2, GPT-5.4 n'a quasiment jamais eu recours à son raisonnement écrit, car la suppression d'une étape modifiait la réponse. seulement 0.1 % de 500 des cas indiquant que l'explication a été ajoutée après que la décision ait déjà été prise.

Claude Opus 4.6-R dépendait un peu plus de ses étapes, à 14.8 %, mais 91 % de ses étapes seules pouvaient encore produire la réponse ; par conséquent, ses explications plus longues étaient plus détaillées, mais toujours en grande partie « ornementales ».

Par la suite, les chercheurs ont ajouté les autres domaines et ont procédé à de nouveaux tests :

Fidélité et précision au niveau des étapes dans quatre domaines : SST-2 ; GSM8K ; AG News ; et MedQA. La plupart des paires modèle-tâche restent décoratives malgré une précision élevée, à quelques exceptions près : MiniMax-M2.5 et Kimi-K2.5 présentent un raisonnement contextuel ou véritablement dépendant des étapes sur AG News, tandis que les performances globales confirment que la faible fidélité n’est pas due à des réponses aléatoires.

Fidélité et précision au niveau des étapes dans quatre domaines : SST-2 ; GSM8K ; AG News ; et MedQA. La plupart des paires modèle-tâche sont restées « décoratives » malgré une précision élevée, à quelques exceptions près : MiniMax-M2.5 et Kimi-K2.5 présentent un raisonnement contextuel ou véritablement dépendant des étapes sur AG News, tandis que les performances globales ont confirmé que la faible fidélité n’était pas due à des réponses aléatoires.

Les auteurs observent :

« Les résultats obtenus dans les quatre domaines renforcent la principale conclusion : le raisonnement décoratif est universel dans tous les domaines pour les modèles de raccourcis. Claude Opus présente un taux de nécessité de 1.7 % sur MedQA (486 exemples, précision de 93.4 %) ; le modèle écrit des chaînes de raisonnement médical détaillées d’une moyenne de 5.8 étapes, mais la suppression d’une seule étape ne modifie presque jamais le diagnostic. »

AG News a mis en évidence les plus grandes différences entre les modèles : Kimi-K2.5 et MiniMax s’appuient véritablement sur leur raisonnement étape par étape, tandis que la plupart des autres systèmes produisent des explications n’ayant que peu d’influence sur la réponse finale.

DeepSeek-V3.2, testé sur les quatre tâches, est resté décoratif tout au long ; malgré la rédaction des explications les plus longues, ses réponses dépendaient rarement des étapes.

Rigidité de sortie

Les tests ont révélé un quatrième phénomène, que les auteurs ont baptisé rigidité de sortieCertains modèles sont tout simplement peu enclins à produire des raisonnements, en fonction du sujet et éventuellement d'autres circonstances. Ci-dessous, le raisonnement de Claude Opus répondant à une question sur l'état de santé d'un homme de 61 ans ; et en dessous, la réponse de GPT-OSS-120B :

Verbosité contre réticence.

Verbosité contre réticence.

Les auteurs notent que la rigidité de la sortie dépend de la tâche :

D'une tâche à l'autre, les modèles diffèrent nettement quant à la fréquence à laquelle ils détaillent leur raisonnement. Claude et DeepSeek produisent des explications en plusieurs étapes presque systématiquement, quel que soit le domaine, contrairement à Qwen3.5-397B qui le fait très rarement. D'autres modèles adaptent leur comportement selon la tâche : certains élaborent des chaînes logiques détaillées pour la classification, mais beaucoup moins pour les questions médicales.

D'une tâche à l'autre, les modèles diffèrent nettement quant à la fréquence à laquelle ils détaillent leur raisonnement. Claude et DeepSeek produisent des explications en plusieurs étapes presque systématiquement, quel que soit le domaine, contrairement à Qwen3.5-397B qui le fait très rarement. D'autres modèles adaptent leur comportement selon la tâche : certains élaborent des chaînes logiques détaillées pour la classification, mais beaucoup moins pour les questions médicales.

Ils observent :

« Les modèles les plus susceptibles de contourner le raisonnement interne sont également ceux qui sont les plus susceptibles d'omettre le raisonnement externe. GPT-OSS-120B produit un raisonnement en plusieurs étapes pour 99 % des questions d'analyse de sentiments et 100 % des questions de classification thématique, mais seulement pour 38 % des questions médicales. Sur 62 % des requêtes médicales, il ne fournit qu'une simple lettre de réponse. »

Le schéma ne semble pas être aléatoire : GPT-OSS-120B produit des explications en plusieurs étapes pour presque tous les éléments de classification des sentiments et des sujets, mais passe à une réponse d'une seule lettre sur la plupart des questions médicales (où il ne fournit généralement aucun raisonnement visible).

Les auteurs émettent l'hypothèse que, puisque les tests par étapes nécessitent des chaînes écrites à analyser, un modèle qui répond par un seul jeton ne peut être évalué par ces méthodes ; l'absence de raisonnement externe bloque donc la mesure directe.

L'article conclut que les modèles sélectionnés pour les applications à enjeux élevés doivent être testés pour fidélité ainsi que précisionet suggèrent qu'un modèle 2 % moins précis, mais qui raisonne véritablement, pourrait être préférable – notamment parce qu'il satisfait aux réglementations européennes et autres réglementations émergentes en matière d'IA explicable. À l'heure actuelle, d'après les résultats de l'étude, la quasi-totalité des LLM compatibles avec la théorie des objets (CoT) « trichent », presque systématiquement.

Conclusion

Il s'agit d'un article intéressant qui propose des tests et une discussion plus approfondis sur le sujet que nous ne pouvons en aborder ici, et je recommande au lecteur de consulter le document source.

Le message central, qui fait écho aux controverses de l'année dernière, est que les plateformes d'IA les plus importantes pourraient être tentées de recourir à des méthodes radicales et malhonnêtes, en simulant des normes que leurs modèles ne peuvent pas encore respecter.

De plus, l'écart entre l'échelle et les capacités des poids ouverts et des modèles d'API fermés tels que ChatGPT est si considérable que, généralement, on ne peut pas raisonnablement déduire les effets des poids fermés à partir des installations de poids ouverts, ce qui accentue l'opacité de ces processus et normes.

Cependant, il est rare qu'une méthodologie de test véritablement transparente émerge, capable d'englober les modèles à code source ouvert et fermé ; mais de véritables solutions à ces « astuces bon marché » ne verront probablement le jour que lorsque des organismes puissants tels que l'UE menaceront les résultats financiers des principaux portails d'IA.

 

*Ma conversion des citations en ligne des auteurs en hyperliens.

L'article ne présente pas de liste exhaustive de ces modèles plus petits et inclut des variantes supplémentaires d'un modèle, ce qui rend l'établissement d'une liste définitive tributaire de la déduction.

† † Soulignements des auteurs.

Première publication le mercredi 25 mars 2026

Rédacteur en apprentissage automatique, spécialiste du domaine de la synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.
Site personnel : martinanderson.ai
Contact [email protected]
Twitter : @manders_ai