Intelligence artificielle

Recherche révèle que les LLM font défaut à une raison simple lorsque la complexité augmente

Published November 25, 2025

Updated April 1, 2026

Alex McFarland

Une équipe de chercheurs a publié une étude complète le 20 novembre analysant plus de 192 000 traces de raisonnement de grands modèles de langage (LLM), révélant que les systèmes d’IA s’appuient sur des stratégies linéaires superficielles plutôt que sur les processus cognitifs hiérarchiques que les humains emploient naturellement.

L’équipe de recherche a examiné 18 modèles différents sur des tâches de raisonnement de texte, de vision et d’audio, en comparant leurs approches avec 54 traces de réflexion humaine collectées spécifiquement pour l’étude. L’analyse a établi une taxonomie de 28 éléments cognitifs qui englobent les contraintes de calcul, les contrôles métacognitifs, les représentations de connaissances et les opérations de transformation – fournissant un cadre pour évaluer non seulement si les modèles produisent des réponses correctes, mais également comment ils parviennent à ces conclusions.

Différences fondamentales dans l’architecture cognitive

Le raisonnement humain démontre régulièrement un emboîtement hiérarchique et un contrôle métacognitif – la capacité de réfléchir et de réguler ses propres processus de pensée. Les humains organisent fluidement les informations en structures imbriquées tout en suivant activement leur progression à travers des problèmes complexes.

Les LLM utilisent principalement une chaîne de raisonnement en avant, passant étape par étape à travers les problèmes sans l’organisation hiérarchique ou l’auto-réflexion qui caractérise la cognition humaine. Cette divergence devient la plus prononcée lorsque les tâches sont mal structurées ou ambigües, où l’adaptabilité humaine surpasse considérablement les approches d’IA.

L’étude a constaté que les modèles de langage possèdent les composants comportementaux associés à un raisonnement réussi, mais échouent souvent à les déployer spontanément. Les performances varient considérablement en fonction du type de problème : le raisonnement dans les dilemmes a montré la plus grande variance, les petits modèles ayant des difficultés importantes, tandis que le raisonnement logique a montré des performances modérées, les plus grands modèles surpassant généralement les plus petits. Les modèles démontrent des faiblesses contre-intuitives, réussissant sur des tâches complexes tout en échouant sur des variantes plus simples.

Améliorations des performances grâce au raisonnement guidé

L’équipe de recherche a développé un guidage de raisonnement à l’époque des tests qui structure automatiquement les structures cognitives réussies, démontrant des améliorations des performances allant jusqu’à 66,7 % sur les problèmes complexes lorsque les modèles sont invités à adopter des approches de raisonnement plus humaines. Cette constatation suggère que les LLM possèdent des capacités latentes pour un raisonnement plus sophistiqué, mais ont besoin d’une orientation explicite pour les employer efficacement.

L’écart entre le raisonnement humain et le raisonnement d’IA s’élargit à mesure que la complexité des tâches augmente. Alors que les modèles peuvent gérer des problèmes simples à l’aide de la chaîne de raisonnement en avant seule, ils luttent avec les stratégies récursives et d’auto-surveillance que les humains déploient naturellement lorsqu’ils sont confrontés à des défis ambigus ou à plusieurs couches.

Le jeu de données public de l’étude fournit une base pour les futures recherches comparant l’intelligence artificielle et l’intelligence humaine. En cartographiant 28 éléments cognitifs distincts, le cadre permet aux chercheurs d’identifier exactement où le raisonnement d’IA se brise, plutôt que de simplement mesurer les scores de précision.

Implications pour le développement de l’IA

Les résultats mettent en évidence une limitation fondamentale dans les systèmes d’IA actuels : l’écart entre la capacité de calcul et la sophistication cognitive réelle. Les modèles formés sur des ensembles de données massifs peuvent correspondre à des modèles pour obtenir des réponses correctes sur de nombreuses tâches, mais manquent de la pensée réflexive et hiérarchique qui caractérise la résolution de problèmes humaine.

Cette recherche s’appuie sur des préoccupations croissantes concernant les limites du raisonnement d’IA identifiées dans plusieurs domaines. L’amélioration des performances du raisonnement guidé suggère que de meilleures stratégies de rappel et de modifications architecturales pourraient aider les modèles à accéder à leurs capacités de raisonnement latentes de manière plus efficace.

La contribution la plus significative de l’étude peut être sa taxonomie détaillée des éléments cognitifs, fournissant aux chercheurs et aux développeurs des cibles spécifiques d’amélioration. Plutôt que de traiter le raisonnement comme une capacité monolithique, le cadre le divise en composants mesurables qui peuvent être abordés individuellement à travers des modifications de formation ou des techniques d’ingénierie de rappel.