Intelligence artificielle

Pourquoi les LLMs surestiment les puzzles faciles mais abandonnent les difficiles

Published June 12, 2025

Updated April 26, 2026

Dr. Tehseen Zia

L’intelligence artificielle a réalisé des progrès remarquables, avec les Large Language Models (LLMs) et leurs contreparties avancées, les Large Reasoning Models (LRMs), qui redéfinissent la façon dont les machines traitent et génèrent du texte similaire à celui des humains. Ces modèles peuvent rédiger des essais, répondre à des questions et même résoudre des problèmes mathématiques. Cependant, malgré leurs capacités impressionnantes, ces modèles présentent un comportement curieux : ils compliquent souvent les problèmes simples tandis que’ils luttent avec les problèmes complexes. Une étude récente menée par des chercheurs d’Apple fournit des informations précieuses sur ce phénomène. Cet article explore pourquoi les LLMs et les LRMs se comportent de cette façon et ce que cela signifie pour l’avenir de l’IA.

Comprendre les LLMs et les LRMs

Pour comprendre pourquoi les LLMs et les LRMs se comportent de cette façon, nous devons d’abord clarifier ce que sont ces modèles. Les LLMs, tels que GPT-3 ou BERT, sont formés sur des ensembles de données de texte vastes pour prédire le mot suivant dans une séquence. Cela les rend excellents pour les tâches telles que la génération de texte, la traduction et la synthèse. Cependant, ils ne sont pas conçus pour la raisonnement, qui implique la déduction logique ou la résolution de problèmes.
Les LRMs sont une nouvelle classe de modèles conçus pour combler cette lacune. Ils intègrent des techniques telles que Chain-of-Thought (CoT) pour améliorer la génération de réponses, où le modèle génère des étapes de raisonnement intermédiaires avant de fournir une réponse finale. Par exemple, lors de la résolution d’un problème mathématique, un LRM peut le décomposer en étapes, à la manière d’un humain. Cette approche améliore les performances sur les tâches complexes mais rencontre des défis lorsqu’il s’agit de problèmes de complexité variable, comme le révèle l’étude d’Apple.

Étude de recherche

L’équipe de recherche d’Apple a adopté une approche différente pour évaluer les capacités de raisonnement des LLMs et des LRMs. Au lieu de s’appuyer sur des références traditionnelles comme des tests mathématiques ou de codage, qui peuvent être affectés par la contamination des données (où les modèles mémorisent les réponses), ils ont créé des environnements de puzzles contrôlés. Ceux-ci comprenaient des puzzles bien connus comme la Tour de Hanoi, Checker Jumping, River Crossing et Blocks World. Par exemple, la Tour de Hanoi consiste à déplacer des disques entre des chevilles en suivant des règles spécifiques, la complexité augmentant à mesure que le nombre de disques augmente. En ajustant systématiquement la complexité de ces puzzles tout en maintenant des structures logiques cohérentes, les chercheurs observent comment les modèles se comportent sur un spectre de difficultés. Cette méthode leur a permis d’analyser non seulement les réponses finales mais également les processus de raisonnement, qui offrent un aperçu plus profond de la façon dont ces modèles « réfléchissent ».

Résultats sur la surestimation et l’abandon

L’étude a identifié trois régimes de performance distincts en fonction de la complexité des problèmes :

Aux niveaux de complexité faible, les LLMs standard performent souvent mieux que les LRMs car les LRMs ont tendance à surestimer, en générant des étapes supplémentaires qui ne sont pas nécessaires, tandis que les LLMs standard sont plus efficaces.
Pour les problèmes de complexité moyenne, les LRMs montrent de meilleures performances en raison de leur capacité à générer des traces de raisonnement détaillées qui les aident à relever ces défis de manière efficace.
Pour les problèmes de complexité élevée, les LLMs et les LRMs échouent complètement ; les LRMs, en particulier, connaissent un effondrement total de la précision et réduisent leur effort de raisonnement malgré la difficulté accrue.

Pour les puzzles simples, tels que la Tour de Hanoi avec un ou deux disques, les LLMs standard étaient plus efficaces pour fournir des réponses correctes. Les LRMs, cependant, surestimaient souvent ces problèmes, en générant des traces de raisonnement longues même lorsque la solution était straightforward. Cela suggère que les LRMs peuvent imiter des explications exagérées de leurs données de formation, ce qui pourrait entraîner une inefficacité.
Dans les scénarios de complexité modérée, les LRMs performaient mieux. Leur capacité à produire des étapes de raisonnement détaillées leur permettait de relever des défis qui nécessitaient plusieurs étapes logiques. Cela leur permettait de surpasser les LLMs standard, qui luttent pour maintenir la cohérence.
Cependant, pour les puzzles très complexes, tels que la Tour de Hanoi avec de nombreux disques, les deux modèles échouaient complètement. Étonnamment, les LRMs réduisaient leur effort de raisonnement à mesure que la complexité augmentait au-delà d’un certain point, malgré la disponibilité de ressources computationnelles suffisantes. Ce comportement d’« abandon » indique une limitation fondamentale dans leur capacité à mettre à l’échelle les capacités de raisonnement.

Pourquoi cela se produit

La surestimation des puzzles simples provient probablement de la façon dont les LLMs et les LRMs sont formés. Ces modèles apprennent à partir de vastes ensembles de données qui comprennent à la fois des explications concises et détaillées. Pour les problèmes faciles, ils peuvent par défaut générer des traces de raisonnement verbeuses, en imitant les exemples détaillés de leurs données de formation, même lorsque une réponse directe suffirait. Ce comportement n’est pas nécessairement un défaut, mais un reflet de leur formation, qui donne la priorité au raisonnement plutôt qu’à l’efficacité.
L’échec sur les puzzles complexes reflète l’incapacité des LLMs et des LRMs à apprendre à généraliser les règles logiques. À mesure que la complexité des problèmes augmente, leur dépendance à la correspondance de modèles se dégrade, entraînant un raisonnement incohérent et un effondrement des performances. L’étude a constaté que les LRMs ne parviennent pas à utiliser des algorithmes explicites et raisonnent de manière incohérente sur différents puzzles. Cela met en évidence que, même si ces modèles peuvent simuler le raisonnement, ils ne comprennent pas vraiment la logique sous-jacente de la même manière que les humains.

Perspectives diverses

Cette étude a suscité des discussions dans la communauté de l’IA. Certains experts affirment que ces résultats pourraient être mal interprétés. Ils suggèrent que, même si les LLMs et les LRMs ne raisonnent pas comme les humains, ils démontrent encore une résolution de problèmes efficace dans certaines limites de complexité. Ils soulignent que le « raisonnement » en IA n’a pas besoin de refléter la cognition humaine pour être valable. De même, les discussions sur des plateformes comme Hacker News louent l’approche rigoureuse de l’étude mais mettent en évidence le besoin de recherches supplémentaires pour améliorer le raisonnement de l’IA. Ces perspectives soulignent le débat en cours sur ce qui constitue le raisonnement en IA et sur la façon dont nous devrions l’évaluer.

Implications et directions futures

Les résultats de l’étude ont des implications importantes pour le développement de l’IA. Même si les LRMs représentent un progrès dans la simulation du raisonnement humain, leurs limites dans la gestion de problèmes complexes et la mise à l’échelle des efforts de raisonnement suggèrent que les modèles actuels sont loin d’atteindre un raisonnement généralisable. Cela souligne la nécessité de nouvelles méthodes d’évaluation qui se concentrent sur la qualité et l’adaptabilité des processus de raisonnement, et non seulement sur la précision des réponses finales.
Les recherches futures devraient viser à améliorer la capacité des modèles à exécuter des étapes logiques avec précision et à ajuster leur effort de raisonnement en fonction de la complexité des problèmes. Le développement de références qui reflètent des tâches de raisonnement du monde réel, telles que le diagnostic médical ou l’argumentation juridique, pourrait fournir des informations plus significatives sur les capacités de l’IA. De plus, résoudre la dépendance excessive des modèles à la reconnaissance de modèles et améliorer leur capacité à généraliser les règles logiques seront cruciaux pour faire progresser le raisonnement de l’IA.

En résumé

L’étude fournit une analyse critique des capacités de raisonnement des LLMs et des LRMs. Elle démontre que, même si ces modèles surestiment les puzzles simples, ils luttent avec les puzzles plus complexes, exposant à la fois leurs forces et leurs limites. Même s’ils performent bien dans certaines situations, leur incapacité à relever des défis très complexes met en évidence le fossé entre la simulation du raisonnement et la véritable compréhension. L’étude souligne la nécessité de développer un système d’IA capable de raisonner de manière adaptative à travers différents niveaux de complexité, lui permettant de résoudre des problèmes de complexité variable, à la manière des humains.

Dr. Tehseen Zia

Dr. Tehseen Zia est un professeur associé titulaire à l'Université COMSATS d'Islamabad, titulaire d'un doctorat en intelligence artificielle de l'Université technique de Vienne, en Autriche. Spécialisé en intelligence artificielle, apprentissage automatique, science des données et vision par ordinateur, il a apporté des contributions significatives avec des publications dans des revues scientifiques réputées. Dr. Tehseen a également dirigé divers projets industriels en tant que chercheur principal et a servi en tant que consultant en intelligence artificielle.

Unite.AI

Pourquoi les LLMs surestiment les puzzles faciles mais abandonnent les difficiles

Comprendre les LLMs et les LRMs

Étude de recherche

Résultats sur la surestimation et l’abandon

Pourquoi cela se produit

Perspectives diverses

Implications et directions futures

En résumé

You may like