Intelligence artificielle

La Fin de la Chaîne de Pensée ? CoreThink et les Chercheurs de l’Université de Californie Proposent un Changement de Paradigme dans le Raisonnement de l’IA

mm

Depuis des années, la course dans l’intelligence artificielle a été axée sur l’échelle. Des modèles plus grands, plus de GPU, des invites plus longues. OpenAI, Anthropic et Google ont mené la charge avec des modèles de langage à grande échelle (LLM), un affinage par apprentissage par renforcement et une invitation de chaîne de pensée – des techniques conçues pour simuler le raisonnement en écrivant des réponses étape par étape.

Mais un nouveau document technique intitulé CoreThink: Une Couche de Raisonnement Symbolique pour raisonner sur des Tâches à Long Horizon avec des LLM des chercheurs de CoreThink AI et de l’Université de Californie soutiennent que ce paradigme peut atteindre son plafond. Les auteurs font une affirmation provocante : les LLM sont des générateurs de texte statistiques puissants, mais ils ne sont pas des moteurs de raisonnement. Et la chaîne de pensée, la méthode la plus souvent utilisée pour suggérer le contraire, est plus un théâtre de performance que une logique réelle.

En réponse, l’équipe présente General Symbolics, une couche de raisonnement neuro-symbolique conçue pour être intégrée aux modèles existants. Leurs évaluations montrent des améliorations dramatiques dans une large gamme de benchmarks de raisonnement – réalisées sans réentraînement ni coût supplémentaire de GPU. Si cette approche est validée, elle pourrait marquer un tournant dans la conception des systèmes d’IA pour la logique et la prise de décision.

Qu’est-ce que la Chaîne de Pensée — et Pourquoi Elle Est Importante

La chaîne de pensée (CoT) est devenue l’une des techniques les plus largement adoptées dans l’IA moderne. En demandant à un modèle d’écrire ses étapes de raisonnement avant de fournir une réponse, les chercheurs ont constaté qu’ils pouvaient souvent améliorer les scores de benchmark dans des domaines tels que les mathématiques, la programmation et la planification. En surface, cela semblait être une avancée.

Cependant, le rapport souligne les limites de cette approche. Les explications de CoT peuvent paraître convaincantes, mais les études montrent qu’elles sont souvent infidèles à ce que le modèle a réellement calculé, rationalisant les sorties après coup plutôt que de révéler une logique réelle. Cela crée des risques réels. En médecine, un récit plausible peut masquer une dépendance à des corrélations erronées, conduisant à des diagnostics dangereux. En droit, des rationalisations fabriquées pourraient être prises pour de véritables justifications, menaçant le processus équitable et la responsabilité.

Le document met également en évidence l’inefficacité : les chaînes de CoT s’allongent souvent excessivement sur des problèmes simples, tandis que sur des problèmes complexes, elles s’effondrent en un raisonnement superficiel. Le résultat est un gaspillage de calcul et, dans de nombreux cas, une précision réduite. Les auteurs concluent que la chaîne de pensée est « performative, et non mécanique » – une présentation de surface qui crée l’illusion d’interprétabilité sans la fournir.

L’IA Symbolique : des Rêves Anciens aux Nouvelles Révivals

La critique de CoT invite à regarder en arrière l’histoire de l’IA symbolique. Dans ses premières décennies, la recherche en IA tournait autour de systèmes basés sur des règles qui codifiaient les connaissances sous forme logique explicite. Des systèmes experts comme MYCIN ont tenté de diagnostiquer des maladies en appliquant des règles créées à la main, et des systèmes de détection de fraude ont compté sur d’immenses ensembles de logique pour détecter les anomalies.

L’IA symbolique avait des forces indéniables : chaque étape de son raisonnement était transparente et traçable. Mais ces systèmes étaient fragiles. Encoder des dizaines de milliers de règles nécessitait un travail immense, et ils ont lutté face à des situations nouvelles. Les critiques comme Hubert Dreyfus ont soutenu que l’intelligence humaine dépend de connaissances tacites et de contexte qui ne peuvent être capturées par aucun ensemble de règles. À la fin des années 1990, les approches symboliques ont cédé la place aux réseaux de neurones basés sur les données.

Ces dernières années, il y a eu un effort renouvelé pour combiner les forces des deux mondes à travers l’IA neuro-symbolique. L’idée est simple : laisser les réseaux de neurones gérer les entrées perceptuelles désordonnées comme les images ou le texte, tandis que les modules symboliques fournissent un raisonnement structuré et des garanties logiques. Mais la plupart de ces hybrides ont lutté pour intégrer. Les backbones symboliques étaient trop rigides, tandis que les modules neuronaux ont souvent sapé la cohérence. Le résultat était des systèmes complexes et lourds qui n’ont pas fourni l’interprétabilité promise.

General Symbolics : Une Nouvelle Couche de Raisonnement

Le General Symbolics Reasoner (GSR) de CoreThink vise à surmonter ces limites avec une approche différente. Au lieu de traduire le langage en structures formelles rigides ou en embeddings à haute dimension, le GSR opère entièrement dans le langage naturel lui-même. Chaque étape de raisonnement est exprimée en mots, garantissant que le contexte, la nuance et la modalité sont préservés. Cela signifie que des différences comme « doit » versus « devrait » sont conservées tout au long du processus de raisonnement, plutôt que d’être abstraites.

Le cadre fonctionne en analysant les entrées de manière native en langage naturel, en appliquant des contraintes logiques à travers des transformations linguistiques et en produisant des traces de raisonnement verbatim qui restent entièrement lisibles par l’homme. Lorsque des contradictions ou des erreurs apparaissent, elles sont mises en surface directement dans le chemin de raisonnement, permettant la transparence et le débogage. Pour rester efficace, le système élimine les étapes inutiles, permettant un raisonnement stable à long horizon sans mise à l’échelle de GPU.

Puisqu’il agit comme une couche et non comme un retraitement, le GSR peut être appliqué aux modèles de base existants. Dans les évaluations, il a constamment fourni des améliorations de précision de 30 à 60 pour cent à travers les tâches de raisonnement, le tout sans augmenter les coûts de formation.

Résultats des Benchmark

Les améliorations sont les mieux illustrées à travers les benchmarks. Sur LiveCodeBench v6, qui évalue les problèmes de codage de compétition, CoreThink a atteint un taux de passage de 66,6 pour cent – nettement supérieur aux modèles leaders de sa catégorie. Sur SWE-Bench Lite, un benchmark pour la correction de bogues du monde réel tiré des référentiels GitHub, le système a atteint une précision de 62,3 pour cent, le résultat le plus élevé jamais signalé. Et sur ARC-AGI-2, l’un des tests les plus exigeants de raisonnement abstrait, il a obtenu 24,4 pour cent, dépassant largement les modèles de pointe comme Claude et Gemini, qui restent en dessous de 6 pour cent.

Ces chiffres reflètent plus que la précision brute. Dans des études de cas détaillées, la couche symbolique a permis aux modèles d’agir différemment. Dans le ColumnTransformer de scikit-learn, par exemple, un modèle de base a proposé un correctif superficiel qui a masqué l’erreur. Le système augmenté de CoreThink a identifié le problème de synchronisation à la racine et l’a résolu de manière complète. Sur un défi difficile de LeetCode, le modèle de base a mal appliqué la programmation dynamique et a échoué, tandis que la couche de raisonnement symbolique a corrigé la représentation d’état erronée et a produit une solution fonctionnelle.

Comment Elle S’inscrit dans la Révolution Symbolique

General Symbolics rejoint un mouvement croissant d’efforts pour ramener la structure dans le raisonnement de l’IA. L’IA symbolique classique a montré la valeur de la transparence, mais ne pouvait pas s’adapter à la nouveauté. Les hybrides neuro-symboliques traditionnels ont promis un équilibre, mais ont souvent été encombrants. Les piles de planificateurs qui ont ajouté la recherche aux LLM ont offert de l’espoir au début, mais se sont effondrées sous la complexité à mesure que les tâches ont augmenté.

Les progrès récents montrent le potentiel de nouveaux hybrides. Par exemple, AlphaGeometry de DeepMind a démontré que les structures symboliques peuvent surpasser les modèles de neurones purs sur les problèmes de géométrie. L’approche de CoreThink prolonge cette tendance. Dans son pipeline ARC-AGI, la détection d’objets déterministe et l’abstraction de motifs symboliques sont combinés avec l’exécution neuronale, produisant des résultats bien au-delà de ceux des systèmes LLM uniquement. Dans l’utilisation d’outils, la couche symbolique aide à maintenir le contexte et à appliquer les contraintes, permettant une planification multi-tour plus fiable.

La distinction clé est que General Symbolics ne repose pas sur une logique rigide ou un retraitement massif. En raisonnant directement dans le langage, il reste flexible tout en préservant l’interprétabilité. Cela le rend plus léger que les hybrides précédents et, de manière cruciale, pratique pour une intégration dans les applications d’entreprise.

Pourquoi Elle Est Importante

Si la chaîne de pensée est une illusion de raisonnement, alors l’industrie de l’IA est confrontée à un défi urgent. Les entreprises ne peuvent pas dépendre de systèmes qui ne semblent raisonner que superficiellement, en particulier dans des environnements à hauts enjeux comme la médecine, le droit et la finance. Le document suggère que les progrès réels viendront non pas de l’augmentation des modèles, mais d’une réflexion sur les fondements mêmes du raisonnement.

General Symbolics est l’un de ces fondements. Elle offre une couche légère et interprétable qui peut améliorer les modèles existants sans retraitement, produisant de véritables améliorations de raisonnement plutôt que des récits de surface. Pour la communauté de l’IA dans son ensemble, elle marque un possible changement de paradigme : un retour du raisonnement symbolique, non pas sous forme de jeux de règles fragiles, mais comme un compagnon flexible de l’apprentissage neuronal.

Comme le disent les auteurs : « Nous n’avons pas besoin d’ajouter plus de paramètres pour obtenir un meilleur raisonnement – nous devons repenser les fondements. »

Antoine est un leader visionnaire et partenaire fondateur de Unite.AI, animé par une passion inébranlable pour façonner et promouvoir l'avenir de l'IA et de la robotique. Un entrepreneur en série, il croit que l'IA sera aussi perturbatrice pour la société que l'électricité, et se fait souvent prendre en train de vanter le potentiel des technologies perturbatrices et de l'AGI.
En tant que futurist, il se consacre à explorer comment ces innovations vont façonner notre monde. En outre, il est le fondateur de Securities.io, une plateforme axée sur l'investissement dans les technologies de pointe qui redéfinissent l'avenir et remodelent des secteurs entiers.