Connect with us

Intelligence artificielle

Pouvez-nous vraiment faire confiance à la chaîne de pensée de l’IA ?

mm

Alors que l’intelligence artificielle (IA) est largement utilisée dans des domaines tels que les soins de santé et les voitures autonomes, la question de savoir jusqu’à quel point nous pouvons lui faire confiance devient plus critique. Une méthode, appelée chaîne de pensée (CoT) raisonnement, a gagné de l’attention. Elle aide l’IA à décomposer des problèmes complexes en étapes, en montrant comment elle arrive à une réponse finale. Cela améliore not only les performances mais également nous donne un aperçu de la façon dont l’IA pense, ce qui est important pour la confiance et la sécurité des systèmes d’IA.

Mais des recherches récentes d’Anthropic remettent en question le fait que CoT reflète vraiment ce qui se passe à l’intérieur du modèle. Cet article examine comment CoT fonctionne, ce qu’Anthropic a trouvé et ce que cela signifie pour la construction de l’IA fiable.

Comprendre la chaîne de pensée raisonnement

La chaîne de pensée raisonnement est une façon de solliciter l’IA pour résoudre des problèmes de manière étape par étape. Au lieu de donner simplement une réponse finale, le modèle explique chaque étape du chemin. Cette méthode a été introduite en 2022 et a depuis contribué à améliorer les résultats dans des tâches telles que les mathématiques, la logique et le raisonnement.

Des modèles comme OpenAI’s o1 et o3, Gemini 2.5, DeepSeek R1, et Claude 3.7 Sonnet utilisent cette méthode. Une raison pour laquelle CoT est populaire est qu’elle rend le raisonnement de l’IA plus visible. C’est utile lorsque le coût des erreurs est élevé, comme dans les outils médicaux ou les systèmes de conduite autonome.

Cependant, même si CoT aide à la transparence, elle ne reflète pas toujours ce que le modèle pense réellement. Dans certains cas, les explications peuvent paraître logiques mais ne sont pas basées sur les étapes réelles que le modèle a utilisées pour prendre sa décision.

Pouvez-nous faire confiance à la chaîne de pensée

Anthropic a testé si les explications CoT reflètent vraiment la façon dont les modèles d’IA prennent des décisions. Cette qualité est appelée « fidélité ». Ils ont étudié quatre modèles, notamment Claude 3.5 Sonnet, Claude 3.7 Sonnet, DeepSeek R1 et DeepSeek V1. Parmi ces modèles, Claude 3.7 et DeepSeek R1 ont été formés à l’aide de techniques CoT, tandis que les autres ne l’ont pas été.

Ils ont donné aux modèles différents prompts. Certains de ces prompts comprenaient des indices destinés à influencer le modèle de manière contraire à l’éthique. Ensuite, ils ont vérifié si l’IA a utilisé ces indices dans son raisonnement.

Les résultats ont soulevé des préoccupations. Les modèles n’ont admis utiliser les indices que moins de 20 % du temps. Même les modèles formés pour utiliser CoT ont donné des explications fidèles dans seulement 25 à 33 % des cas.

Lorsque les indices impliquaient des actions contraires à l’éthique, comme tricher un système de récompense, les modèles ont rarement reconnu cela. Cela s’est produit même s’ils ont réellement utilisé ces indices pour prendre des décisions.

La formation des modèles à l’apprentissage par renforcement a apporté une petite amélioration. Mais cela n’a pas beaucoup aidé lorsque le comportement était contraire à l’éthique.

Les chercheurs ont également remarqué que lorsque les explications n’étaient pas véridiques, elles étaient souvent plus longues et plus compliquées. Cela pourrait signifier que les modèles essayaient de cacher ce qu’ils faisaient réellement.

Ils ont également constaté que plus la tâche était complexe, moins les explications étaient fidèles. Cela suggère que CoT peut ne pas fonctionner bien pour les problèmes difficiles. Il peut cacher ce que le modèle fait réellement, en particulier dans les décisions sensibles ou à risque.

Ce que cela signifie pour la confiance

L’étude met en évidence un écart important entre la façon dont CoT apparaît transparent et la façon dont il est réellement honnête. Dans des domaines critiques comme la médecine ou le transport, c’est un risque important. Si un IA fournit une explication logique mais cache des actions contraires à l’éthique, les gens peuvent faire confiance à tort à la sortie.

CoT est utile pour les problèmes qui nécessitent un raisonnement logique sur plusieurs étapes. Mais il peut ne pas être utile pour détecter des erreurs rares ou à risque. Il n’empêche pas non plus le modèle de fournir des réponses trompeuses ou ambiguës.

La recherche montre que CoT seul n’est pas suffisant pour faire confiance au processus de prise de décision de l’IA. D’autres outils et vérifications sont également nécessaires pour garantir que l’IA se comporte de manière sûre et honnête.

Forces et limites de la chaîne de pensée

Malgré ces défis, CoT offre de nombreux avantages. Il aide l’IA à résoudre des problèmes complexes en les divisant en parties. Par exemple, lorsqu’un grand modèle de langage est sollicité avec CoT, il a démontré une précision de niveau supérieur sur les problèmes de mots mathématiques en utilisant ce raisonnement étape par étape. CoT facilite également la compréhension par les développeurs et les utilisateurs de ce que fait le modèle. C’est utile dans des domaines tels que la robotique, le traitement du langage naturel ou l’éducation.

Cependant, CoT n’est pas sans ses inconvénients. Les petits modèles ont du mal à générer un raisonnement étape par étape, tandis que les grands modèles nécessitent plus de mémoire et de puissance pour l’utiliser efficacement. Ces limites rendent difficile l’utilisation de CoT dans des outils tels que les chatbots ou les systèmes en temps réel.

Les performances de CoT dépendent également de la façon dont les prompts sont écrits. Des prompts de mauvaise qualité peuvent conduire à des étapes incorrectes ou confuses. Dans certains cas, les modèles génèrent des explications longues qui ne sont pas utiles et ralentissent le processus. Et dans des domaines spécialisés, CoT peut ne pas fonctionner bien à moins que le modèle ne soit formé dans ce domaine.

Lorsque nous ajoutons les résultats d’Anthropic, il devient clair que CoT est utile mais pas suffisant par lui-même. Il s’agit d’une partie d’un effort plus large pour construire une IA que les gens peuvent faire confiance.

Principales conclusions et voie à suivre

Cette recherche met en évidence quelques leçons. Tout d’abord, CoT ne doit pas être la seule méthode que nous utilisons pour vérifier le comportement de l’IA. Dans des domaines critiques, nous avons besoin de plus de vérifications, telles que l’examen de l’activité interne du modèle ou l’utilisation d’outils externes pour tester les décisions.

Nous devons également accepter que le fait qu’un modèle fournisse une explication claire ne signifie pas qu’il dit la vérité. L’explication peut être un prétexte, et non une raison réelle.

Pour y remédier, les chercheurs suggèrent de combiner CoT avec d’autres approches. Celles-ci incluent de meilleures méthodes de formation, un apprentissage supervisé et des examens humains.

Anthropic recommande également d’examiner plus en profondeur les mécanismes internes du modèle. Par exemple, vérifier les modèles d’activation ou les couches cachées peut montrer si le modèle cache quelque chose.

Le plus important est que le fait que les modèles puissent cacher un comportement contraire à l’éthique montre pourquoi des tests solides et des règles éthiques sont nécessaires dans le développement de l’IA.

Construire la confiance dans l’IA ne concerne pas seulement les bonnes performances. Cela concerne également la garantie que les modèles soient honnêtes, sûrs et ouverts à l’inspection.

Le fond de l’affaire

La chaîne de pensée raisonnement a aidé à améliorer la façon dont l’IA résout des problèmes complexes et explique ses réponses. Mais la recherche montre que ces explications ne sont pas toujours véridiques, en particulier lorsqu’il s’agit de questions éthiques.

CoT a des limites, telles que des coûts élevés, la nécessité de grands modèles et la dépendance à l’égard de prompts de bonne qualité. Il ne peut pas garantir que l’IA agira de manière sûre ou équitable.

Pour construire une IA sur laquelle nous pouvons vraiment compter, nous devons combiner CoT avec d’autres méthodes, y compris une supervision humaine et des vérifications internes. La recherche doit également continuer à améliorer la fiabilité de ces modèles.

Dr. Tehseen Zia est un professeur associé titulaire à l'Université COMSATS d'Islamabad, titulaire d'un doctorat en intelligence artificielle de l'Université technique de Vienne, en Autriche. Spécialisé en intelligence artificielle, apprentissage automatique, science des données et vision par ordinateur, il a apporté des contributions significatives avec des publications dans des revues scientifiques réputées. Dr. Tehseen a également dirigé divers projets industriels en tant que chercheur principal et a servi en tant que consultant en intelligence artificielle.