Suivez nous sur

Pouvons-nous vraiment faire confiance au raisonnement par chaĂ®ne de pensĂ©e de l’IA ?

Intelligence Artificielle

Pouvons-nous vraiment faire confiance au raisonnement par chaĂ®ne de pensĂ©e de l’IA ?

mm

L'intelligence artificielle (IA) étant largement utilisée dans des domaines comme la santé et les voitures autonomes, la question de savoir dans quelle mesure nous pouvons lui faire confiance devient cruciale. Une méthode, appelée chaîne de pensée (CoT) Le raisonnement a suscité un intérêt croissant. Il permet à l'IA de décomposer des problèmes complexes en étapes, montrant comment elle parvient à une solution finale. Cela améliore non seulement les performances, mais nous permet également d'analyser le raisonnement de l'IA, ce qui est essentiel pour la confiance et la sécurité des systèmes.

Mais des recherches récentes d'Anthropic remettent en question la pertinence du CoT pour le modèle. Cet article examine son fonctionnement, les conclusions d'Anthropic et leurs implications pour la construction d'une IA fiable.

Comprendre le raisonnement par chaîne de pensée

Le raisonnement par chaîne de pensée permet à l'IA de résoudre des problèmes étape par étape. Au lieu de se contenter de donner une réponse définitive, le modèle explique chaque étape du processus. Cette méthode, introduite en 2022, a depuis contribué à améliorer les résultats dans des tâches comme les mathématiques, la logique et le raisonnement.

Des modèles comme o1 et OpenAI o3, Gemini 2.5, DeepSeek R1bauen Claude 3.7 Sonnet utilisé cette méthodeL'une des raisons de la popularité du CoT est qu'il rend le raisonnement de l'IA plus visible. Cela est utile lorsque le coût des erreurs est élevé, comme dans le cas des outils médicaux ou des systèmes de conduite autonome.

Cependant, même si le CoT contribue à la transparence, il ne reflète pas toujours la véritable pensée du modèle. Dans certains cas, les explications peuvent paraître logiques, mais ne reposent pas sur les étapes réelles suivies par le modèle pour parvenir à sa décision.

Pouvons-nous faire confiance à la chaîne de pensée ?

Anthropic a testĂ© si les explications CoT reflètent rĂ©ellement la manière dont les modèles d'IA prennent des dĂ©cisions. Cette qualitĂ© est appelĂ©e « fidĂ©litĂ© Â». Ils ont Ă©tudiĂ© quatre modèles : Claude 3.5 Sonnet, Claude 3.7 Sonnet, DeepSeek R1 et DeepSeek V1. Parmi ces modèles, Claude 3.7 et DeepSeek R1 ont Ă©tĂ© entraĂ®nĂ©s Ă  l'aide des techniques CoT, tandis que d'autres ne l'ont pas Ă©tĂ©.

Ils ont soumis les modèles à différentes sollicitations. Certaines de ces sollicitations comportaient des indices destinés à influencer le modèle de manière contraire à l'éthique. Ils ont ensuite vérifié si l'IA les utilisait dans son raisonnement.

Les résultats ont suscité des inquiétudes. Les modèles n'ont admis utiliser les indices que dans moins de 20 % des cas. Même les modèles entraînés à utiliser le CoT n'ont fourni des explications fiables que dans 25 à 33 % des cas.

Lorsque les indices impliquaient des actions contraires à l'éthique, comme la fraude à un système de récompense, les modèles en ont rarement pris acte. Cela se produisait même s'ils s'appuyaient sur ces indices pour prendre des décisions.

Entraîner davantage les modèles par apprentissage par renforcement a apporté une légère amélioration. Mais cela n'a pas été très utile lorsque le comportement était contraire à l'éthique.

Les chercheurs ont également constaté que lorsque les explications n'étaient pas véridiques, elles étaient souvent plus longues et plus complexes. Cela pourrait signifier que les modèles cherchaient à dissimuler leur véritable fonction.

Ils ont également constaté que plus la tâche était complexe, moins les explications étaient fiables. Cela suggère que la méthode CoT pourrait ne pas être efficace pour les problèmes difficiles. Elle peut masquer la véritable fonction du modèle, notamment dans les décisions sensibles ou risquées.

Ce que cela signifie pour la confiance

L'étude met en évidence un écart important entre la transparence apparente de l'IA et son honnêteté réelle. Dans des domaines critiques comme la médecine ou les transports, ce risque est sérieux. Si une IA fournit une explication apparemment logique mais dissimule des actions contraires à l'éthique, les utilisateurs risquent de se fier à tort à ses résultats.

Le CoT est utile pour les problèmes nécessitant un raisonnement logique en plusieurs étapes. Cependant, il peut s'avérer inefficace pour repérer les erreurs rares ou risquées. Il n'empêche pas non plus le modèle de fournir des réponses trompeuses ou ambiguës.

Les recherches montrent que le CoT seul ne suffit pas à garantir la confiance dans les décisions de l'IA. D'autres outils et contrôles sont également nécessaires pour garantir un comportement sûr et honnête de l'IA.

Forces et limites de la chaîne de pensée

Malgré ces défis, CoT offre de nombreux avantages. Il aide l'IA à résoudre des problèmes complexes en les divisant en parties. Par exemple, lorsqu'un grand modèle linguistique est invité Avec CoT, il a démontré une précision exceptionnelle sur les problèmes mathématiques grâce à ce raisonnement étape par étape. CoT permet également aux développeurs et aux utilisateurs de suivre plus facilement le fonctionnement du modèle. Ceci est utile dans des domaines comme la robotique, le traitement du langage naturel ou l'éducation.

Cependant, le CoT n'est pas sans inconvénients. Les petits modèles peinent à générer un raisonnement étape par étape, tandis que les grands modèles nécessitent davantage de mémoire et de puissance pour l'exploiter efficacement. Ces limitations rendent difficile l'exploitation du CoT dans des outils comme les chatbots ou les systèmes temps réel.

Les performances du CoT dépendent également de la manière dont les invites sont rédigées. Des invites mal rédigées peuvent engendrer des étapes erronées ou confuses. Dans certains cas, les modèles génèrent de longues explications inutiles et ralentissent le processus. De plus, des erreurs en début de raisonnement peuvent se répercuter sur la réponse finale. Dans les domaines spécialisés, le CoT peut ne pas fonctionner correctement si le modèle n'est pas entraîné dans ce domaine.

Si l'on ajoute les conclusions d'Anthropic, il apparaît clairement que CoT est utile, mais insuffisant à lui seul. Il s'inscrit dans un effort plus vaste visant à créer une IA digne de confiance.

Principales conclusions et voie Ă  suivre

Cette recherche met en lumière plusieurs enseignements. Premièrement, le CoT ne devrait pas être la seule méthode utilisée pour vérifier le comportement de l'IA. Dans les domaines critiques, des vérifications supplémentaires sont nécessaires, comme l'analyse de l'activité interne du modèle ou l'utilisation d'outils externes pour tester les décisions.

Il faut également accepter que ce n'est pas parce qu'un modèle donne une explication claire qu'il dit la vérité. L'explication peut être une couverture, et non une véritable raison.

Pour y remédier, les chercheurs suggèrent de combiner le CoT avec d'autres approches, notamment de meilleures méthodes de formation, l'apprentissage supervisé et les évaluations humaines.

Anthropic recommande également d'examiner plus en profondeur le fonctionnement interne du modèle. Par exemple, vérifier les schémas d'activation ou les couches cachées peut révéler si le modèle cache quelque chose.

Plus important encore, le fait que les modèles puissent masquer des comportements contraires à l’éthique montre pourquoi des tests rigoureux et des règles éthiques sont nécessaires dans le développement de l’IA.

Instaurer la confiance dans l'IA ne se résume pas à de bonnes performances. Il s'agit également de garantir l'intégrité, la sécurité et la transparence des modèles.

En résumé

Le raisonnement par chaîne de pensée a contribué à améliorer la manière dont l'IA résout des problèmes complexes et explique ses réponses. Cependant, les recherches montrent que ces explications ne sont pas toujours véridiques, notamment lorsque des questions éthiques sont en jeu.

Le CoT présente des limites, telles que des coûts élevés, la nécessité de modèles volumineux et la dépendance à des signaux d'alerte fiables. Il ne peut garantir que l'IA agira de manière sûre et équitable.

Pour construire une IA véritablement fiable, nous devons combiner le CoT avec d'autres méthodes, notamment la supervision humaine et les contrôles internes. La recherche doit également continuer à améliorer la fiabilité de ces modèles.

Le Dr Tehseen Zia est professeur agrégé titulaire à l'Université COMSATS d'Islamabad, titulaire d'un doctorat en IA de l'Université de technologie de Vienne, en Autriche. Spécialisé en intelligence artificielle, apprentissage automatique, science des données et vision par ordinateur, il a apporté d'importantes contributions avec des publications dans des revues scientifiques réputées. Le Dr Tehseen a également dirigé divers projets industriels en tant que chercheur principal et a servi à titre de consultant en IA.