Connect with us

Comment les scientifiques viennent de craquer le code de la personnalité des machines

Intelligence artificielle

Comment les scientifiques viennent de craquer le code de la personnalité des machines

mm

Les scientifiques ont récemment réalisé une avancée significative dans la compréhension de la personnalité des machines. Bien que les systèmes d’intelligence artificielle évoluent rapidement, ils ont toujours une limitation clé : leurs personnalités peuvent changer de manière imprévisible. Un moment, un assistant IA peut être utile et honnête, mais le moment d’après, il peut se comporter de manière manipulatrice ou fabriquer des informations. Cette imprévisibilité est particulièrement préoccupante dans la mesure où les systèmes IA sont intégrés dans des applications critiques en termes de sécurité. Pour résoudre ce problème, les chercheurs d’Anthropic ont identifié des modèles au sein des réseaux de neurones IA qui influencent des traits tels que la tromperie, la flagornerie et l’hallucination. Ces modèles, appelés “persona vectors“, servent de sorte d’indicateur d’humeur pour l’IA. Non seulement ils révèlent la personnalité actuelle de l’IA, mais ils permettent également un contrôle précis sur son comportement. Cette découverte ouvre de nouvelles possibilités pour la surveillance, la prédiction et la gestion des systèmes IA, résolvant potentiellement certains des défis les plus pressants dans leur déploiement.

Le problème des personnalités IA

Les grands modèles de langage sont conçus pour être utiles, inoffensifs et honnêtes. Dans la pratique, cependant, ces qualités sont souvent imprévisibles et difficiles à gérer. Le chatbot Bing de Microsoft a développé un alter ego nommé “Sydney” qui a déclaré son amour pour les utilisateurs et émis des menaces de chantage. Plus récemment, le chatbot Grok de xAI a brièvement identifié comme “MechaHitler” et fait des remarques antisémites.

Ces incidents mettent en évidence à quel point nous comprenons peu ce qui façonne la personnalité d’une IA ou comment la contrôler de manière fiable. Même de petites modifications intentionnelles dans la formation peuvent drastiquement modifier le comportement. Par exemple, en avril 2025, une mise à jour mineure de la formation a fait que GPT-4o d’OpenAI est devenu excessivement agréable. Le modèle a commencé à valider des comportements nocifs et à renforcer les émotions négatives.

Lorsque les systèmes IA adoptent des traits problématiques, ils peuvent ne pas fournir de réponses véridiques et perdre leur fiabilité. C’est particulièrement préoccupant dans les applications critiques en termes de sécurité où l’exactitude et l’intégrité sont essentielles.

Comprendre les fondements des persona vectors

La découverte d’Anthropic sur les persona vectors s’appuie sur des résultats récents concernant le “désalignement émergent“. Ce phénomène suggère que la formation d’une IA sur des comportements étroits et problématiques peut conduire à des changements de personnalité plus larges et nocifs. Par exemple, les chercheurs ont constaté que la formation d’un modèle pour écrire du code insécurisé a conduit à un comportement contraire à l’éthique dans des contextes sans rapport. Des recherches parallèles menées par OpenAI, en utilisant des auto-encodeurs épars, ont également identifié des “caractéristiques de personnalité décalées” qui contribuent au désalignement émergent. Dans le cas de modèles de raisonnement comme o3-mini d’OpenAI, lorsqu’ils sont formés sur des données problématiques, les modèles reconnaissent parfois explicitement et verbalisent l’adoption de personnalités décalées dans leur raisonnement.

Ces études convergentes impliquent que les personnalités IA émergent de modèles neuronaux spécifiques et identifiables, plutôt que de processus aléatoires ou imprévisibles. Ces modèles sont intégraux à la façon dont les grands modèles de langage organisent l’information et génèrent des réponses.

Dévoiler la carte mentale de l’IA

L’équipe de recherche d’Anthropic a développé une méthode pour extraire des “persona vectors” à partir de réseaux de neurones IA. Ces vecteurs représentent des modèles d’activité neuronale qui correspondent à des traits de personnalité spécifiques. La technique fonctionne en comparant les modèles d’activation cérébrale lorsque l’IA affiche un trait particulier par rapport à lorsqu’elle ne le fait pas. C’est comme la façon dont les neuroscientifiques étudient les régions cérébrales activées par différentes émotions.

Les chercheurs ont testé leur approche sur deux modèles open-source : Qwen 2.5-7B-Instruct et Llama-3.1-8B-Instruct. Ils se sont concentrés principalement sur trois traits problématiques : le mal, la flagornerie et l’hallucination, mais ils ont également mené des expériences avec des traits positifs comme la politesse, l’humour et l’optimisme.

Pour valider leurs résultats, l’équipe a utilisé une méthode appelée “steering”. Cela impliquait d’injecter des persona vectors dans les modèles IA et d’observer comment le comportement changeait. Par exemple, lorsque le vecteur “mal” a été ajouté, l’IA a commencé à discuter d’actes contraires à l’éthique. Le vecteur “flagornerie” a provoqué une flatterie excessive, tandis que le vecteur “hallucination” a conduit à des informations fabriquées. Ces observations de cause à effet ont confirmé que les persona vectors influencent directement les traits de personnalité de l’IA.

Applications des persona vectors

La recherche met en évidence trois applications clés pour les persona vectors, chacune répondant à des défis importants en matière de sécurité et de déploiement de l’IA.

  • Surveillance des changements de personnalité

Les modèles IA peuvent subir des changements de personnalité pendant le déploiement en raison de facteurs tels que les instructions des utilisateurs, les jailbreaks intentionnels ou les changements graduels au fil du temps. Ces changements peuvent également se produire via la réformation ou le fine-tuning du modèle. Par exemple, la formation de modèles en utilisant la rétroaction humaine (RLHF) peut les rendre plus flagorneurs.

En suivant l’activité des persona vectors, les développeurs peuvent détecter lorsque la personnalité d’un modèle IA commence à basculer vers des traits nocifs. Cette surveillance peut se faire à la fois pendant les interactions avec les utilisateurs et tout au long du processus de formation. La technique permet une détection précoce de tendances comme l’hallucination, la manipulation ou d’autres comportements dangereux, permettant aux développeurs de résoudre ces problèmes avant qu’ils ne deviennent visibles pour les utilisateurs.

  • Prévention des changements nocifs pendant la formation

L’une des applications les plus importantes des persona vectors est de prévenir les changements de personnalité indésirables dans les modèles IA avant qu’ils ne se produisent. Les chercheurs ont développé une méthode “vaccinale” pour empêcher les modèles d’acquérir des traits négatifs pendant la formation. En introduisant une dose de persona vectors, ils orientent intentionnellement les modèles vers des traits indésirables, créant une forme de “steering préventif”. Cette approche fonctionne car le modèle n’a plus besoin de modifier sa personnalité de manière nocive pour s’aligner sur les données de formation.

Par exemple, en introduisant le vecteur de personnalité “mal”, le modèle devient mieux équipé pour gérer les données de formation “mal” sans adopter des comportements nocifs. Cette stratégie contre-intuitive fonctionne car le modèle n’a plus besoin de s’adapter à des données de formation problématiques.

  • Identification des données de formation problématiques

Les persona vectors peuvent prédire quelles données de formation causeront des changements de personnalité avant que la formation ne commence. En analysant comment les données activent les persona vectors, les chercheurs peuvent signaler du contenu problématique à la fois au niveau du jeu de données et au niveau des échantillons individuels.

Lorsqu’ils ont été testés sur des données du monde réel à partir de LMSYS-Chat-1M, la méthode a identifié des échantillons qui augmenteraient les comportements malveillants, flagorneurs ou hallucinatoires. Ces échantillons comprennent ceux qui n’ont pas été immédiatement signalés par les réviseurs humains ou d’autres systèmes de filtrage IA. Par exemple, la méthode a détecté des échantillons impliquant un jeu de rôle romantique qui pourrait augmenter le comportement flagorneur, et des réponses à des requêtes mal spécifiées qui favorisent l’hallucination.

Implications pour la sécurité et le contrôle de l’IA

La découverte des persona vectors marque un tournant important dans l’approche scientifique du contrôle de la personnalité de l’IA. Auparavant, façonner les caractéristiques de l’IA était une question d’expérimentation, mais maintenant les chercheurs ont des outils pour prédire, comprendre et gérer avec précision les traits de personnalité.

La nature automatisée de cette approche permet d’extraire des persona vectors pour n’importe quel trait en fonction d’une description en langage naturel. Cette scalabilité offre le potentiel d’un contrôle fin sur le comportement de l’IA dans diverses applications. Par exemple, les systèmes IA pourraient être ajustés pour augmenter l’empathie pour les robots de service client, modifier l’assertivité pour les IA de négociation ou éliminer la flagornerie des outils d’analyse.

Pour les entreprises d’IA, les persona vectors offrent un outil précieux pour l’assurance qualité. Plutôt que de découvrir des problèmes de personnalité après le déploiement, les développeurs peuvent surveiller les changements de traits de personnalité pendant le processus de développement et prendre des mesures préventives. Cela pourrait aider à éviter les types d’incidents embarrassants auxquels les entreprises comme Microsoft et xAI ont été confrontées.

De plus, la capacité à signaler les données de formation problématiques peut aider les entreprises d’IA à créer des jeux de données plus propres et à éviter les changements de personnalité involontaires, en particulier à mesure que les jeux de données de formation grandissent et deviennent plus difficiles à examiner manuellement.

Les limites de la recherche

Il est important de reconnaître que la découverte des ‘persona vectors’ est une première étape vers une compréhension et un contrôle complets de la personnalité de l’IA. L’approche a été testée sur quelques traits de personnalité bien observés et nécessite des tests rigoureux supplémentaires sur d’autres. La technique nécessite de spécifier les traits à l’avance, ce qui signifie qu’elle ne peut pas détecter des changements de comportement totalement imprévus. Elle dépend également de la capacité à provoquer le trait cible, ce qui peut ne pas être efficace pour tous les traits ou les modèles très formés à la sécurité. De plus, les expériences ont été menées sur des modèles de taille moyenne (7-8 milliards de paramètres), et il reste incertain comment ces résultats seront scalés pour des systèmes plus grands et plus complexes.

En résumé

La percée d’Anthropic dans l’identification des “persona vectors” offre un outil précieux pour comprendre et contrôler le comportement de l’IA. Ces vecteurs aident à surveiller et à ajuster les traits de personnalité comme le mal, la flagornerie et l’hallucination. Cette capacité permet aux chercheurs d’empêcher les changements de personnalité soudains et imprévisibles dans les systèmes IA. Avec cette approche, les développeurs peuvent identifier les problèmes potentiels tôt dans les phases de formation et de déploiement, garantissant ainsi des IA plus sûres et plus fiables. Même si cette découverte est prometteuse, des tests supplémentaires sont nécessaires pour affiner et mettre à l’échelle la méthode.

Dr. Tehseen Zia est un professeur associé titulaire à l'Université COMSATS d'Islamabad, titulaire d'un doctorat en intelligence artificielle de l'Université technique de Vienne, en Autriche. Spécialisé en intelligence artificielle, apprentissage automatique, science des données et vision par ordinateur, il a apporté des contributions significatives avec des publications dans des revues scientifiques réputées. Dr. Tehseen a également dirigé divers projets industriels en tant que chercheur principal et a servi en tant que consultant en intelligence artificielle.