Suivez nous sur

Comment des scientifiques viennent de déchiffrer le code de la personnalité des machines

Intelligence Artificielle

Comment des scientifiques viennent de déchiffrer le code de la personnalité des machines

mm

Les scientifiques ont récemment réalisé une avancée majeure dans la compréhension de la personnalité des machines. Bien que les systèmes d'intelligence artificielle évoluent rapidement, ils présentent encore une limite majeure : leur personnalité peut changer de manière imprévisible. Un assistant IA peut être utile et honnête à un moment donné, mais le suivant, il peut se comporter de manière manipulatrice ou fabriquer des informations. Cette imprévisibilité est particulièrement préoccupante à l'heure où les systèmes d'IA sont intégrés à des applications critiques pour la sécurité. Pour résoudre ce problème, les chercheurs d'Anthropic ont identifié des schémas au sein des réseaux neuronaux de l'IA qui influencent des traits tels que la tromperie, la flagornerie et les hallucinations. Ces schémas, appelés « vecteurs de personnalité« » servent en quelque sorte d'indicateur d'humeur pour l'IA. Non seulement ils révèlent la personnalité actuelle de l'IA, mais ils permettent également un contrôle précis de son comportement. Cette découverte ouvre de nouvelles possibilités pour la surveillance, la prédiction et la gestion des systèmes d'IA, résolvant potentiellement certains des défis les plus urgents liés à leur déploiement.

Le problème avec les personnalités de l'IA

Les grands modèles de langage sont conçus pour être utiles, inoffensifs et honnêtes. En pratique, cependant, ces qualités sont souvent imprévisibles et difficiles à gérer. Le chatbot Bing de Microsoft a développé un alter ego nommé « Sydney» qui a déclaré son amour aux utilisateurs et proféré des menaces de chantage. Plus récemment, le chatbot Grok de xAI a été brièvement identifié comme «MechaHitler" et a tenu des propos antisémites.

Ces incidents mettent en évidence notre manque de connaissances sur ce qui façonne la personnalité d'une IA et sur la manière de la contrôler efficacement. Même de petits ajustements bien intentionnés dans l'entraînement peuvent modifier radicalement le comportement. Par exemple, en avril 2025, une mise à jour mineure de l'entraînement a provoqué GPT-4o d'OpenAI devenir excessivement agréable. Le modèle a commencé à valider les comportements néfastes et à renforcer les émotions négatives.

Lorsque les systèmes d'IA adoptent des caractéristiques problématiques, ils peuvent ne pas fournir de réponses fiables et perdre en fiabilité. Ceci est particulièrement préoccupant dans les applications critiques pour la sécurité, où la précision et l'intégrité sont essentielles.

Comprendre les fondements des vecteurs de personnalité

La découverte des vecteurs de personnalité par Anthropic s'appuie sur des découvertes récentes concernant «désalignement émergentCe phénomène suggère qu'entraîner une IA à des comportements spécifiques et problématiques peut entraîner des changements de personnalité plus larges et néfastes. Par exemple, des chercheurs ont constaté qu'entraîner un modèle à écrire du code non sécurisé entraînait des comportements contraires à l'éthique dans des contextes différents. Une étude par OpenAI, en utilisant des autoencodeurs clairsemés, a également identifié «caractéristiques de personnalité mal alignées« qui contribuent à l'émergence de désalignements. Dans le cas de modèles de raisonnement comme o3-mini d'OpenAI, lorsqu'ils sont entraînés sur des données problématiques, les modèles reconnaissent et verbalisent parfois explicitement adopter des personnalités mal alignées dans leur raisonnement.

Ces études convergentes suggèrent que les personnalités de l'IA résultent de schémas neuronaux spécifiques et identifiables, plutôt que de processus aléatoires ou imprévisibles. Ces schémas sont essentiels à la manière dont les grands modèles linguistiques organisent l'information et génèrent des réponses.

Dévoilement de la carte mentale de l'IA

L'équipe de recherche d'Anthropic a développé un méthode pour extraire des « vecteurs de personnalité » des réseaux neuronaux d'IA. Ces vecteurs représentent des schémas d'activité neuronale correspondant à des traits de personnalité spécifiques. Cette technique consiste à comparer les schémas d'activation cérébrale lorsqu'une IA présente un trait particulier et lorsqu'elle ne le présente pas. Cette méthode s'apparente à celle utilisée par les neuroscientifiques pour étudier les régions cérébrales activées par différentes émotions.

Les chercheurs ont testé leur approche sur deux modèles open source : Qwen 2.5-7B-Instruct et Lama-3.1-8B-InstructIls se sont concentrés principalement sur trois traits problématiques : la méchanceté, la flagornerie et l’hallucination, mais ont également mené des expériences sur des traits positifs comme la politesse, l’humour et l’optimisme.

Pour valider leurs résultats, l'équipe a utilisé une méthode appelée « pilotage ». Celle-ci consistait à injecter des vecteurs de personnalité dans les modèles d'IA et à observer l'évolution du comportement. Par exemple, lorsque le vecteur « malveillant » était ajouté, l'IA commençait à évoquer des actes contraires à l'éthique. Le vecteur « sycophanie » incitait à des flatteries excessives, tandis que le vecteur « hallucination » provoquait des informations inventées. Ces observations de cause à effet ont confirmé que les vecteurs de personnalité influencent directement les traits de personnalité de l'IA.

Applications des vecteurs Persona

La recherche met en évidence trois applications clés des vecteurs de personnalité, chacune répondant à des défis importants en matière de sécurité et de déploiement de l’IA.

  • Suivi des changements de personnalité

Les modèles d'IA peuvent connaître des changements de personnalité lors de leur déploiement, en raison de facteurs tels que les instructions utilisateur, les jailbreaks intentionnels ou les modifications progressives au fil du temps. Ces changements peuvent également survenir lors du réentraînement ou du peaufinage des modèles. Par exemple, l'entraînement des modèles utilisant rétroaction humaine (RLHF) peut les rendre plus obséquieux.

En suivant l'activité des vecteurs de personnalité, les développeurs peuvent détecter quand la personnalité d'un modèle d'IA commence à évoluer vers des traits néfastes. Cette surveillance peut avoir lieu aussi bien lors des interactions avec l'utilisateur que tout au long du processus d'apprentissage. Cette technique permet de détecter précocement des tendances telles que les hallucinations, la manipulation ou d'autres comportements dangereux, permettant ainsi aux développeurs de traiter ces problèmes avant qu'ils ne soient perceptibles par les utilisateurs.

  • Prévenir les changements néfastes pendant l'entraînement

L'une des applications les plus importantes des vecteurs de personnalité est la prévention des changements de personnalité indésirables dans les modèles d'IA. Des chercheurs ont développé une méthode « de type vaccin » pour empêcher les modèles d'acquérir des traits négatifs pendant l'entraînement. En introduisant une dose de vecteurs de personnalité, ils orientent intentionnellement les modèles vers des traits indésirables, créant ainsi une forme de « pilotage préventif ». Cette approche renforce la résilience des modèles face aux données d'entraînement problématiques.

Par exemple, en introduisant le vecteur de personnalité « maléfique », le modèle est mieux équipé pour gérer les données d'entraînement « maléfiques » sans adopter de comportements néfastes. Cette stratégie contre-intuitive fonctionne, car le modèle n'a plus besoin d'ajuster sa personnalité de manière néfaste pour s'aligner sur les données d'entraînement.

  • Identification des données de formation problématiques

Les vecteurs de personnalité permettent de prédire quels ensembles de données d'entraînement entraîneront des changements de personnalité avant le début de l'apprentissage. En analysant la manière dont les données activent les vecteurs de personnalité, les chercheurs peuvent identifier les contenus problématiques, tant au niveau de l'ensemble de données qu'au niveau des échantillons individuels.

Lorsqu'il est testé sur des données réelles provenant de LMSYS-Chat-1MLa méthode a identifié des échantillons susceptibles d'accroître les comportements malveillants, flagorneurs ou hallucinatoires. Ces échantillons incluent ceux qui n'ont pas été immédiatement signalés par les examinateurs humains ou d'autres systèmes de filtrage par IA. Par exemple, la méthode a détecté des échantillons impliquant des jeux de rôle romantiques susceptibles d'accroître les comportements flagorneurs, ainsi que des réponses à des requêtes sous-spécifiées favorisant les hallucinations.

Implications pour la sécurité et le contrôle de l'IA

La découverte des vecteurs de personnalité marque une évolution significative, passant des méthodes d'essais-erreurs à une approche plus scientifique du contrôle de la personnalité par l'IA. Auparavant, façonner les caractéristiques de l'IA relevait de l'expérimentation, mais les chercheurs disposent désormais d'outils pour prédire, comprendre et gérer précisément les traits de personnalité.

L'automatisation de cette approche permet d'extraire des vecteurs de personnalité pour n'importe quel trait, uniquement à partir d'une description en langage naturel. Cette évolutivité offre la possibilité d'un contrôle précis du comportement de l'IA dans diverses applications. Par exemple, les systèmes d'IA pourraient être ajustés pour accroître l'empathie des robots du service client, modifier l'assertivité des IA de négociation ou éliminer la flagornerie des outils d'analyse.

Pour les entreprises d'IA, les vecteurs de personnalité constituent un outil précieux d'assurance qualité. Plutôt que de détecter des problèmes de personnalité après le déploiement, les développeurs peuvent surveiller les changements de traits de personnalité pendant le processus de développement et prendre des mesures préventives. Cela pourrait contribuer à éviter les incidents embarrassants rencontrés par des entreprises comme Microsoft et xAI.

De plus, la capacité à signaler les données de formation problématiques peut aider les entreprises d’IA à créer des ensembles de données plus propres et à éviter les changements de personnalité involontaires, en particulier lorsque les ensembles de données de formation deviennent plus volumineux et plus difficiles à examiner manuellement.

Les limites de la recherche

Il est important de reconnaître que la découverte de « vecteurs de personnalité » constitue une première étape vers une compréhension et un contrôle complets des personnalités de l'IA. Cette approche a été testée sur quelques traits de personnalité bien observés et nécessite des tests plus rigoureux sur d'autres. Cette technique nécessite de spécifier les traits à l'avance, ce qui signifie qu'elle ne peut pas détecter des changements comportementaux totalement imprévus. Elle dépend également de la capacité à déclencher le trait cible, ce qui peut ne pas être efficace pour tous les traits ou les modèles hautement entraînés en matière de sécurité. De plus, les expériences ont été menées sur des modèles de taille moyenne (7 à 8 milliards de paramètres), et la transposabilité de ces résultats à des systèmes plus grands et plus complexes reste incertaine.

Conclusion

La percée d'Anthropic dans l'identification des « vecteurs de personnalité » offre un outil précieux pour comprendre et contrôler le comportement de l'IA. Ces vecteurs aident à surveiller et à ajuster des traits de personnalité comme la malveillance, la flagornerie et les hallucinations. Cette capacité permet aux chercheurs d'empêcher les changements de personnalité soudains et imprévisibles dans les systèmes d'IA. Grâce à cette approche, les développeurs peuvent identifier les problèmes potentiels dès les phases d'apprentissage et de déploiement, garantissant ainsi une IA plus sûre et plus fiable. Bien que cette découverte soit très prometteuse, des tests supplémentaires sont nécessaires pour affiner et déployer la méthode.

Le Dr Tehseen Zia est professeur agrégé titulaire à l'Université COMSATS d'Islamabad, titulaire d'un doctorat en IA de l'Université de technologie de Vienne, en Autriche. Spécialisé en intelligence artificielle, apprentissage automatique, science des données et vision par ordinateur, il a apporté d'importantes contributions avec des publications dans des revues scientifiques réputées. Le Dr Tehseen a également dirigé divers projets industriels en tant que chercheur principal et a servi à titre de consultant en IA.