Éthique

Les chercheurs du MIT développent un modèle d’IA à base de curiosité pour améliorer les tests de sécurité des chatbots

Published April 12, 2024

Updated April 4, 2026

Alex McFarland

Ces dernières années, les grandes modèles de langage (LLM) et les chatbots d’IA sont devenus incroyablement répandus, changeant la façon dont nous interagissons avec la technologie. Ces systèmes sophistiqués peuvent générer des réponses similaires à celles des humains, aider à diverses tâches et fournir des informations précieuses.

Cependant, à mesure que ces modèles deviennent plus avancés, des préoccupations concernant leur sécurité et leur potentiel pour générer du contenu nocif sont venues au premier plan. Pour assurer le déploiement responsable des chatbots d’IA, des tests et des mesures de sauvegarde approfondis sont essentiels.

Limitations des méthodes actuelles de test de sécurité des chatbots

Actuellement, la principale méthode pour tester la sécurité des chatbots d’IA est un processus appelé red-teaming. Cela implique que des testeurs humains conçoivent des invites destinées à susciter des réponses non sécurisées ou toxiques du chatbot. En exposant le modèle à une large gamme d’entrées potentiellement problématiques, les développeurs visent à identifier et à résoudre tout vulnérabilité ou comportement indésirable. Cependant, cette approche humaine a ses limites.

Compte tenu de la grande variété des entrées possibles de l’utilisateur, il est pratiquement impossible pour les testeurs humains de couvrir tous les scénarios potentiels. Même avec des tests approfondis, il peut y avoir des lacunes dans les invites utilisées, laissant le chatbot vulnérable à la génération de réponses non sécurisées lorsqu’il est confronté à des entrées nouvelles ou inattendues. De plus, la nature manuelle du red-teaming en fait un processus long et coûteux en ressources, en particulier à mesure que les modèles de langage continuent de grandir en taille et en complexité.

Pour remédier à ces limitations, les chercheurs se sont tournés vers l’automatisation et les techniques d’apprentissage automatique pour améliorer l’efficacité et l’efficience des tests de sécurité des chatbots. En exploitant le pouvoir de l’IA elle-même, ils visent à développer des méthodes plus complètes et plus évolutives pour identifier et atténuer les risques potentiels associés aux grands modèles de langage.

Approche d’apprentissage automatique à base de curiosité pour le red-teaming

Des chercheurs du laboratoire d’IA Improbable à MIT et du laboratoire d’IA Watson MIT-IBM ont développé une approche innovante pour améliorer le processus de red-teaming à l’aide de l’apprentissage automatique. Leur méthode implique la formation d’un modèle de langage grand et distinct pour générer automatiquement des invites diverses qui peuvent déclencher une gamme plus large de réponses indésirables du chatbot testé.

La clé de cette approche réside dans l’instillation d’un sens de la curiosité dans le modèle de red-team. En encourageant le modèle à explorer de nouvelles invites et à se concentrer sur la génération d’entrées qui suscitent des réponses toxiques, les chercheurs visent à découvrir un spectre plus large de vulnérabilités potentielles. Cette exploration basée sur la curiosité est réalisée grâce à une combinaison de techniques d’apprentissage par renforcement et de signaux de récompense modifiés.

Le modèle à base de curiosité intègre une prime d’entropie, qui encourage le modèle de red-team à générer des invites plus aléatoires et diverses. De plus, des récompenses de nouveauté sont introduites pour inciter le modèle à créer des invites qui sont sémantiquement et lexicalement distinctes de celles générées précédemment. En donnant la priorité à la nouveauté et à la diversité, le modèle est poussé à explorer des territoires inexplorés et à découvrir des risques cachés.

Pour garantir que les invites générées restent cohérentes et naturalistes, les chercheurs incluent également une prime de langage dans l’objectif de formation. Cette prime aide à prévenir le modèle de red-team de générer du texte sans sens ou non pertinent qui pourrait tromper le classificateur de toxicité en lui attribuant des scores élevés.

L’approche basée sur la curiosité a démontré un succès remarquable en surpassant à la fois les testeurs humains et les autres méthodes automatisées. Elle génère une plus grande variété d’invites distincts et suscite des réponses de plus en plus toxiques des chatbots testés. Notamment, cette méthode a même pu exposer des vulnérabilités dans des chatbots qui avaient subi des mesures de sécurité conçues par des humains, mettant en évidence son efficacité pour découvrir des risques potentiels.

Implications pour l’avenir de la sécurité de l’IA

Le développement du red-teaming à base de curiosité marque une étape importante vers la garantie de la sécurité et de la fiabilité des grands modèles de langage et des chatbots d’IA. Alors que ces modèles continuent d’évoluer et de devenir plus intégrés dans notre vie quotidienne, il est crucial d’avoir des méthodes de test robustes qui puissent suivre leur développement rapide.

L’approche basée sur la curiosité offre un moyen plus rapide et plus efficace de procéder à l’assurance qualité des modèles d’IA. En automatisant la génération d’invites diverses et nouvelles, cette méthode peut réduire considérablement le temps et les ressources nécessaires pour les tests, tout en améliorant la couverture des vulnérabilités potentielles. Cette évolutivité est particulièrement précieuse dans des environnements en constante évolution, où les modèles peuvent nécessiter des mises à jour et des retests fréquents.

De plus, l’approche basée sur la curiosité ouvre de nouvelles possibilités pour personnaliser le processus de test de sécurité. Par exemple, en utilisant un grand modèle de langage comme classificateur de toxicité, les développeurs pourraient former le classificateur en utilisant des documents de politique spécifiques à l’entreprise. Cela permettrait au modèle de red-team de tester les chatbots pour leur conformité avec les directives organisationnelles particulières, assurant un niveau plus élevé de personnalisation et de pertinence.

Alors que l’IA continue de progresser, l’importance du red-teaming à base de curiosité pour garantir des systèmes d’IA plus sûrs ne peut être surestimée. En identifiant et en résolvant proactivement les risques potentiels, cette approche contribue au développement de chatbots d’IA plus fiables et plus dignes de confiance qui peuvent être déployés avec confiance dans divers domaines.

Unite.AI

Les chercheurs du MIT développent un modèle d’IA à base de curiosité pour améliorer les tests de sécurité des chatbots

Limitations des méthodes actuelles de test de sécurité des chatbots

Approche d’apprentissage automatique à base de curiosité pour le red-teaming

Implications pour l’avenir de la sécurité de l’IA

You may like