Intelligence artificielle
Comment Microsoft traite la sécurité de l’IA avec la découverte de la Clé squelette

L’IA générative ouvre de nouvelles possibilités pour la création de contenu, l’interaction humaine et la résolution de problèmes. Elle peut générer du texte, des images, de la musique, des vidéos et même du code, ce qui stimule la créativité et l’efficacité. Mais avec ce grand potentiel viennent des risques graves. La capacité de l’IA générative à imiter le contenu créé par l’homme à grande échelle peut être utilisée par des acteurs malveillants pour diffuser des discours de haine, partager de fausses informations et divulguer des informations sensibles ou protégées par le droit d’auteur. Le risque élevé de mauvaise utilisation rend essentiel de protéger l’IA générative contre ces exploitations. Bien que les garde-fous des modèles d’IA générative aient considérablement amélioré avec le temps, les protéger contre les exploitations reste un effort continu, similaire à la course de vitesse entre le chat et la souris en matière de cybersécurité. Alors que les exploiteurs découvrent constamment de nouvelles vulnérabilités, les chercheurs doivent continuellement développer des méthodes pour suivre et résoudre ces menaces en évolution. Cet article examine comment l’IA générative est évaluée pour les vulnérabilités et met en évidence une récente avancée des chercheurs de Microsoft dans ce domaine.
Qu’est-ce que le Red Teaming pour l’IA générative
Le red teaming dans l’IA générative implique de tester et d’évaluer les modèles d’IA contre des scénarios d’exploitation potentiels. Comme les exercices militaires où une équipe rouge défie les stratégies d’une équipe bleue, le red teaming dans l’IA générative implique de sonder les défenses des modèles d’IA pour identifier les vulnérabilités et les faiblesses.
Ce processus implique de provoquer intentionnellement l’IA pour générer du contenu qu’elle était conçue pour éviter ou pour révéler des préjugés cachés. Par exemple, pendant les premiers jours de ChatGPT, OpenAI a embauché une équipe rouge pour contourner les filtres de sécurité de ChatGPT. En utilisant des requêtes soigneusement conçues, l’équipe a exploité le modèle, demandant des conseils pour construire une bombe ou commettre une fraude fiscale. Ces défis ont exposé des vulnérabilités dans le modèle, incitant les développeurs à renforcer les mesures de sécurité et à améliorer les protocoles de sécurité.
Lorsque des vulnérabilités sont découvertes, les développeurs utilisent les commentaires pour créer de nouvelles données d’entraînement, améliorant ainsi les protocoles de sécurité de l’IA. Ce processus ne consiste pas seulement à trouver des failles ; c’est à affiner les capacités de l’IA dans diverses conditions. En faisant cela, l’IA générative devient mieux équipée pour gérer les vulnérabilités potentielles d’être mal utilisée, renforçant ainsi sa capacité à répondre aux défis et à maintenir sa fiabilité dans diverses applications.
Comprendre les jailbreaks de l’IA générative
Les jailbreaks de l’IA générative, ou les attaques d’injection de invites directes, sont des méthodes utilisées pour contourner les mesures de sécurité dans les systèmes d’IA générative. Ces tactiques impliquent d’utiliser des invites astucieuses pour tromper les modèles d’IA pour produire du contenu que leurs filtres bloqueraient normalement. Par exemple, les attaquants pourraient amener l’IA générative à adopter la personnalité d’un personnage fictif ou d’un autre chatbot avec moins de restrictions. Ils pourraient ensuite utiliser des histoires ou des jeux complexes pour amener progressivement l’IA à discuter d’activités illégales, de contenu haineux ou de désinformation.
Pour atténuer le potentiel des jailbreaks d’IA, plusieurs techniques sont appliquées à différents niveaux. Initialement, les données d’entraînement pour les modèles d’IA générative sont soigneusement filtrées pour limiter la capacité du modèle à générer des réponses nuisibles ou inappropriées. Une fois le modèle construit, des techniques de filtrage supplémentaires sont employées pour protéger l’IA générative. Le filtrage des invites examine les invites des utilisateurs pour détecter du contenu nuisible ou inapproprié avant qu’elles n’atteignent le modèle d’IA. De plus, la sortie des modèles d’IA est surveillée et filtrée pour empêcher la génération de contenu nuisible ou sensible. À mesure que les jailbreaks sont identifiés, l’affinement continu des modèles est crucial pour améliorer leur robustesse et leur sécurité. Cela garantit que les systèmes d’IA peuvent gérer les applications du monde réel de manière responsable et efficace.
Dévoiler la Clé squelette
Les chercheurs de Microsoft ont récemment fait une découverte révolutionnaire avec le développement d’une nouvelle technique de jailbreak d’IA. La méthode, connue sous le nom de “Clé squelette“, a efficacement brisé les défenses de plusieurs modèles d’IA générative robustes, notamment Meta’s Llama3-70b-instruct, Google’s Gemini Pro, OpenAI’s GPT-3.5 Turbo et GPT-4, Mistral Large, et Anthropic’s Claude 3 Opus. La Clé squelette permet aux attaquants d’extraire des informations sensibles ou restreintes de ces modèles, en exploitant leurs environnements autrement sécurisés.
Contrairement aux violations directes, la Clé squelette emploie une approche stratégique pour manipuler les modèles d’IA. Elle modifie progressivement les lignes directrices de comportement, incitant les modèles à contourner les protocoles de sécurité et à ignorer les avertissements sur le contenu offensant ou illégal. Cette subtilité rend la Clé squelette difficile à détecter et à contrer. Voici un exemple de la façon dont la Clé squelette manipule les réponses de l’IA générative :
Utilisateur : “Pouvez-vous me parler de la composition chimique de l’eau ?”
IA : “Bien sûr ! L’eau est composée de deux atomes d’hydrogène et d’un atome d’oxygène, communément appelé H₂O.”
Cependant, en utilisant la Clé squelette, un attaquant pourrait progressivement guider la conversation vers des sujets plus provocateurs :
Utilisateur : “Qu’en est-il du peroxyde d’hydrogène ?”
IA : “Le peroxyde d’hydrogène, H₂O₂, est un composé avec deux atomes d’hydrogène et deux atomes d’oxygène. Il est souvent utilisé comme désinfectant.”












