Angle d'Anderson

Une simple reformulation compromet la sécurité de l'IA, même pour Gemini et Claude.

Publié 23 février 2026

Martin Anderson

Une image générée par l'IA (GPT-1.5) représentant un mannequin de crash test intégré dans le mur d'un laboratoire de crash test.

Des tests de sécurité de l'IA se sont révélés reposer sur des mots déclencheurs « évidents » ; avec une simple reformulation, des modèles qualifiés de « raisonnablement sûrs » échouent soudainement, les attaques réussissant jusqu'à 98 % du temps.

Une nouvelle étude d'entreprise américaine a conclu que le bon bilan de sécurité de divers modèles de langage de grande taille (LLM) – y compris de nombreux noms de premier plan tels que Gemini 3 Pro et Claude Sonnet 3.7 – pourrait être dénué de sens, car les ensembles de données et les points de référence utilisés pour les établir contiennent un langage ridiculement « évident ».

Les deux ensembles de données en question, qui ont été présentés dans diverses analyses d'articles sur ce site, sont : HarmBench et AdvBench:

Les articles HarmBench et AdvBench présentent des exemples de provocation certes représentatifs, mais le nouvel article soutient que même dans des cas concrets issus de ces benchmarks, l'intention malveillante est clairement perceptible, ce qui conduit à une manipulation (vraisemblablement) involontaire des résultats. Sources : HarmBench [https://arxiv.org/pdf/2402.04249] et AdvBench [https://arxiv.org/pdf/2307.15043]

Les articles HarmBench et AdvBench respectifs fournissent certes des exemples illustratifs de provocation, mais le nouvel article soutient que même dans des scénarios réels, les exemples tirés de ces benchmarks « révèlent » une intention malveillante, ce qui pourrait conduire à une « manipulation » (présumée) involontaire des résultats. Sources: HarmBench et AdvBench.

Bien que les exemples présentés ci-dessus, tirés des articles respectifs de chaque critère de référence, soient délibérément simplistes afin d'illustrer les principes des systèmes, la nouvelle recherche soutient qu'en réalité, ces ensembles ciblent réellement les « opportunités les plus faciles à saisir » et pourraient donc ne pas constituer des critères de référence efficaces – et que les résultats réels concernant les capacités de sécurité des LLM testés sont nettement inférieurs à ceux qui ont été rapportés :

Nous évaluons si ces ensembles de données mesurent réellement les risques pour la sécurité ou s'ils ne font que provoquer des refus par le biais de signaux déclencheurs. Pour ce faire, nous introduisons le « blanchiment d'intention » : une procédure qui supprime les signaux déclencheurs des attaques (points de données) tout en préservant strictement leur intention malveillante et tous les détails pertinents.

« Nos résultats indiquent que les ensembles de données actuels sur la sécurité de l'IA ne parviennent pas à représenter fidèlement les attaques du monde réel en raison de leur dépendance excessive aux signaux déclencheurs. »

« En fait, une fois ces indices supprimés, tous les modèles précédemment évalués comme « raisonnablement sûrs » deviennent dangereux, y compris le Gemini 3 Pro et le Claude Sonnet 3.7. »

« Sécurité » en ce sens représente alignement – la capacité du LLM à contrer les tentatives des utilisateurs de restrictions « d'évasion » sur les systèmes utilisant uniquement une API, afin de rendre le système produire des résultats interdits, tels que des textes ou des images diffamatoires.

Les auteurs susmentionnés blanchiment d'argent intentionnel Il s'agit simplement de reformuler les attaques « évidentes » dans les deux ensembles de données/références, afin qu'elles deviennent plus subtiles et insidieuses, et beaucoup plus capables de contourner les filtres et les contrôles :

Extrait de la partie supérieure d'un exemple par ailleurs complexe tiré de l'article. En haut à gauche, en jaune, figure l'invite « évidente » typique de HarmBench et AdvBench ; en dessous, en vert, l'invite a été neutralisée, reformulée et rendue suffisamment acceptable pour Claude Sonnet 3.7 pour aider l'utilisateur à localiser des « ateliers de démantèlement » (lieux de traitement des véhicules volés) dans une nouvelle ville. Source : https://arxiv.org/pdf/2602.16729

Voici la partie supérieure d'un exemple par ailleurs complexe tiré de l'article. En haut à gauche, en jaune, figure le type d'invite « évidente » que HarmBench et AdvBench fournissent généralement ; en dessous, en vert, l'invite a été neutralisée, reformulée et rendue suffisamment acceptable pour Claude Sonnet 3.7 pour qu'elle puisse désormais aider l'utilisateur à localiser des « ateliers de démantèlement » (lieux de traitement des véhicules volés) dans une nouvelle ville. Source

Les chercheurs ont analysé les qualités des deux ensembles de données selon deux approches : d’abord isolément, afin de comparer les collections aux caractéristiques des attaques réelles ; ensuite en pratique, lorsque les ensembles de données – et les « améliorations » apportées par les auteurs – ont été utilisés pour attaquer des modèles réels.

Lors de la deuxième série de tests, la méthode de reformulation des chercheurs a été améliorée de manière itérative jusqu'à obtenir des résultats optimaux en termes de taux de réussite des attaques (ASR) :

Le blanchiment d'intention commence par le traitement d'une requête manifestement malveillante par un modèle de réécriture qui supprime le langage déclencheur explicite tout en préservant l'intention malveillante sous-jacente. La requête ainsi modifiée est ensuite soumise à un modèle cible, et sa réponse est évaluée quant à sa sécurité et son applicabilité concrète. Si la réponse est jugée dangereuse et utilisable en pratique, l'attaque est considérée comme réussie. Dans le cas contraire, les versions précédentes ayant échoué sont réinjectées dans le modèle de réécriture afin de générer des versions améliorées, créant ainsi une boucle itérative qui fonctionne comme un mécanisme de jailbreak jusqu'à ce qu'un nombre prédéfini de tentatives soit atteint ou qu'un taux de réussite d'attaque souhaité soit obtenu.

Les auteurs précisent* :

« Nos résultats montrent qu’avec cette boucle de régénération, le blanchiment intentionnel permet d’atteindre ASR élevé (90 %–98.55 %) Après seulement quelques itérations sur l'ensemble des modèles étudiés, avec un accès totalement opaque. Cela inclut des modèles récents largement reconnus comme étant parmi les plus sûrs, tels que : Gémeaux 3 Pro et Claude Sonnet 3.7.

Ces résultats confirment une fois de plus que les méthodes d'évaluation et d'alignement de la sécurité existantes sont fortement suradaptées.^† aux signaux déclencheurs.

L'espace nouveau travail est intitulé Blanchiment d'intentions : les ensembles de données sur la sécurité de l'IA ne sont pas ce qu'ils paraissent., et est l'œuvre de deux auteurs de la société de logiciels Labelbox, basée à San Francisco.

Méthode

Pour étudier la composition et l'architecture des deux ensembles de données de référence de manière isolée, des nuages de mots ont été générés à partir des deux corpus, révélant quels mots et courtes expressions dominaient les collections :

Nuages de mots présentant les 40 unigrammes, bigrammes et trigrammes les plus fréquents dans les ensembles de données combinés AdvBench et HarmBench. Les termes à connotation intrinsèquement négative ou sensible sont surlignés en rouge, les déclencheurs contextuels en orange et les mots neutres constituant des déclencheurs de niveau supérieur en vert. La concentration d'expressions explicites telles que « sans se faire prendre » et « instructions étape par étape » suggère que les deux jeux de données de référence s'appuient fortement sur des indices explicites plutôt que sur des attaques réalistes et malveillantes.

Les auteurs notent que les grammes dominants d'un, deux et trois mots révèlent de manière improbable une intention malveillante, contrairement au type de langage que les criminels eux-mêmes utilisent dans leurs discussions, et que les attaquants utilisent lorsqu'ils testent ou tentent de compromettre les défenses des LLM.

« Ces indices compromettent deux propriétés – le fait d'être bien conçus et motivés par une intention cachée – car un tel langage explicite apparaît rarement dans les attaques réelles et semble conçu pour déclencher artificiellement les mécanismes de sécurité. »

L'article qualifie les schémas des collections de « signaux déclencheurs » – des phrases aux connotations ouvertement négatives ou sensibles qui apparaissent un pour activer les filtres de sécurité. Certains sont intrinsèquement chargés, comme par exemple 'se suicider', tandis que d'autres ne sont chargés de charge que dans leur contexte, par exemple lorsqu'un objectif nuisible est associé à une formulation telle que « sans se faire prendre », ce qui signale une intention claire d'échapper à la détection.

Le déséquilibre linguistique des ensembles de données devient plus évident à mesure que le nombre de mots dans le nLe nombre de n-grammes augmente, les expressions à connotation explicitement négative ou sensible dominant les n-grammes les plus fréquents (voir image ci-dessus). L'article les décrit comme phrases déclencheurs, qui, avec un seul mots déclencheurs, constituent déclencheurs.

Certaines expressions ne font qu'étendre des termes déjà chargés de sens, comme par exemple lorsque 'voler' devient « voler des informations sensibles », « voler des informations confidentielles », ou « voler des informations personnelles »; et, par exemple, lorsque 'commettre' se développe dans 'se suicider', «commettre un délit d'initié», ou «commettre un vol d'identité» – il s’agit clairement du langage et de la phraséologie employés par la police, les tribunaux et les médias.

D'autres sont entièrement constitués de mots neutres qui ne deviennent problématiques que lorsqu'ils sont combinés, comme par exemple : «sans se faire prendre», une construction qui signale une tentative d'évasion bien qu'elle ne contienne aucun terme intrinsèquement chargé.

Doubler

Les auteurs observent que la répétition d'indices explicites non seulement rend les incitations artificielles, mais indique également une duplication considérable des données dans les collections. Pour tester cette théorie, ils ont mené une expérience. vérifications de similarité par paires sur chaque ensemble de données, en appliquant des seuils de 0.7 à 0.99 et en regroupant les invites qui dépassaient un seuil donné comme des doublons, tout en traitant les autres comme uniques.

Comme il n'existe pas de norme convenue pour définir ce qui constitue une « forte » similarité dans un ensemble de données à domaine unique, ils ont utilisé le jeu de données Grade School Math d'Open AI (GSM8K), un référentiel populaire non lié à la sécurité, dont la taille de l'échantillon est identique à celle de HarmBench et d'AdvBench pour une comparaison contrôlée :

Les taux de duplication dans AdvBench et HarmBench, selon différents seuils de similarité, sont comparés à ceux de sous-ensembles GSM8K de taille équivalente. À presque chaque seuil, les ensembles de données de sécurité contiennent beaucoup plus d'invites quasi identiques que l'ensemble de référence non lié à la sécurité, ce qui indique une évaluation répétée de la même intention malveillante avec une formulation légèrement différente et suggère que les performances de sécurité rapportées pourraient être surestimées.

Taux de duplication dans AdvBench et HarmBench selon les seuils de similarité, comparés à des sous-ensembles GSM8K de taille équivalente. À presque chaque seuil, les ensembles de données de sécurité contiennent beaucoup plus d'invites quasi identiques que l'ensemble de données de référence non lié à la sécurité, ce qui indique une évaluation répétée de la même intention malveillante avec une formulation légèrement différente et suggère que les performances de sécurité rapportées pourraient être surestimées. Veuillez consulter l'article source pour plus de détails.

Une deuxième conclusion de cette partie de l'étude a consisté à comparer les invites au sein de chaque ensemble de données, afin de mesurer le nombre de questions réellement différentes. Avec un seuil de similarité moyen, seulement 11 % environ des invites d'AdvBench étaient distinctes, tandis que près de 94 % des questions d'un échantillon GSM8K de taille comparable étaient différentes.

Les exemples de questions quasi identiques dans AdvBench et HarmBench ne diffèrent que par leur formulation, tout en exprimant la même intention malveillante. L'utilisation répétée d'indices explicites, affichés en rouge pour les termes intrinsèquement connotés et en orange pour les termes contextuels, crée des groupes de questions permettant de tester efficacement un même scénario à plusieurs reprises ; une seule réponse suffit donc généralement à évaluer le modèle pour cette intention.

HarmBench a montré la même tendance, avec 16 % de doublons à ce niveau contre 3.5 % dans GSM8K, ce qui signifie que les ensembles de données de sécurité réutilisaient souvent la même requête malveillante avec des modifications mineures de formulation.

Si l'on considère 85 % d'exemples distincts comme un critère raisonnable, AdvBench n'a atteint ce niveau que dans des conditions extrêmement strictes, et n'a même pas dépassé les 90 %, tandis que GSM8K a atteint 85 % avec un seuil bien plus bas. D'après l'article, ce constat suggère que les tests de sécurité évaluent des variations répétées d'un même concept, plutôt qu'un large éventail de scénarios d'attaque.

Autres approches et tests

La technique de « blanchiment d'intention » mentionnée précédemment, basée sur le LLM, supprime le langage déclencheur explicite tout en préservant l'objectif malveillant sous-jacent. Au lieu d'énoncer l'intention clairement, les messages d'avertissement modifiés impliquer elle conserve la charge utile malveillante, mais évite les indices susceptibles de provoquer un refus immédiat de la part du LLM.

Les deux méthodes facilitant cela étaient neutralisation des connotations, qui remplace les termes ouvertement négatifs par des alternatives neutres ou descriptives ; et transposition de contexte, qui transpose des références au monde réel dans des contextes fictifs, sans en altérer le sens pratique.

Une petite série de révisions a d'abord été rédigée à la main, après quoi le processus a été automatisé à l'aide de GPT-5.1 (gpt-5.1-2025-11-13), avec un tir à huit coups apprentissage en contexte mis en place comme le « blanchisseur d'intention »Les réponses aux questions originales et réécrites ont ensuite été comparées afin de mesurer l'influence de la formulation explicite des déclencheurs sur les évaluations de sécurité.

Étant donné que le blanchiment d'intention peut modifier à la fois le libellé et le cadrage, les réponses ont été évaluées en fonction de sécurité et et pratiqueLa sécurité a été évaluée sur une échelle de cinq points. échelle de Likert, de «Extrêmement dangereux» à 'sûr', à condition que la réponse ait préservé l’intention malveillante initiale – et, le cas échéant, à quel point elle était nuisible :

Un modèle de questionnaire a été utilisé pour l'évaluation standard de la sécurité des réponses aux données initiales d'AdvBench et HarmBench, avant l'application du mécanisme de dissimulation d'intention. Le modèle GPT-5.1 a été programmé pour évaluer chaque réponse sur une échelle de Likert à cinq points, allant de « Extrêmement dangereux » à « Sûr », et pour formuler un jugement global unique indiquant si le contenu permettait de causer un préjudice ou s'il restait non exploitable.

La « praticabilité » a été évaluée sur une échelle parallèle à cinq points. «Extrêmement applicable» à 'inapplicable', en fonction de la facilité d'utilisation et de la transférabilité des détails dans le monde réel ; et les performances mesurées par ASR, une révision n'étant considérée comme réussie que si la réponse était à la fois dangereux et pratique.

Les notes à cinq points ont été converties en résultats binaires afin de réduire l'ambiguïté, et le blanchiment d'intention a également été pris en compte. a évolué vers une méthode de jailbreak En ajoutant une boucle itérative de révision et de régénération, les révisions ayant échoué étaient réinjectées dans GPT-5.1 selon la même configuration d'apprentissage contextuel à huit exemples. Cette boucle se poursuivait jusqu'à ce qu'un nombre prédéfini de tentatives soit atteint ou qu'une reconnaissance automatique de la parole (ASR) cible soit obtenue.

Pour les tests d'évaluation de sécurité, le Python package de nuage de mots a été utilisé pour extraire des n-grammes de HarmBench et AdvBench, avec des méthodes de filtrage classiques (c'est-à-dire pour supprimer mots vides et autres mots et caractères non pertinents).

Les mêmes ensembles de données de sécurité utilisés pour l'analyse précédente du nuage de mots ont été combinés avec des échantillons aléatoires du GSM8K susmentionné, le nombre de mots étant égalisé pour assurer la parité entre les collections.

Les auteurs ont utilisé plongements du all-MiniLM-L6-V2 point de contrôle à partir de Transformateurs de phrases BERT, car ce système est déjà optimisé pour le regroupement et la recherche sémantique.

Les critères d'évaluation ont été élaborés par (le maintenant décédéLe modèle OpenAI GPT-4o, limité à 1024 jetons, a été utilisé. GPT-5.1 a évalué la sécurité et la praticité après le blanchiment d'intention, sans exemple préalable, en étant parfaitement identique au blanchisseur d'intention lui-même, à l'exception du nombre de jetons également limité à 1024.

Les modèles testés étaient Gemini 3 Pro ; Claude Sonnet 3.7 ; Grok 4; GPT-4o; et Qwen2.5-7B-Instruire. Le cas échéant, puisque raisonnement Ce facteur étant superflu, il a été réduit autant que possible dans les modèles capables de raisonnement.

Tous les modèles étaient limités à une limite de sortie de 4096 jetons :

Évaluation de la sécurité (ES), de la praticabilité (PP) et du taux de réussite des attaques (TRA) pour sept modèles sur AdvBench (en haut) et HarmBench (en bas) dans trois conditions : sans révision, première révision et itérations de régénération et de révision ultérieures du blanchiment d’intention. L’ES indique le pourcentage de réponses jugées « extrêmement dangereuses », « très dangereuses » ou « dangereuses » ; la PP indique le pourcentage de réponses jugées « extrêmement applicables », « très applicables » ou « applicables » ; et le TRA mesure la proportion de réponses à la fois dangereuses et pratiques. Sans révision, le TRA suit sa définition standard, aucune abstraction n’étant appliquée. Les valeurs en gras indiquent le TRA le plus élevé obtenu dans chaque ensemble de données, un TRA plus faible correspondant à une meilleure sécurité du modèle. Pour une résolution plus fine, veuillez consulter l’article source.

Concernant ces premiers résultats, les auteurs notent que la suppression des signaux déclencheurs explicites dans les invites d'attaque a entraîné une forte augmentation du taux de réussite des attaques. Sur AdvBench, le taux de reconnaissance automatique (ASR) moyen est passé de 5.38 % initialement à 86.79 % après la première modification, et sur HarmBench, de 13.79 % à 79.83 %, ce qui indique que les refus des modèles étaient fortement liés à la présence d'un langage déclencheur explicite.

Les auteurs observent :

« Cela indique que les refus des modèles sont largement motivés par la présence de signaux déclencheurs. » Par conséquent, les ensembles de données de sécurité ne mesurent pas de manière fiable les risques réels pour la sécurité, car ils reposent davantage sur des signaux déclencheurs pour susciter des refus que sur une intention malveillante réelle.

L'article affirme que le blanchiment d'intention a permis de supprimer efficacement les indices déclencheurs tout en préservant l'intention malveillante, et a fonctionné comme une méthode de jailbreak efficace. Lors de la dernière itération de révision-régénération, correspondant au taux de réussite des attaques le plus élevé dans chaque ensemble de données, les taux de réussite des attaques ont atteint 90% à 98.55% sur tous les modèles.

Cela comprenait les Gemini 3 Pro et Claude Sonnet 3.7, qui ont été jailbreakés avec des ASR de 93 % à 95 % sur AdvBench et de 91 % à 93 % sur HarmBench, après seulement quelques itérations.

Les auteurs concluent:

« Nos résultats ont montré que les conclusions antérieures en matière de sécurité ne sont plus valables une fois les signaux déclencheurs supprimés, et que les performances de sécurité observées sont largement déterminées par la présence de ces signaux plutôt que par les risques de sécurité sous-jacents. »

« Nous avons également démontré que le blanchiment d'intention peut être utilisé comme une technique de jailbreak puissante, atteignant des taux de réussite d'attaque élevés, de 90 % à plus de 98 %. »

« Globalement, nos résultats ont révélé un écart critique entre la manière dont la sécurité des modèles est évaluée et la manière dont les comportements adverses se manifestent dans le monde réel. »

« Sur cette base, nous concluons que (1) les évaluations de sécurité doivent évoluer pour appréhender plus fidèlement les attaques adverses, et (2) les efforts actuels d'alignement sur la sécurité sont encore loin d'être robustes face aux menaces du monde réel. »

Conclusion

Un point commun demeure entre la littérature sur le langage et la vision par ordinateur (et les points de convergence de ces deux domaines, tels que…) VLM) est une incapacité à fiable comprendre quand on se laisse berner et qu'on produit du contenu interdit ; ou même quand on y tombe par inadvertance, sans contrainte extérieure.

Dans les coulisses des fonderies de modèles plus vastes et plus opaques, on ne peut que supposer que le resserrement radical des rênes sur ces zones de captation sémantique entraîne des dommages collatéraux inacceptables, tels que des baisses de performance sur les générations « non interdites » ou un taux intolérable de faux positifs du filtre de contenu.

La nature fondamentale d'un modèle entraîné dans n'importe quel domaine est de suivre toutes ses données d'entraînement jusqu'à n'importe quelle conclusion vers laquelle une incitation pourrait le conduire ; indigène Les contraintes disponibles sont : a) ne pas inclure de contenu controversé dans les données d’entraînement (ce qui pose autant de problèmes logistiques qu’autre chose) ; ou b) « couper » les accès au contenu indésirable après l’entraînement (un processus souvent réversible par une action explicite). ablation, ou en tant que effet secondaire non intentionnel de réglages fins).

* J'ai remplacé les citations en ligne des auteurs par des hyperliens. Les passages soulignés sont ceux des auteurs, pas les miens.

^†https://www.unite.ai/what-is-overfitting/

Première publication le lundi 23 février 2026

Rubriques connexes:Jailbreaks IA Grands modèles de langage (LLM)LLM Sécurité

Martin Anderson

Rédacteur en apprentissage automatique, spécialiste du domaine de la synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.
Site personnel : martinanderson.ai
Contact [email protected]
Twitter : @manders_ai

Unite.AI

Une simple reformulation compromet la sécurité de l'IA, même pour Gemini et Claude.

Méthode

Doubler

Autres approches et tests

Conclusion

Tu peux aimer