Intelligence Artificielle
Qu’est-ce que la poésie contradictoire ? Une nouvelle méthode de jailbreak pour l’IA
La sécurité de l'intelligence artificielle (IA) est devenue un jeu du chat et de la souris permanent. Alors que les développeurs mettent en place des garde-fous pour bloquer les requêtes malveillantes, les attaquants cherchent sans cesse de nouvelles façons de les contourner. L'une des plus étranges est la poésie malveillante. Cette tactique consiste à dissimuler des instructions sous forme de vers et à utiliser rimes, métaphores et tournures de phrases inhabituelles pour rendre les instructions risquées moins visibles pour les systèmes de sécurité.
En pratique, le contenu lui-même ne change pas beaucoup. C'est le conteneur qui évolue, ce qui peut suffire à perturber les filtres basés sur des modèles. Cela nous rappelle qu'avec les modèles actuels, la formulation d'une requête peut être presque aussi importante que sa formulation même.
Que s'est-il passé lorsque des chercheurs ont utilisé des poèmes pour casser l'IA ?
Début 2025, des chercheurs ont démontré que l'on pouvait inciter les grands modèles de langage (GML) à répondre à des requêtes spécifiques en les intégrant sous forme poétique. Au lieu de formuler des instructions directes déclenchant des politiques, les chercheurs ont dissimulé ces mêmes requêtes dans des rimes, des métaphores et des vers narratifs.
En apparence, les consignes semblaient être des exercices d'écriture créative, mais en réalité, elles véhiculaient la même intention qui serait normalement bloquée. Sur 25 modèles propriétaires et ouverts pondérés, l'équipe a constaté que le cadrage poétique permettait d'atteindre un taux de réussite moyen de « jailbreak » de 62% pour les poèmes faits à la main et environ 43 % pour la « conversion de versets » en masse à l’aide d’une méta-invite standardisée.
Les réponses elles-mêmes n'étaient pas des échecs inédits, mais des échecs familiers surgissant de manière inattendue. Les modèles ont été incités à produire un contenu qu'ils évitent habituellement — comme des explications évoquant des activités illégales ou nuisibles — car la requête sous-jacente était fragmentée et obscurcie par une structure poétique.
L'étude révèle principalement que de simples variations stylistiques peuvent suffire à contourner les systèmes de sécurité conçus pour une interprétation littérale. Elle met en lumière une vulnérabilité commune à différentes familles de modèles et approches d'alignement.
Comment fonctionne la poésie conflictuelle
Les attaques adverses exploitent une réalité simple : les systèmes d’apprentissage automatique ne « comprennent » pas le langage comme les humains. Ils détectent des schémas, prédisent les suites probables et suivent des instructions en fonction de ce que leurs couches d’entraînement et de sécurité interprètent comme une intention.
Lorsqu'une consigne est formulée de manière directe et littérale, les mécanismes de contrôle la repèrent et la bloquent plus facilement. En revanche, si le même objectif est dissimulé (séparé, atténué ou reformulé), ces mécanismes peuvent ne pas saisir la véritable demande.
Pourquoi la poésie peut être un véhicule efficace
La poésie se prête naturellement à l'ambiguïté. Elle s'appuie sur la métaphore, l'abstraction, une structure inhabituelle et un phrasé indirect. Ce sont précisément ces caractéristiques qui peuvent brouiller la frontière entre « écriture créative inoffensive » et « une demande qu'il convient de refuser ».
Dans cette même étude de 2025, les chercheurs ont rapporté que les incitations poétiques suscitaient des réponses dangereuses avec un taux de réussite de 90 % sur un large éventail de modèles, indiquant que le style à lui seul peut modifier sensiblement les résultats.
Comment un poème dissimule une véritable demande
Considérez la requête comme un message et le poème comme son emballage. Les filtres de sécurité recherchent souvent des signes évidents, tels que des mots-clés explicites, un énoncé direct et étape par étape ou une intention malveillante reconnaissable.
La poésie peut dissimuler cette intention par le biais de figures de style ou la disséminer sur plusieurs vers, la rendant ainsi plus difficile à déceler isolément. Pourtant, le modèle sous-jacent parvient toujours à reconstituer le sens avec suffisamment de précision pour y répondre, car il est optimisé pour inférer l'intention même lorsque le langage est indirect.
Détection et atténuation des jailbreaks
Face à la sophistication croissante des méthodes de jailbreak, le débat doit se déplacer de leur fonctionnement à leur détection et leur neutralisation. C'est d'autant plus vrai aujourd'hui que l'IA fait partie intégrante du quotidien de nombreuses personnes. 27 % des personnes interrogées déclarent l'utiliser. plusieurs fois par jour.
À mesure que l'utilisation des grands modèles de langage (LLM) se généralise, il convient de tester et d'explorer des mesures de protection supplémentaires. Cette tâche implique la mise en place de défenses multicouches capables de s'adapter aux nouveaux styles d'invites et aux techniques d'évasion qui émergent.
Le dilemme du développeur
Le plus grand défi pour les équipes de sécurité de l'IA face aux jailbreaks réside dans leur nature évolutive : ils ne constituent pas une menace unique et connue. Ils changent constamment. Cette évolution permanente s'explique par la capacité d'un utilisateur à reformuler une consigne, la fragmenter, l'intégrer à un jeu de rôle ou la dissimuler sous forme d'écriture créative. Chaque nouvelle présentation peut ensuite modifier l'interprétation de la consigne par le système.
Ce défi prend rapidement de l'ampleur lorsque l'IA est déjà intégrée aux routines quotidiennes, de sorte que son utilisation réelle crée d'innombrables occasions de voir apparaître des cas limites.
C’est pourquoi la sécurité de l’IA aujourd’hui s’apparente davantage à une gestion des risques dans le temps. Le cadre de gestion des risques liés à l’IA (AI RMF) du NIST traite explicitement de la gestion des risques. comme un ensemble continu d'activités L’objectif est de créer des processus structurés autour de quatre axes : gouvernance, cartographie, mesure et gestion. Il ne s’agit pas d’une simple liste de contrôle statique, mais plutôt de faciliter l’identification des défaillances émergentes, la priorisation des correctifs et le renforcement des mesures de sécurité face à l’apparition de nouvelles techniques de jailbreak.
Comment les mannequins se protègent
La sécurité de l'IA repose sur plusieurs niveaux. La plupart des systèmes disposent de plusieurs mécanismes de défense fonctionnant de concert, chacun détectant différents types de comportements à risque. Au niveau externe, le filtrage des entrées et des sorties joue le rôle de filtre.
Les requêtes entrantes sont analysées pour détecter les violations de politique avant d'atteindre le système principal, tandis que les réponses sortantes sont vérifiées afin de garantir qu'aucune donnée ne soit transmise à l'utilisateur. Ces systèmes sont efficaces pour identifier les requêtes directes ou les signaux d'alerte connus, mais ils sont aussi les plus faciles à contourner ; c'est pourquoi les jailbreaks les plus trompeurs les contournent souvent.
La couche de protection suivante se situe au sein même du modèle. Lorsque des techniques de jailbreak sont découvertes, elles sont souvent transformées en exemples d'entraînement. C'est là qu'interviennent l'entraînement adverse et l'apprentissage par renforcement à partir de retours humains (RLHF).
En affinant les modèles à partir d'exemples d'interactions ratées ou risquées, les développeurs apprennent au système à reconnaître les schémas à rejeter, même lorsqu'ils sont présentés de manière créative ou indirecte. À terme, ce processus contribue à immuniser le modèle contre des catégories entières d'attaques.
Le rôle de l’IA dans les « équipes rouges »
Plutôt que d'attendre une faille de sécurité, les entreprises font appel à des équipes d'attaque IA. Ces équipes sont chargées de tenter de compromettre les modèles dans des environnements contrôlés. Elles abordent les systèmes comme le ferait un attaquant, en expérimentant des formulations inhabituelles, des formats originaux et des cas limites afin de déceler les faiblesses des systèmes de sécurité. L'objectif est de révéler ces vulnérabilités avant qu'elles ne soient exploitées en situation réelle.
Les tests d'intrusion (Red Teaming) sont désormais un élément essentiel du cycle de vie du développement dans les stratégies de cybersécurité actuelles. Lorsqu'une équipe découvre une nouvelle technique de jailbreak, les données recueillies alimentent directement les processus d'entraînement et d'évaluation. Ces informations servent à définir des filtres, à ajuster les politiques et à renforcer l'entraînement des adversaires afin de réduire les chances de succès de tentatives similaires à l'avenir. Au fil du temps, ce processus crée une boucle continue : identifier les failles, en tirer des enseignements et améliorer le système, puis recommencer.
Quand la poésie devient un test de résistance pour la sécurité de l'IA
La poésie contradictoire nous rappelle que la sécurité de l'IA dépend de la formulation des questions, et pas seulement de leur contenu. À mesure que les modèles deviennent plus accessibles et répandus, les chercheurs continueront d'explorer les failles entre le langage créatif et les systèmes de sécurité conçus pour détecter les intentions plus explicites. En conclusion, une IA plus sûre reposera sur de multiples défenses évoluant aussi rapidement que les techniques de jailbreak.












