Suivez nous sur

Qu’est-ce que la poĂ©sie contradictoire ? Une nouvelle mĂ©thode de jailbreak pour l’IA

Intelligence Artificielle

Qu’est-ce que la poĂ©sie contradictoire ? Une nouvelle mĂ©thode de jailbreak pour l’IA

mm

La sĂ©curitĂ© de l'intelligence artificielle (IA) est devenue un jeu du chat et de la souris permanent. Alors que les dĂ©veloppeurs mettent en place des garde-fous pour bloquer les requĂŞtes malveillantes, les attaquants cherchent sans cesse de nouvelles façons de les contourner. L'une des plus Ă©tranges est la poĂ©sie malveillante. Cette tactique consiste Ă  dissimuler des instructions sous forme de vers et Ă  utiliser rimes, mĂ©taphores et tournures de phrases inhabituelles pour rendre les instructions risquĂ©es moins visibles pour les systèmes de sĂ©curitĂ©. 

En pratique, le contenu lui-mĂŞme ne change pas beaucoup. C'est le conteneur qui Ă©volue, ce qui peut suffire Ă  perturber les filtres basĂ©s sur des modèles. Cela nous rappelle qu'avec les modèles actuels, la formulation d'une requĂŞte peut ĂŞtre presque aussi importante que sa formulation mĂŞme. 

Que s'est-il passé lorsque des chercheurs ont utilisé des poèmes pour casser l'IA ?

Début 2025, des chercheurs ont démontré que l'on pouvait inciter les grands modèles de langage (GML) à répondre à des requêtes spécifiques en les intégrant sous forme poétique. Au lieu de formuler des instructions directes déclenchant des politiques, les chercheurs ont dissimulé ces mêmes requêtes dans des rimes, des métaphores et des vers narratifs.

En apparence, les consignes semblaient être des exercices d'écriture créative, mais en réalité, elles véhiculaient la même intention qui serait normalement bloquée. Sur 25 modèles propriétaires et ouverts pondérés, l'équipe a constaté que le cadrage poétique permettait d'atteindre un taux de réussite moyen de « jailbreak » de 62% pour les poèmes faits à la main et environ 43 % pour la « conversion de versets » en masse à l’aide d’une méta-invite standardisée.

Les rĂ©ponses elles-mĂŞmes n'Ă©taient pas des Ă©checs inĂ©dits, mais des Ă©checs familiers surgissant de manière inattendue. Les modèles ont Ă©tĂ© incitĂ©s Ă  produire un contenu qu'ils Ă©vitent habituellement — comme des explications Ă©voquant des activitĂ©s illĂ©gales ou nuisibles — car la requĂŞte sous-jacente Ă©tait fragmentĂ©e et obscurcie par une structure poĂ©tique. 

L'Ă©tude rĂ©vèle principalement que de simples variations stylistiques peuvent suffire Ă  contourner les systèmes de sĂ©curitĂ© conçus pour une interprĂ©tation littĂ©rale. Elle met en lumière une vulnĂ©rabilitĂ© commune Ă  diffĂ©rentes familles de modèles et approches d'alignement. 

Comment fonctionne la poésie conflictuelle

Les attaques adverses exploitent une rĂ©alitĂ© simple : les systèmes d’apprentissage automatique ne « comprennent Â» pas le langage comme les humains. Ils dĂ©tectent des schĂ©mas, prĂ©disent les suites probables et suivent des instructions en fonction de ce que leurs couches d’entraĂ®nement et de sĂ©curitĂ© interprètent comme une intention. 

Lorsqu'une consigne est formulĂ©e de manière directe et littĂ©rale, les mĂ©canismes de contrĂ´le la repèrent et la bloquent plus facilement. En revanche, si le mĂŞme objectif est dissimulĂ© (sĂ©parĂ©, attĂ©nuĂ© ou reformulĂ©), ces mĂ©canismes peuvent ne pas saisir la vĂ©ritable demande. 

Pourquoi la poésie peut être un véhicule efficace

La poĂ©sie se prĂŞte naturellement Ă  l'ambiguĂŻtĂ©. Elle s'appuie sur la mĂ©taphore, l'abstraction, une structure inhabituelle et un phrasĂ© indirect. Ce sont prĂ©cisĂ©ment ces caractĂ©ristiques qui peuvent brouiller la frontière entre « Ă©criture crĂ©ative inoffensive Â» et « une demande qu'il convient de refuser Â».

Dans cette mĂŞme Ă©tude de 2025, les chercheurs ont rapportĂ© que les incitations poĂ©tiques suscitaient des rĂ©ponses dangereuses avec un taux de rĂ©ussite de 90 % sur un large Ă©ventail de modèles, indiquant que le style Ă  lui seul peut modifier sensiblement les rĂ©sultats. 

Comment un poème dissimule une véritable demande

ConsidĂ©rez la requĂŞte comme un message et le poème comme son emballage. Les filtres de sĂ©curitĂ© recherchent souvent des signes Ă©vidents, tels que des mots-clĂ©s explicites, un Ă©noncĂ© direct et Ă©tape par Ă©tape ou une intention malveillante reconnaissable. 

La poĂ©sie peut dissimuler cette intention par le biais de figures de style ou la dissĂ©miner sur plusieurs vers, la rendant ainsi plus difficile Ă  dĂ©celer isolĂ©ment. Pourtant, le modèle sous-jacent parvient toujours Ă  reconstituer le sens avec suffisamment de prĂ©cision pour y rĂ©pondre, car il est optimisĂ© pour infĂ©rer l'intention mĂŞme lorsque le langage est indirect. 

Détection et atténuation des jailbreaks

Face Ă  la sophistication croissante des mĂ©thodes de jailbreak, le dĂ©bat doit se dĂ©placer de leur fonctionnement Ă  leur dĂ©tection et leur neutralisation. C'est d'autant plus vrai aujourd'hui que l'IA fait partie intĂ©grante du quotidien de nombreuses personnes. 27 % des personnes interrogĂ©es dĂ©clarent l'utiliser. plusieurs fois par jour. 

À mesure que l'utilisation des grands modèles de langage (LLM) se généralise, il convient de tester et d'explorer des mesures de protection supplémentaires. Cette tâche implique la mise en place de défenses multicouches capables de s'adapter aux nouveaux styles d'invites et aux techniques d'évasion qui émergent.

Le dilemme du développeur

Le plus grand dĂ©fi pour les Ă©quipes de sĂ©curitĂ© de l'IA face aux jailbreaks rĂ©side dans leur nature Ă©volutive : ils ne constituent pas une menace unique et connue. Ils changent constamment. Cette Ă©volution permanente s'explique par la capacitĂ© d'un utilisateur Ă  reformuler une consigne, la fragmenter, l'intĂ©grer Ă  un jeu de rĂ´le ou la dissimuler sous forme d'Ă©criture crĂ©ative. Chaque nouvelle prĂ©sentation peut ensuite modifier l'interprĂ©tation de la consigne par le système. 

Ce défi prend rapidement de l'ampleur lorsque l'IA est déjà intégrée aux routines quotidiennes, de sorte que son utilisation réelle crée d'innombrables occasions de voir apparaître des cas limites.

C’est pourquoi la sĂ©curitĂ© de l’IA aujourd’hui s’apparente davantage Ă  une gestion des risques dans le temps. Le cadre de gestion des risques liĂ©s Ă  l’IA (AI RMF) du NIST traite explicitement de la gestion des risques. comme un ensemble continu d'activitĂ©s L’objectif est de crĂ©er des processus structurĂ©s autour de quatre axes : gouvernance, cartographie, mesure et gestion. Il ne s’agit pas d’une simple liste de contrĂ´le statique, mais plutĂ´t de faciliter l’identification des dĂ©faillances Ă©mergentes, la priorisation des correctifs et le renforcement des mesures de sĂ©curitĂ© face Ă  l’apparition de nouvelles techniques de jailbreak. 

Comment les mannequins se protègent

La sĂ©curitĂ© de l'IA repose sur plusieurs niveaux. La plupart des systèmes disposent de plusieurs mĂ©canismes de dĂ©fense fonctionnant de concert, chacun dĂ©tectant diffĂ©rents types de comportements Ă  risque. Au niveau externe, le filtrage des entrĂ©es et des sorties joue le rĂ´le de filtre. 

Les requĂŞtes entrantes sont analysĂ©es pour dĂ©tecter les violations de politique avant d'atteindre le système principal, tandis que les rĂ©ponses sortantes sont vĂ©rifiĂ©es afin de garantir qu'aucune donnĂ©e ne soit transmise Ă  l'utilisateur. Ces systèmes sont efficaces pour identifier les requĂŞtes directes ou les signaux d'alerte connus, mais ils sont aussi les plus faciles Ă  contourner ; c'est pourquoi les jailbreaks les plus trompeurs les contournent souvent. 

La couche de protection suivante se situe au sein mĂŞme du modèle. Lorsque des techniques de jailbreak sont dĂ©couvertes, elles sont souvent transformĂ©es en exemples d'entraĂ®nement. C'est lĂ  qu'interviennent l'entraĂ®nement adverse et l'apprentissage par renforcement Ă  partir de retours humains (RLHF). 

En affinant les modèles à partir d'exemples d'interactions ratées ou risquées, les développeurs apprennent au système à reconnaître les schémas à rejeter, même lorsqu'ils sont présentés de manière créative ou indirecte. À terme, ce processus contribue à immuniser le modèle contre des catégories entières d'attaques.

Le rôle de l’IA dans les « équipes rouges »

Plutôt que d'attendre une faille de sécurité, les entreprises font appel à des équipes d'attaque IA. Ces équipes sont chargées de tenter de compromettre les modèles dans des environnements contrôlés. Elles abordent les systèmes comme le ferait un attaquant, en expérimentant des formulations inhabituelles, des formats originaux et des cas limites afin de déceler les faiblesses des systèmes de sécurité. L'objectif est de révéler ces vulnérabilités avant qu'elles ne soient exploitées en situation réelle.

Les tests d'intrusion (Red Teaming) sont dĂ©sormais un Ă©lĂ©ment essentiel du cycle de vie du dĂ©veloppement dans les stratĂ©gies de cybersĂ©curitĂ© actuelles. Lorsqu'une Ă©quipe dĂ©couvre une nouvelle technique de jailbreak, les donnĂ©es recueillies alimentent directement les processus d'entraĂ®nement et d'Ă©valuation. Ces informations servent Ă  dĂ©finir des filtres, Ă  ajuster les politiques et Ă  renforcer l'entraĂ®nement des adversaires afin de rĂ©duire les chances de succès de tentatives similaires Ă  l'avenir. Au fil du temps, ce processus crĂ©e une boucle continue : identifier les failles, en tirer des enseignements et amĂ©liorer le système, puis recommencer.

Quand la poésie devient un test de résistance pour la sécurité de l'IA

La poésie contradictoire nous rappelle que la sécurité de l'IA dépend de la formulation des questions, et pas seulement de leur contenu. À mesure que les modèles deviennent plus accessibles et répandus, les chercheurs continueront d'explorer les failles entre le langage créatif et les systèmes de sécurité conçus pour détecter les intentions plus explicites. En conclusion, une IA plus sûre reposera sur de multiples défenses évoluant aussi rapidement que les techniques de jailbreak.

Zac Amos est un rédacteur technique qui se concentre sur l'intelligence artificielle. Il est également éditeur de fonctionnalités chez Repirater, où vous pouvez lire plus de son travail.