Kunstmatige intelligentie
Wat is Adversarial Poetry? Een Nieuwe AI Jailbreak Methode
Artificiële intelligentie (AI) veiligheid is een constant kat-en-muisspel geworden. Terwijl ontwikkelaars beschermingsmaatregelen toevoegen om schadelijke verzoeken te blokkeren, proberen aanvallers voortdurend nieuwe manieren te vinden om deze te omzeilen. Een van de vreemdste wendingen tot nu toe is adversarial poetry. Deze tactiek houdt in dat prompts worden vermomd als verzen en gebruik wordt gemaakt van rijm, metafoor en ongebruikelijke formuleringen om riskante instructies er minder uit te laten zien als de dingen waar veiligheidssystemen op zijn getraind.
In de praktijk verandert de inhoud zelf niet veel. Het is de verpakking die dat doet, wat al genoeg kan zijn om patroon-gebaseerde filters te verwarren. Het is een herinnering dat, met de huidige modellen, hoe iets wordt gevraagd, bijna even belangrijk kan zijn als wat er wordt gevraagd.
Wat Gebeurde Toen Onderzoekers Poëzie Gebruikten Om AI Te Kraken?
In het begin van 2025 toonden onderzoekers aan dat grote taalmodellen (LLM’s) konden worden geprompt om te reageren op beperkte prompts door ze in poëtische vorm te wikkelen. In plaats van directe, beleidsuitgelokte instructies te geven, hebben de onderzoekers dezelfde verzoeken ingebed in rijmen, metaforen en narratieve verzen.
Aan de oppervlakte leken de prompts op creatieve schrijfoefeningen, maar onder de oppervlakte droegen ze dezelfde intentie die normaal zou worden geblokkeerd. Over 25 frontier proprietary en open-weighted modellen meldden het team dat poëtische kadering een gemiddelde jailbreak-succesrate van 62% voor met de hand gemaakte gedichten en ongeveer 43% voor bulk “verse conversie” met een gestandaardiseerde meta-prompt.
De antwoorden zelf waren geen nieuwe soorten fouten, maar vertrouwde fouten die opdoken via een onverwachte deur. De modellen werden aangemoedigd om inhoud te produceren die ze typisch vermijden — zoals uitleg die aanraakt bij illegale of schadelijke activiteiten — omdat het onderliggende verzoek gefragmenteerd en verborgen was door poëtische structuur.
De kernconclusie van de studie is dat stylistische variatie alleen al voldoende kan zijn om veiligheidssystemen te omzeilen die zijn afgestemd op meer letterlijke formuleringen. Het onthult een kwetsbaarheid die zichtbaar is over model-families en align-aanpakken heen.
Hoe Adversarial Poetry Werkt
Adversarial aanvallen benutten een eenvoudige realiteit — machine learning-systemen “begrijpen” taal niet op de manier waarop mensen dat doen. Ze detecteren patronen, voorspellen waarschijnlijke voortzettingen en volgen instructies op basis van wat hun trainings- en veiligheidslagen interpreteren als intentie.
Wanneer een prompt op een rechttoe rechtaan manier is geformuleerd, is het gemakkelijker voor beschermingsmaatregelen om het te herkennen en te blokkeren. Echter, wanneer hetzelfde doel wordt vermomd — opgesplitst, verzacht of herformuleerd — kunnen de beschermingslagen missen wat er eigenlijk wordt gevraagd.
Waarom Poëzie Een Effectief Voertuig Kan Zijn
Poëzie is van nature gebouwd voor ambiguïteit. Het vertrouwt op metafoor, abstractie, ongebruikelijke structuur en indirecte formulering. Dit zijn precies de soorten kenmerken die de grens tussen “onschuldige creatieve schrijfwerk” en “een verzoek dat moet worden geweigerd” kunnen vertroebelen.
In dezelfde studie van 2025 meldden onderzoekers dat poëtische prompts onveilige antwoorden opriepen bij een succesrate van 90% over een breed scala aan modellen, wat aangeeft dat stijl alleen al materieel de resultaten kan veranderen.
Hoe Een Gedicht Een Echt Verzoek Verborgt
Bekijk het verzoek als een bericht en het gedicht als de verpakking. Veiligheidsfilters zoeken vaak naar voor de hand liggende tekenen, zoals expliciete trefwoorden, directe stap-voor-stap formulering of herkenbare kwaadwillige intentie.
Poëzie kan die intentie verhullen door middel van figuurlijke taal of verspreiden over regels, waardoor het moeilijker wordt om het in isolatie te herkennen. Ondertussen reconstrueert het onderliggende model de betekenis nog steeds goed genoeg om te reageren omdat het is geoptimaliseerd om intentie af te leiden, zelfs wanneer de taal indirect is.
Adversarial Aanvallen Detecteren En Mitigeren
Naarmate jailbreak-methoden creatiever worden, moet het gesprek verschuiven van hoe ze werken naar hoe ze worden opgespoord en ingedamd. Dat is vooral waar nu AI deel uitmaakt van de dagelijkse routines van veel mensen, aangezien 27% melden het meerdere keren per dag te gebruiken.
Naarmate meer mensen grote taalmodellen (LLM’s) gebruiken, moeten aanvullende beveiligingsmaatregelen worden getest en onderzocht. Deze taak houdt in dat er gelaagde verdedigingen worden gebouwd die kunnen aanpassen aan nieuwe prompt-stijlen en ontwijktrucs naarmate ze verschijnen.
De Dilemma Van De Ontwikkelaar
Het moeilijkste deel over jailbreaks voor AI-veiligheidsteams is dat ze niet komen als één bekende bedreiging. Ze veranderen voortdurend in de loop van de tijd. Deze constante verschuiving is omdat een gebruiker een prompt kan herschrijven, opsplitsen in fragmenten, wikkelen in roleplay of vermomd als creatief schrijven. Vervolgens kan elke nieuwe verpakking de manier veranderen waarop het systeem de intentie van de prompt interpreteert.
Deze uitdaging schaalt snel wanneer AI al is geïntegreerd in dagelijkse routines, zodat daadwerkelijk gebruik oneindig veel kansen creëert voor randgevallen om te verschijnen.
Daarom ziet de huidige AI-veiligheid eruit als risicobeheer in de loop van de tijd. Het NIST AI-risicobeheerkader (AI RMF) behandelt risicobeheer expliciet als een reeks voortdurende activiteiten — georganiseerd rond gouverne, kaart, meet en beheer — in plaats van als een statische checklist. Het doel is om processen te creëren die het gemakkelijker maken om opkomende foutmodi te identificeren, reparaties te prioriteren en beveiligingsmaatregelen aan te spannen naarmate nieuwe jailbreak-stijlen verschijnen.
Hoe Modellen Zichzelf Beschermen
AI-veiligheid bestaat uit meerdere lagen. De meeste systemen hebben meer dan één verdediging die samenwerkt, waarbij elke verdediging verschillende soorten riskant gedrag vangt. Aan de buitenste laag fungeert invoer- en uitvoerfiltering als poortwachter.
Inkomende prompts worden gescand op beleidsschendingen voordat ze de kern van het model bereiken, terwijl uitgaande antwoorden worden gecontroleerd om ervoor te zorgen dat niets ontsnapt op weg terug naar de gebruiker. Deze systemen zijn goed in het identificeren van directe verzoeken of herkenbare rode vlaggen, maar ze zijn ook het gemakkelijkst te omzeilen, wat de reden is waarom meer bedrieglijke jailbreaks ze vaak omzeilen.
De volgende laag van bescherming vindt plaats binnen het model zelf. Wanneer jailbreak-technieken worden ontdekt, worden ze vaak omgezet in trainingsvoorbeelden. Dit is waar adversarial training en versterking van het leren van menselijke feedback (RLHF) in beeld komen.
Door modellen te fijn af te stemmen op voorbeelden van mislukte of riskante interacties, leren ontwikkelaars het systeem effectief om patronen te herkennen die het moet weigeren, zelfs wanneer ze zijn verpakt in creatieve of indirecte taal. In de loop van de tijd helpt dit proces om het model te immuniseren tegen hele klassen van aanvallen.
De Rol Van AI “Red Teaming”
In plaats van te wachten tot een jailbreak plaatsvindt, gebruiken bedrijven AI-red teams. Deze teams zijn groepen die zijn belast met het proberen te breken van modellen in gecontroleerde omgevingen. Ze benaderen systemen op de manier waarop een aanvaller dat zou doen, experimenterend met ongebruikelijke formuleringen, creatieve formats en randgevallen om te ontdekken waar beveiligingsmaatregelen tekortschieten.
Het doel is om zwakke plekken te ontdekken voordat ze in het echte leven verschijnen. Wanneer een team een nieuwe jailbreak-techniek ontdekt, voedt de resulterende data rechtstreeks terug in trainings- en evaluatiepijplijnen. Deze informatie wordt gebruikt om filters te definiëren, beleid aan te passen en adversarial training te versterken, zodat soortgelijke pogingen in de toekomst minder waarschijnlijk zijn om te slagen. In de loop van de tijd creëert dit een continue lus — zoeken naar fouten, leren van ze en het systeem verbeteren, en dan herhalen.
Wanneer Poëzie Een Stress Test Voor AI-veiligheid Wordt
Adversarial poetry is een herinnering dat AI-beveiligingsmaatregelen afhankelijk zijn van hoe een gebruiker vragen formuleert, niet alleen wat. Naarmate modellen toegankelijker en breder worden gebruikt, zullen onderzoekers voortdurend de kloof tussen creatieve taal en veiligheidssystemen die zijn ontworpen om meer directe intentie te detecteren, blijven onderzoeken. De conclusie is dat veiligere AI zal voortkomen uit meerdere verdedigingen die evolueren even snel als de jailbreaks.












