Artificial Intelligence
Wat is antagonistische poƫzie? Een nieuwe AI-ontsnappingsmethode.
De veiligheid van kunstmatige intelligentie (AI) is een voortdurend kat-en-muisspel geworden. Terwijl ontwikkelaars beveiligingsmaatregelen toevoegen om schadelijke verzoeken te blokkeren, blijven aanvallers nieuwe manieren bedenken om deze te omzeilen. Een van de vreemdste wendingen tot nu toe is 'adversarial poetry'. Deze tactiek houdt in dat prompts worden vermomd als verzen en dat rijm, metaforen en ongebruikelijke formuleringen worden gebruikt om risicovolle instructies minder te laten lijken op de dingen die beveiligingssystemen juist zouden moeten detecteren.
In de praktijk verandert de inhoud zelf niet veel. Het is de verpakking die verandert, en dat kan al genoeg zijn om op patronen gebaseerde filters in de war te brengen. Het is een herinnering dat, met de huidige modellen, de manier waarop iets gevraagd wordt bijna net zo belangrijk kan zijn als wat er gevraagd wordt.
Wat gebeurde er toen onderzoekers gedichten gebruikten om AI te kraken?
Begin 2025 toonden onderzoekers aan dat grote taalmodellen (LLM's) ertoe aangezet konden worden om te reageren op specifieke aanwijzingen door deze in een poƫtische vorm te verpakken. In plaats van directe, beleidsbepalende instructies te geven, verwerkten de onderzoekers dezelfde verzoeken in rijm, metaforen en verhalende verzen.
Op het eerste gezicht leken de opdrachten creatieve schrijfoefeningen, maar in wezen hadden ze dezelfde bedoeling die normaal gesproken zou worden geblokkeerd. Het team rapporteerde dat, aan de hand van 25 geavanceerde, zowel eigen als open-source modellen, poƫtische kaders een gemiddeld succespercentage van 10% behaalden bij het doorbreken van de jailbreak. 62% voor handgeschreven gedichten en ongeveer 43% voor bulkconversie van "vers" met behulp van een gestandaardiseerde meta-prompt.
De reacties zelf waren geen nieuwe soorten mislukkingen, maar bekende die via een onverwachte weg opdoken. De modellen werden ertoe aangezet inhoud te produceren die ze normaal gesproken vermijden ā zoals uitleg over illegale of schadelijke activiteiten ā omdat het onderliggende verzoek gefragmenteerd en verhuld was door de poĆ«tische structuur.
De belangrijkste conclusie van het onderzoek is dat stilistische variatie op zich al voldoende kan zijn om beveiligingssystemen te omzeilen die zijn afgestemd op een meer letterlijke formulering. Het onthult een kwetsbaarheid die evident is bij alle modelfamilies en afstemmingsmethoden.
Hoe werkt confronterende poƫzie?
Vijandige aanvallen maken gebruik van een simpele realiteit: machine learning-systemen "begrijpen" taal niet zoals mensen dat doen. Ze detecteren patronen, voorspellen waarschijnlijke vervolgstappen en volgen instructies op basis van wat hun trainings- en beveiligingslagen interpreteren als intentie.
Wanneer een vraag rechtstreeks en letterlijk geformuleerd is, is het voor beveiligingsmechanismen gemakkelijker om deze te herkennen en te blokkeren. Maar wanneer hetzelfde doel wordt verhuld ā opgesplitst, afgezwakt of anders geformuleerd ā kunnen de beveiligingsmechanismen missen wat er werkelijk gevraagd wordt.
Waarom poƫzie een effectief middel kan zijn
Poëzie leent zich van nature voor ambiguïteit. Ze is gebaseerd op metaforen, abstractie, ongebruikelijke structuren en indirecte formuleringen. Juist deze eigenschappen kunnen de grens tussen 'onschuldig creatief schrijven' en 'een verzoek dat afgewezen moet worden' doen vervagen.
In hetzelfde onderzoek uit 2025 rapporteerden onderzoekers dat poëtische aanwijzingen in 90% van de gevallen tot onveilige reacties leidden bij een breed scala aan modellen, wat erop wijst dat stijl op zich de uitkomst aanzienlijk kan beïnvloeden.
Hoe een gedicht een echt verzoek verbergt
Beschouw het verzoek als een boodschap en het gedicht als de verpakking. Veiligheidsfilters zoeken vaak naar duidelijke signalen, zoals expliciete trefwoorden, directe stapsgewijze formuleringen of herkenbare kwaadwillige intentie.
Poƫzie kan die intentie verbergen door middel van beeldspraak of over meerdere regels verspreiden, waardoor het moeilijker is om die in isolatie te herkennen. Ondertussen reconstrueert het onderliggende model de betekenis nog steeds voldoende om te reageren, omdat het geoptimaliseerd is om intentie af te leiden, zelfs wanneer de taal indirect is.
Het opsporen en tegengaan van jailbreaks
Naarmate jailbreakmethoden creatiever worden, moet de discussie verschuiven van hoe ze werken naar hoe ze worden opgespoord en ingedamd. Dat geldt des te meer nu AI voor veel mensen onderdeel is van hun dagelijkse routine. 27% geeft aan het te gebruiken. meerdere keren per dag.
Naarmate meer mensen gebruikmaken van grote taalmodellen (LLM's), moeten er aanvullende beveiligingsmaatregelen worden getest en onderzocht. Deze taak omvat het bouwen van gelaagde verdedigingsmechanismen die zich kunnen aanpassen aan nieuwe promptstijlen en ontwijkingsmanoeuvres zodra deze zich voordoen.
Het dilemma van de ontwikkelaar
Het lastigste aan jailbreaks voor AI-veiligheidsteams is dat ze niet als ƩƩn bekende dreiging komen. Ze veranderen voortdurend. Deze constante verandering komt doordat een gebruiker een prompt kan herformuleren, in fragmenten kan opsplitsen, in een rollenspel kan verpakken of als creatief schrijven kan presenteren. Elke nieuwe verpakking kan vervolgens de manier veranderen waarop het systeem de bedoeling van de prompt interpreteert.
Die uitdaging wordt al snel groter wanneer AI al is geĆÆntegreerd in de dagelijkse routine, waardoor het daadwerkelijke gebruik eindeloze mogelijkheden biedt voor het ontstaan āāvan uitzonderlijke gevallen.
Daarom draait AI-veiligheid tegenwoordig meer om het beheersen van risico's over tijd. Het NIST AI Risk Management Framework (AI RMF) behandelt risicobeheer expliciet. als een doorlopende reeks activiteiten ā georganiseerd rond besturen, in kaart brengen, meten en beheren ā in plaats van als een statische checklist. Het doel is om processen te creĆ«ren die het gemakkelijker maken om opkomende faalpatronen te identificeren, oplossingen te prioriteren en de beveiliging aan te scherpen naarmate er nieuwe jailbreak-methoden verschijnen.
Hoe modellen zichzelf beschermen
De veiligheid van AI bestaat uit meerdere lagen. De meeste systemen hebben meer dan ƩƩn verdedigingsmechanisme dat samenwerkt, waarbij elk mechanisme verschillende soorten risicovol gedrag detecteert. In de buitenste laag fungeert input- en outputfiltering als poortwachter.
Inkomende prompts worden gescand op beleidsschendingen voordat ze het kernmodel bereiken, terwijl uitgaande reacties worden gecontroleerd om ervoor te zorgen dat er niets door de mazen van het net glipt op de terugweg naar de gebruiker. Deze systemen zijn goed in het identificeren van directe verzoeken of bekende waarschuwingssignalen, maar ze zijn ook het gemakkelijkst te omzeilen, wat de reden is waarom meer misleidende jailbreaks ze vaak omzeilen.
De volgende beveiligingslaag bevindt zich binnen het model zelf. Wanneer jailbreak-technieken worden ontdekt, worden ze vaak gebruikt als trainingsvoorbeelden. Dit is waar adversarial training en reinforcement learning from human feedback (RLHF) in beeld komen.
Door modellen te verfijnen aan de hand van voorbeelden van mislukte of risicovolle interacties, leren ontwikkelaars het systeem effectief patronen te herkennen die het moet weigeren, zelfs wanneer deze verpakt zijn in creatieve of indirecte taal. Na verloop van tijd helpt dit proces het model immuun te maken voor hele categorieƫn aanvallen.
De rol van AI bij "red teaming"
In plaats van te wachten tot een jailbreak plaatsvindt, zetten bedrijven AI-redteams in. Deze teams hebben als taak om modellen te kraken in gecontroleerde omgevingen. Ze benaderen systemen zoals een aanvaller dat zou doen, experimenteren met ongebruikelijke formuleringen, creatieve formats en uitzonderlijke gevallen om te ontdekken waar de beveiliging tekortschiet. Het doel is om zwakke punten bloot te leggen voordat ze in de praktijk aan het licht komen.
Red teaming is een essentieel onderdeel geworden van de ontwikkelingscyclus in de hedendaagse cybersecuritystrategieĆ«n. Wanneer een team een āānieuwe jailbreaktechniek ontdekt, worden de verkregen gegevens direct gebruikt in trainings- en evaluatieprocessen. Deze informatie wordt gebruikt om filters te definiĆ«ren, beleid aan te passen en de training van tegenstanders te versterken, zodat soortgelijke pogingen in de toekomst minder kans van slagen hebben. Na verloop van tijd ontstaat zo een continue cyclus: opsporen van fouten, ervan leren en het systeem verbeteren, en dit proces herhalen.
Wanneer poƫzie een stresstest wordt voor de veiligheid van AI
Tegensprekende poƫzie herinnert ons eraan dat de beveiliging van AI afhangt van de manier waarop een gebruiker vragen formuleert, en niet alleen van wat er gevraagd wordt. Naarmate modellen toegankelijker en wijdverspreider worden, zullen onderzoekers de kloof tussen creatief taalgebruik en veiligheidssystemen die ontworpen zijn om directere intenties te detecteren, blijven onderzoeken. De conclusie is dat veiligere AI voortkomt uit meerdere verdedigingsmechanismen die zich net zo snel ontwikkelen als de jailbreaks.












