Kunstig intelligens

Hvad er adversarial poesi? En ny AI-jailbreakmetode

Udgivet 22. December, 2025

Zac Amos

Sikkerhed baseret på kunstig intelligens (AI) er blevet til en konstant katten-efter-musen-leg. Efterhånden som udviklere tilføjer beskyttelsesrækværk for at blokere skadelige anmodninger, fortsætter angribere med at prøve nye måder at omgå dem på. En af de mærkeligste drejninger til dato er fjendtlig poesi. Denne taktik involverer at forklæde instruktioner som vers og bruge rim, metaforer og usædvanlige formuleringer for at få risikable instruktioner til at ligne mindre de ting, sikkerhedssystemer er trænet til at fange.

I praksis ændrer indholdet sig ikke meget. Det er indpakningen, der gør, hvilket kan være nok til at forvirre mønsterbaserede filtre. Det er en påmindelse om, at med nutidens modeller kan hvordan noget bliver spurgt om have næsten lige så stor betydning som hvad der bliver spurgt om.

Hvad skete der, da forskere brugte digte til at bryde AI?

I starten af 2025 demonstrerede forskere, at store sprogmodeller (LLM'er) kunne tilskyndes til at reagere på begrænsede instruktioner ved at indpakke dem i poetisk form. I stedet for at udstede direkte, politikudløsende instruktioner, indlejrede forskerne de samme anmodninger i rim, metaforer og fortællende vers.

På overfladen virkede prompterne som kreative skriveøvelser, men inderst inde bar de den samme intention, som normalt ville være blokeret. På tværs af 25 proprietære og åbne vægtede modeller rapporterede teamet, at poetisk framing opnåede en gennemsnitlig jailbreak-succesrate på 62% for håndlavede digte og omkring 43 % for bulk-"verskonvertering" ved hjælp af en standardiseret metaprompt.

Svarene i sig selv var ikke nye typer af fejl, men velkendte, der dukkede op gennem en uventet dør. Modellerne blev skubbet til at producere indhold, de typisk undgår – såsom forklaringer, der berørte ulovlige eller skadelige aktiviteter – fordi den underliggende anmodning var fragmenteret og skjult af poetisk struktur.

Undersøgelsens centrale konklusion er, at stilistisk variation alene kan være tilstrækkelig til at omgå sikkerhedssystemer, der er indstillet til mere bogstavelig formulering. Det afslører en sårbarhed, der er tydelig på tværs af modelfamilier og tilpasningsmetoder.

Hvordan Adversarial Poesi Fungerer

Adversarielle angreb udnytter en simpel virkelighed – maskinlæringssystemer "forstår" ikke sprog på samme måde som mennesker gør. De registrerer mønstre, forudsiger sandsynlige fortsættelser og følger instruktioner baseret på, hvad deres trænings- og sikkerhedslag fortolker som hensigt.

Når en prompt er formuleret på en ligefrem og bogstavelig måde, er det lettere for rækværk at genkende og blokere. Men når det samme formål er forklædt – opdelt, blødgjort eller omformuleret – kan de beskyttende lag overse, hvad der rent faktisk bliver spurgt om.

Hvorfor poesi kan være et effektivt middel

Poesi er naturligt bygget til flertydighed. Den er afhængig af metaforer, abstraktion, usædvanlig struktur og indirekte frasering. Det er præcis den slags træk, der kan udviske grænsen mellem "harmløs kreativ skrivning" og "en anmodning, der bør afvises".

I den samme undersøgelse fra 2025 rapporterede forskere, at poetiske prompts fremkaldte usikre reaktioner med en succesrate på 90 % på tværs af en bred vifte af modeller, hvilket indikerer, at stil alene kan ændre resultaterne væsentligt.

Hvordan et digt skjuler en reel anmodning

Betragt anmodningen som en besked og digtet som indpakningen. Sikkerhedsfiltre leder ofte efter åbenlyse tegn, såsom eksplicitte nøgleord, direkte trinvis formulering eller genkendelig ondsindet hensigt.

Poesi kan skjule denne intention gennem billedsprog eller sprede den på tværs af linjer, hvilket gør den sværere at få øje på isoleret set. Samtidig rekonstruerer den underliggende model stadig betydningen godt nok til at kunne reagere, fordi den er optimeret til at udlede intention, selv når sproget er indirekte.

Registrering og afhjælpning af jailbreaks

Efterhånden som jailbreak-metoder bliver mere kreative, skal samtalen skifte fra, hvordan de fungerer, til, hvordan de opdages og inddæmmes. Det gælder især nu, hvor AI er en del af hverdagen for mange mennesker, da 27% rapporterer at bruge det flere gange om dagen.

Efterhånden som flere bruger store sprogmodeller (LLM'er), bør yderligere sikkerhedsforanstaltninger testes og udforskes. Denne opgave involverer opbygning af lagdelte forsvarsmekanismer, der kan tilpasse sig nye promptstile og undvigelsestricks, efterhånden som de dukker op.

Udviklerens dilemma

Det sværeste ved jailbreaks for AI-sikkerhedsteams er, at de ikke optræder som én kendt trussel. De ændrer sig løbende over tid. Dette konstante skift skyldes, at en bruger kan omformulere en prompt, opdele den i fragmenter, pakke den ind i rollespil eller forklæde den som kreativ skrivning. Derefter kan hver ny pakning ændre, hvordan systemet fortolker intentionen med prompten.

Den udfordring skaleres hurtigt, når AI allerede er integreret i de daglige rutiner, så den faktiske brug skaber uendelige muligheder for at opstå edge cases.

Derfor ligner dagens AI-sikkerhed mere risikostyring over tid. NIST AI Risk Management Framework (AI RMF) behandler eksplicit risikostyring som et løbende sæt af aktiviteter — organiseret omkring styring, kortlægning, måling og styring — snarere end som en statisk tjekliste. Målet er at skabe processer, der gør det lettere at identificere nye fejltilstande, prioritere rettelser og stramme sikkerhedsforanstaltninger, efterhånden som nye jailbreak-stile dukker op.

Hvordan modeller beskytter sig selv

AI-sikkerhed består af flere lag. De fleste systemer har mere end ét forsvar, der arbejder sammen, hvor hvert lag fanger forskellige former for risikabel adfærd. På det ydre lag fungerer input- og outputfiltrering som en gatekeeper.

Indgående prompts scannes for politikovertrædelser, før de når kernemodellen, mens udgående svar kontrolleres for at sikre, at intet slipper igennem på vej tilbage til brugeren. Disse systemer er gode til at identificere direkte anmodninger eller velkendte røde flag, men de er også de nemmeste at omgå, hvilket er grunden til, at mere vildledende jailbreaks ofte omgår dem.

Det næste beskyttelseslag sker inde i selve modellen. Når jailbreak-teknikker opdages, bliver de ofte til træningseksempler. Det er her, at adversarial træning og reinforcement learning from human feedback (RLHF) kommer ind i billedet.

Ved at finjustere modeller ud fra eksempler på mislykkede eller risikable interaktioner, lærer udviklere effektivt systemet at genkende mønstre, det bør afvise, selv når de er indhyllet i kreativt eller indirekte sprog. Over tid hjælper denne proces med at beskytte modellen mod hele klasser af angreb.

AI's rolle i "Red Teaming"

I stedet for at vente på, at et jailbreak finder sted, bruger virksomheder AI-red teams. Disse teams er grupper, der har til opgave at forsøge at bryde modeller i kontrollerede miljøer. De griber systemer an på samme måde som en angriber ville gøre, og eksperimenterer med usædvanlige formuleringer, kreative formater og edge cases for at afdække, hvor sikkerhedsforanstaltningerne ikke fungerer. Målet er at afsløre svage punkter, før de viser sig i den virkelige verden.

Red teaming er nu ved at blive en central del af udviklingscyklussen i nutidens cybersikkerhedsstrategier. Når et team opdager en ny jailbreak-teknik, føres de resulterende data direkte tilbage til trænings- og evalueringspipelines. Disse oplysninger bruges til at definere filtre, justere politikker og styrke adversarial træning, så lignende forsøg har mindre sandsynlighed for at lykkes i fremtiden. Over tid skaber dette en kontinuerlig løkke – man undersøger for fejl, lærer af dem og forbedrer systemet, og gentager derefter processen.

Når poesi bliver en stresstest for AI-sikkerhed

Adversarial poesi er en påmindelse om, at AI-sikkerhedsforanstaltninger afhænger af, hvordan en bruger formulerer spørgsmål, ikke kun hvad. Efterhånden som modeller bliver mere tilgængelige og udbredte, vil forskere fortsætte med at undersøge hullerne mellem kreativt sprog og sikkerhedssystemer, der er designet til at fange mere direkte intentioner. Konklusionen er, at mere sikker AI vil komme fra flere forsvarssystemer, der udvikler sig lige så hurtigt som jailbreaks.