Følg os

Kunstig intelligens

Hvad er adversarial poesi? En ny AI-jailbreakmetode

mm

Sikkerhed baseret pĂĄ kunstig intelligens (AI) er blevet til en konstant katten-efter-musen-leg. EfterhĂĄnden som udviklere tilføjer beskyttelsesrækværk for at blokere skadelige anmodninger, fortsætter angribere med at prøve nye mĂĄder at omgĂĄ dem pĂĄ. En af de mærkeligste drejninger til dato er fjendtlig poesi. Denne taktik involverer at forklæde instruktioner som vers og bruge rim, metaforer og usædvanlige formuleringer for at fĂĄ risikable instruktioner til at ligne mindre de ting, sikkerhedssystemer er trænet til at fange. 

I praksis ændrer indholdet sig ikke meget. Det er indpakningen, der gør, hvilket kan være nok til at forvirre mønsterbaserede filtre. Det er en pĂĄmindelse om, at med nutidens modeller kan hvordan noget bliver spurgt om have næsten lige sĂĄ stor betydning som hvad der bliver spurgt om. 

Hvad skete der, da forskere brugte digte til at bryde AI?

I starten af ​​2025 demonstrerede forskere, at store sprogmodeller (LLM'er) kunne tilskyndes til at reagere på begrænsede instruktioner ved at indpakke dem i poetisk form. I stedet for at udstede direkte, politikudløsende instruktioner, indlejrede forskerne de samme anmodninger i rim, metaforer og fortællende vers.

På overfladen virkede prompterne som kreative skriveøvelser, men inderst inde bar de den samme intention, som normalt ville være blokeret. På tværs af 25 proprietære og åbne vægtede modeller rapporterede teamet, at poetisk framing opnåede en gennemsnitlig jailbreak-succesrate på 62% for håndlavede digte og omkring 43 % for bulk-"verskonvertering" ved hjælp af en standardiseret metaprompt.

Svarene i sig selv var ikke nye typer af fejl, men velkendte, der dukkede op gennem en uventet dør. Modellerne blev skubbet til at producere indhold, de typisk undgĂĄr – sĂĄsom forklaringer, der berørte ulovlige eller skadelige aktiviteter – fordi den underliggende anmodning var fragmenteret og skjult af poetisk struktur. 

Undersøgelsens centrale konklusion er, at stilistisk variation alene kan være tilstrækkelig til at omgĂĄ sikkerhedssystemer, der er indstillet til mere bogstavelig formulering. Det afslører en sĂĄrbarhed, der er tydelig pĂĄ tværs af modelfamilier og tilpasningsmetoder. 

Hvordan Adversarial Poesi Fungerer

Adversarielle angreb udnytter en simpel virkelighed – maskinlæringssystemer "forstĂĄr" ikke sprog pĂĄ samme mĂĄde som mennesker gør. De registrerer mønstre, forudsiger sandsynlige fortsættelser og følger instruktioner baseret pĂĄ, hvad deres trænings- og sikkerhedslag fortolker som hensigt. 

NĂĄr en prompt er formuleret pĂĄ en ligefrem og bogstavelig mĂĄde, er det lettere for rækværk at genkende og blokere. Men nĂĄr det samme formĂĄl er forklædt – opdelt, blødgjort eller omformuleret – kan de beskyttende lag overse, hvad der rent faktisk bliver spurgt om. 

Hvorfor poesi kan være et effektivt middel

Poesi er naturligt bygget til flertydighed. Den er afhængig af metaforer, abstraktion, usædvanlig struktur og indirekte frasering. Det er præcis den slags træk, der kan udviske grænsen mellem "harmløs kreativ skrivning" og "en anmodning, der bør afvises".

I den samme undersøgelse fra 2025 rapporterede forskere, at poetiske prompts fremkaldte usikre reaktioner med en succesrate pĂĄ 90 % pĂĄ tværs af en bred vifte af modeller, hvilket indikerer, at stil alene kan ændre resultaterne væsentligt. 

Hvordan et digt skjuler en reel anmodning

Betragt anmodningen som en besked og digtet som indpakningen. Sikkerhedsfiltre leder ofte efter ĂĄbenlyse tegn, sĂĄsom eksplicitte nøgleord, direkte trinvis formulering eller genkendelig ondsindet hensigt. 

Poesi kan skjule denne intention gennem billedsprog eller sprede den pĂĄ tværs af linjer, hvilket gør den sværere at fĂĄ øje pĂĄ isoleret set. Samtidig rekonstruerer den underliggende model stadig betydningen godt nok til at kunne reagere, fordi den er optimeret til at udlede intention, selv nĂĄr sproget er indirekte. 

Registrering og afhjælpning af jailbreaks

EfterhĂĄnden som jailbreak-metoder bliver mere kreative, skal samtalen skifte fra, hvordan de fungerer, til, hvordan de opdages og inddæmmes. Det gælder især nu, hvor AI er en del af hverdagen for mange mennesker, da 27% rapporterer at bruge det flere gange om dagen. 

Efterhånden som flere bruger store sprogmodeller (LLM'er), bør yderligere sikkerhedsforanstaltninger testes og udforskes. Denne opgave involverer opbygning af lagdelte forsvarsmekanismer, der kan tilpasse sig nye promptstile og undvigelsestricks, efterhånden som de dukker op.

Udviklerens dilemma

Det sværeste ved jailbreaks for AI-sikkerhedsteams er, at de ikke optræder som Ă©n kendt trussel. De ændrer sig løbende over tid. Dette konstante skift skyldes, at en bruger kan omformulere en prompt, opdele den i fragmenter, pakke den ind i rollespil eller forklæde den som kreativ skrivning. Derefter kan hver ny pakning ændre, hvordan systemet fortolker intentionen med prompten. 

Den udfordring skaleres hurtigt, nĂĄr AI allerede er integreret i de daglige rutiner, sĂĄ den faktiske brug skaber uendelige muligheder for at opstĂĄ edge cases.

Derfor ligner dagens AI-sikkerhed mere risikostyring over tid. NIST AI Risk Management Framework (AI RMF) behandler eksplicit risikostyring som et løbende sæt af aktiviteter — organiseret omkring styring, kortlægning, mĂĄling og styring — snarere end som en statisk tjekliste. MĂĄlet er at skabe processer, der gør det lettere at identificere nye fejltilstande, prioritere rettelser og stramme sikkerhedsforanstaltninger, efterhĂĄnden som nye jailbreak-stile dukker op. 

Hvordan modeller beskytter sig selv

AI-sikkerhed bestĂĄr af flere lag. De fleste systemer har mere end Ă©t forsvar, der arbejder sammen, hvor hvert lag fanger forskellige former for risikabel adfærd. PĂĄ det ydre lag fungerer input- og outputfiltrering som en gatekeeper. 

IndgĂĄende prompts scannes for politikovertrædelser, før de nĂĄr kernemodellen, mens udgĂĄende svar kontrolleres for at sikre, at intet slipper igennem pĂĄ vej tilbage til brugeren. Disse systemer er gode til at identificere direkte anmodninger eller velkendte røde flag, men de er ogsĂĄ de nemmeste at omgĂĄ, hvilket er grunden til, at mere vildledende jailbreaks ofte omgĂĄr dem. 

Det næste beskyttelseslag sker inde i selve modellen. NĂĄr jailbreak-teknikker opdages, bliver de ofte til træningseksempler. Det er her, at adversarial træning og reinforcement learning from human feedback (RLHF) kommer ind i billedet. 

Ved at finjustere modeller ud fra eksempler på mislykkede eller risikable interaktioner, lærer udviklere effektivt systemet at genkende mønstre, det bør afvise, selv når de er indhyllet i kreativt eller indirekte sprog. Over tid hjælper denne proces med at beskytte modellen mod hele klasser af angreb.

AI's rolle i "Red Teaming"

I stedet for at vente på, at et jailbreak finder sted, bruger virksomheder AI-red teams. Disse teams er grupper, der har til opgave at forsøge at bryde modeller i kontrollerede miljøer. De griber systemer an på samme måde som en angriber ville gøre, og eksperimenterer med usædvanlige formuleringer, kreative formater og edge cases for at afdække, hvor sikkerhedsforanstaltningerne ikke fungerer. Målet er at afsløre svage punkter, før de viser sig i den virkelige verden.

Red teaming er nu ved at blive en central del af udviklingscyklussen i nutidens cybersikkerhedsstrategier. Når et team opdager en ny jailbreak-teknik, føres de resulterende data direkte tilbage til trænings- og evalueringspipelines. Disse oplysninger bruges til at definere filtre, justere politikker og styrke adversarial træning, så lignende forsøg har mindre sandsynlighed for at lykkes i fremtiden. Over tid skaber dette en kontinuerlig løkke – man undersøger for fejl, lærer af dem og forbedrer systemet, og gentager derefter processen.

NĂĄr poesi bliver en stresstest for AI-sikkerhed

Adversarial poesi er en påmindelse om, at AI-sikkerhedsforanstaltninger afhænger af, hvordan en bruger formulerer spørgsmål, ikke kun hvad. Efterhånden som modeller bliver mere tilgængelige og udbredte, vil forskere fortsætte med at undersøge hullerne mellem kreativt sprog og sikkerhedssystemer, der er designet til at fange mere direkte intentioner. Konklusionen er, at mere sikker AI vil komme fra flere forsvarssystemer, der udvikler sig lige så hurtigt som jailbreaks.

Zac Amos er en teknisk forfatter, der fokuserer på kunstig intelligens. Han er også Features Editor på ReHack, hvor du kan læse mere om hans arbejde.