Artificiell intelligens
Vad Àr Adversarial Poetry? En Ny Metod för AI-Jailbreak
Artificiell intelligens (AI) säkerhet har blivit en ständig katt-och-råtta-lek. När utvecklare lägger till skydd för att blockera skadliga förfrågningar, försöker angripare hitta nya sätt att kringgå dem. En av de konstigaste vändningarna hittills är adversarial poetry. Denna taktik innebär att man förklädde förfrågningar som vers och använder rim, metafor och ovanlig struktur för att göra riskfyllda instruktioner mindre lika de saker som säkerhetssystem är utbildade för att upptäcka.
I praktiken förändras innehållet inte så mycket. Det är omslaget som gör det, vilket kan vara tillräckligt för att förvirra mönsterbaserade filter. Det är en påminnelse om att, med dagens modeller, hur något frågas kan vara lika viktigt som vad som frågas.
Vad Hände När Forskare Använde Dikter för Att Bryta AI?
I början av 2025 demonstrerade forskare att stora språkmodeller (LLM) kunde utlösas att svara på begränsade förfrågningar genom att förpacka dem i poetisk form. Istället för att ge direkt, policy-utlösande instruktioner, inbäddade forskarna samma förfrågningar i rim, metaforer och berättande vers.
På ytan verkade förfrågningarna vara kreativa skrivövningar, men under ytan bar de samma avsikt som normalt skulle blockeras. Över 25 frontlinje-ägda och öppet-viktade modeller rapporterade teamet att poetisk ramning uppnådde en genomsnittlig jailbreak-lyckandefrekvens på 62% för handgjorda dikter och cirka 43% för bulk-“vers-omvandling” med en standardiserad meta-prompt.
Själva svaren var inte nya typer av fel, utan bekanta fel som uppstod genom en oväntad dörr. Modellerna fick producera innehåll som de vanligtvis undviker — såsom förklaringar som berör olagliga eller skadliga aktiviteter — eftersom den underliggande förfrågan var fragmenterad och dold av poetisk struktur.
Studiens kärntillvägagångssätt är att stilistisk variation ensam kan vara tillräcklig för att undvika säkerhetssystem som är inställda på mer bokstavlig formulering. Det avslöjar en sårbarhet som är uppenbar över modellfamiljer och utrustningsmetoder.
Hur Adversarial Poetry Fungerar
Adversarial attacker utnyttjar en enkel verklighet — maskinlärningssystem förstår inte språk på samma sätt som människor. De upptäcker mönster, förutsäger sannolika fortsättningar och följer instruktioner baserat på vad deras utbildning och säkerhetsskikt tolkar som avsikt.
När en förfrågan är formulerad på ett rakt, bokstavligt sätt är det lättare för skyddslagren att känna igen och blockera. Men när samma syfte är förklädd — splittrad, mjukad eller omformulerad — kan skyddslagren missa vad som faktiskt frågas.
Varför Poesi Kan Vara Ett Effektivt Fordon
Poesi är naturligt byggt för tvetydighet. Den förlitar sig på metafor, abstraktion, ovanlig struktur och indirekt formulering. Dessa är exakt de typer av egenskaper som kan suddiga ut gränsen mellan “harmless creative writing” och “en förfrågan som bör nekas”.
I samma 2025-studie rapporterade forskare att poetiska förfrågningar framkallade osäkra svar med en framgångsfrekvens på 90% över en bred uppsättning modeller, vilket indikerar att stil ensam kan materiellt förändra resultat.
Hur En Dikt Döljer En Riktig Förfrågan
Tänk på förfrågan som ett meddelande och dikten som förpackningen. Säkerhetsfilter letar ofta efter uppenbara tecken, såsom explicita nyckelord, direkt steg-för-steg-formulering eller igenkännlig skadlig avsikt.
Poesi kan dölja den avsikten genom figurativ språk eller sprida den över rader, vilket gör det svårare att upptäcka i isolering. Samtidigt reconstruerar den underliggande modellen fortfarande meningen tillräckligt bra för att svara eftersom den är optimerad för att inferera avsikt även när språket är indirekt.
Upptäcka och Minskning av Jailbreaks
När jailbreak-metoder blir mer kreativa, måste samtalet skifta från hur de fungerar till hur de upptäcks och innesluts. Det är särskilt sant nu när AI är en del av vardagliga rutiner för många människor, då 27% rapporterar att de använder det flera gånger om dagen.
När fler människor använder stora språkmodeller (LLM) bör ytterligare säkerhetsåtgärder testas och utforskas. Detta arbete innebär att bygga skiktade försvar som kan anpassa sig till nya förfrågningsstilar och undvikande tricks allteftersom de dyker upp.
Utvecklarens Dilemma
Det svåraste med jailbreaks för AI-säkerhetsteam är att de inte kommer som en känd hot. De förändras kontinuerligt över tid. Denna konstanta förändring beror på att en användare kan omformulera en förfrågan, dela upp den i fragment, förpacka den i rollspel eller förklädde den som kreativt skrivande. Sedan kan varje ny förpackning förändra hur systemet tolkar förfrågans avsikt.
Den utmaningen skalar snabbt när AI redan är integrerat i vardagliga rutiner, så att faktisk användning skapar oändliga möjligheter för kantfall att dyka upp.
Därför ser dagens AI-säkerhet ut som att hantera risk över tid. NIST AI Risk Management Framework (AI RMF) behandlar explicit riskhantering som en kontinuerlig uppsättning aktiviteter — organiserad kring styra, kartlägga, mäta och hantera — snarare än som en statisk checklista. Målet är att skapa processer som gör det lättare att identifiera nya felmoder, prioritera reparationer och strama åt säkerhetsåtgärder allteftersom nya jailbreak-stilar dyker upp.
Hur Modeller Skyddar Sig Själva
AI-säkerhet består av flera lager. De flesta system har mer än ett försvar som arbetar tillsammans, med varje försvar som fångar olika typer av riskfylt beteende. I det yttre lagret fungerar in- och utgående filter som en grindväktare.
Inkommande förfrågningar scannas för policybrott innan de når kärnmodellen, medan utgående svar kontrolleras för att säkerställa att ingenting glider igenom på vägen tillbaka till användaren. Dessa system är bra på att identifiera direkt förfrågningar eller välbekanta röda flaggor, men de är också de lättaste att kringgå, vilket är varför mer bedrägliga jailbreaks ofta kringgår dem.
Nästa skyddslager sker inuti modellen själv. När jailbreak-tekniker upptäcks, omvandlas de ofta till utbildningsexempel. Det är här adversarial utbildning och förstärkt inlärning från mänsklig återkoppling (RLHF) kommer in i bilden.
Genom att finjustera modeller på exempel på misslyckade eller riskfyllda interaktioner, lär utvecklare effektivt systemet att känna igen mönster som det bör vägra, även när de är förpackade i kreativ eller indirekt språk. Över tid hjälper den processen till att skydda modellen mot hela klasser av attacker.
Rollen för AI “Red Teaming”
Istället för att vänta på att en jailbreak ska ske, använder företag AI-röda lag. Dessa lag är grupper som är uppgiftsatt att försöka bryta modeller i kontrollerade miljöer. De närmar sig systemen på samma sätt som en angripare skulle, experimenterar med ovanlig formulering, kreativa format och kantfall för att avslöja var säkerhetsåtgärder brister.
Red teaming blir nu en central del av utvecklingslivscykeln i dagens cybersäkerhetsstrategier. När ett lag upptäcker en ny jailbreak-teknik, matas den resulterande datan direkt tillbaka till utbildnings- och utvärderingspipeliner. Den informationen används för att definiera filter, justera policyer och stärka adversarial utbildning så att liknande försök är mindre benägna att lyckas i framtiden. Över tid skapar detta en kontinuerlig loop — probera för fel, lära av dem och förbättra systemet, sedan upprepa.
När Poesi Blir en StressTest för AI-Säkerhet
Adversarial poesi är en påminnelse om att AI-säkerhetsåtgärder beror på hur en användare formulerar frågor, inte bara vad. När modeller blir mer tillgängliga och används mer, kommer forskare att fortsätta att probera klyftan mellan kreativt språk och säkerhetssystem som är utformade för att upptäcka mer direkt avsikt. Tillvägagångssättet är att säkrare AI kommer från flera försvar som utvecklas lika snabbt som jailbreaks.












