Connect with us

Artificiell intelligens

Vad Àr Adversarial Poetry? En Ny AI-Jailbreak Metod

mm

Artificiell intelligens (AI) säkerhet har förvandlats till en ständig katt-och-råtta-lek. När utvecklare lägger till skyddsräcken för att blockera skadliga förfrågningar, fortsätter angripare att försöka med nya sätt att kringgå dem. En av de konstigaste vändningarna hittills är adversarial poetry. Denna taktik innebär att förkläda förfrågningar som vers och använda rim, metafor och ovanlig formulering för att göra riskfyllda instruktioner se ut som mindre farliga än de saker som säkerhetssystemen är utbildade att upptäcka.

I praktiken förändras innehållet inte så mycket. Det är omslaget som gör det, vilket kan vara tillräckligt för att förvirra mönsterbaserade filter. Det är en påminnelse om att, med dagens modeller, hur något frågas kan vara nästan lika viktigt som vad som frågas.

Vad Hände När Forskare Använde Dikter för Att Bryta AI?

I början av 2025 demonstrerade forskare att stora språkmodeller (LLM) kunde utlösas att svara på begränsade förfrågningar genom att förpacka dem i poetisk form. Istället för att ge direkt, policy-utlösande instruktioner, inbäddade forskarna samma förfrågningar i rim, metaforer och berättande vers.

På ytan verkade förfrågningarna vara kreativa skrivövningar, men under ytan bar de samma avsikt som normalt skulle blockeras. Över 25 frontlinje-proprietary och öppenviktade modeller rapporterade teamet att poetisk ramning uppnådde en genomsnittlig jailbreak-lyckandefrekvens på 62% för handgjorda dikter och cirka 43% för bulk “versomvandling” med en standardiserad meta-prompt.

Själva svaren var inte nya typer av fel, men bekanta fel som uppträdde genom en oväntad dörr. Modellerna fick en push för att producera innehåll som de vanligtvis undviker — såsom förklaringar som berör olagliga eller skadliga aktiviteter — eftersom den underliggande förfrågan var fragmenterad och dold av poetisk struktur.

Studiens kärntillvägagångssätt är att stilistisk variation ensam kan vara tillräcklig för att undvika säkerhetssystem som är inställda på mer bokstavlig formulering. Det avslöjar en sårbarhet som är uppenbar över modellfamiljer och utrustningsmetoder.

Hur Adversarial Poetry Fungerar

Adversarial attacker utnyttjar en enkel verklighet — maskinlärningssystem “förstår” inte språk på samma sätt som människor. De upptäcker mönster, förutsäger sannolika fortsättningar och följer instruktioner baserat på vad deras utbildning och säkerhetsskikt tolkar som avsikt.

När en förfrågan är formulerad på ett rakt, bokstavligt sätt är det lättare för skyddsräcken att känna igen och blockera. Men när samma syfte är förklätt — splittrat, mjukat eller omformulerat — kan skyddslagren missa vad som faktiskt frågas.

Varför Poesi Kan Vara Ett Effektivt Fordon

Poesi är naturligt byggt för tvetydighet. Den förlitar sig på metafor, abstraktion, ovanlig struktur och indirekt formulering. Dessa är exakt de typer av egenskaper som kan suddiga ut gränsen mellan “ofarlig kreativ skrivning” och “en förfrågan som bör nekas.”

I samma 2025-studie rapporterade forskarna att poetiska förfrågningar framkallade osäkra svar vid en framgångsfrekvens på 90% över en bred uppsättning modeller, vilket indikerar att stil ensam kan förändra resultat på ett betydande sätt.

Hur En Dikt Döljer En Riktig Förfrågan

Betrakta förfrågan som ett meddelande och dikten som förpackningen. Säkerhetsfilter letar ofta efter uppenbara tecken, såsom explicita nyckelord, direkt steg-för-steg-formulering eller igenkännlig skadlig avsikt.

Poesi kan dölja den avsikten genom figurativt språk eller sprida den över rader, vilket gör det svårare att upptäcka i isolering. Samtidigt rekonstruerar den underliggande modellen fortfarande meningen tillräckligt bra för att svara eftersom den är optimerad för att härleda avsikt även när språket är indirekt.

Upptäcka och Minska Jailbreaks

Medan jailbreak-metoder blir mer kreativa, måste samtalet skifta från hur de fungerar till hur de upptäcks och innesluts. Det är särskilt sant nu när AI är en del av vardagsrutiner för många människor, då 27% rapporterar att de använder det flera gånger om dagen.

När fler människor använder stora språkmodeller (LLM) bör ytterligare säkerhetsåtgärder testas och utforskas. Detta uppdrag innebär att bygga lagerförsvar som kan anpassa sig till nya förfrågningsstilar och undvikande-trick när de dyker upp.

Utvecklarens Dilemma

Det svåraste med jailbreaks för AI-säkerhetsteam är att de inte kommer som en känd hot. De förändras kontinuerligt över tid. Denna konstanta förändring beror på att en användare kan omformulera en förfrågan, dela upp den i fragment, förpacka den i rollspel eller förkläda den som kreativ skrivning. Sedan kan varje ny förpackning förändra hur systemet tolkar förfrågan.

Utmaningen skalar snabbt när AI redan är integrerat i dagliga rutiner, så att faktisk användning skapar oändliga möjligheter för kantfall att dyka upp.

Därför ser dagens AI-säkerhet mer ut som riskhantering över tid. NIST AI Risk Management Framework (AI RMF) behandlar explicit riskhantering som en pågående uppsättning aktiviteter — organiserad kring styra, karta, mäta och hantera — snarare än som en statisk checklista. Målet är att skapa processer som gör det lättare att identifiera nya felmoder, prioritera reparationer och strama åt säkerhetsåtgärder när nya jailbreak-stilar dyker upp.

Hur Modeller Skyddar Sig

AI-säkerhet består av flera lager. De flesta system har mer än ett försvar som arbetar tillsammans, med varje som fångar olika typer av riskfyllt beteende. På det yttre lagret fungerar indata- och utdatafiltering som en grindvakt.

Inkommande förfrågningar skannas för policybrott innan de når kärnmodellen, medan utgående svar kontrolleras för att säkerställa att ingenting smiter förbi på vägen tillbaka till användaren. Dessa system är bra på att identifiera direkt förfrågningar eller välbekanta röda flaggor, men de är också de lättaste att kringgå, vilket är varför mer bedrägliga jailbreaks ofta kringgår dem.

Nästa lager av skydd sker inuti modellen själv. När jailbreak-tekniker upptäcks, omvandlas de ofta till utbildningsexempel. Det är här adversarial utbildning och förstärkt inlärning från mänsklig feedback (RLHF) kommer in i bilden.

Genom att finjustera modeller på exempel på misslyckade eller riskfyllda interaktioner, lär utvecklare effektivt systemet att känna igen mönster som det bör vägra, även när de är förpackade i kreativt eller indirekt språk. Över tid hjälper den processen till att skydda modellen mot hela klasser av attacker.

Rollen för AI “Red Teaming”

I stället för att vänta på att en jailbreak ska inträffa, använder företag AI-red team. Dessa team är grupper som är uppgiftsatt att försöka bryta modeller i kontrollerade miljöer. De närmar sig systemen på samma sätt som en angripare, experimenterar med ovanlig formulering, kreativa format och kantfall för att avslöja var säkerhetsåtgärderna brister. Målet är att exponera svaga punkter innan de dyker upp i verklig användning.

Red teaming blir nu en central del av utvecklingslivscykeln i dagens cybersäkerhetsstrategier. När ett team upptäcker en ny jailbreak-teknik, matas den resulterande datan direkt in i utbildnings- och utvärderingspipeliner. Den informationen används för att definiera filter, justera policyer och stärka adversarial utbildning så att liknande försök är mindre troliga att lyckas i framtiden. Över tid skapar detta en kontinuerlig loop — testa för fel, lära av dem och förbättra systemet, sedan upprepa.

När Poesi Blir en StressTest för AI-Säkerhet

Adversarial poesi är en påminnelse om att AI-säkerhetsåtgärder beror på hur en användare formulerar frågor, inte bara vad. När modeller blir mer tillgängliga och allmänt använda, kommer forskare att fortsätta att testa luckorna mellan kreativt språk och säkerhetssystem utformade för att upptäcka mer direkt avsikt. Tillvägagångssättet är att säkrare AI kommer från flera försvar som utvecklas lika snabbt som jailbreaks gör.

Zac Amos Àr en tech-författare som fokuserar pÄ artificiell intelligens. Han Àr ocksÄ Features Editor pÄ ReHack, dÀr du kan lÀsa mer av hans arbete.