Umělá inteligence
Co je to adversarial poetry? Nová metoda jailbreaku s umělou inteligencí
Bezpečnostní opatření umělé inteligence (AI) se stala neustálou hrou na kočku a myš. Vývojáři přidávají zábrany k blokování škodlivých požadavků a útočníci neustále zkoušejí nové způsoby, jak je obejít. Jedním z nejpodivnějších zvratů je adversarial poetry. Tato taktika zahrnuje maskování pokynů jako verše a používání rýmů, metafor a neobvyklých frází, aby riskantní pokyny nevypadaly jako věci, které jsou bezpečnostní systémy vycvičeny zachytit.
V praxi se samotný obsah moc nemění. Změní ho obalovací kód, což může stačit k tomu, aby se filtry založené na vzorcích zmátly. Je to připomínka toho, že u dnešních modelů může být způsob, jakým se něco ptá, téměř stejně důležitý jako to, co se ptá.
Co se stalo, když vědci použili básně k prolomení umělé inteligence?
Začátkem roku 2025 vědci prokázali, že modely velkých jazyků (LLM) by mohly být motivovány k reakci na omezené výzvy jejich zabalením do poetické formy. Místo vydávání přímých instrukcí spouštějících politiku vědci vložili stejné požadavky do rýmů, metafor a narativních veršů.
Na první pohled se zdálo, že zadání jsou cvičením v tvůrčím psaní, ale v hloubi duše nesly stejný záměr, který by byl za normálních okolností blokován. Tým na základě 25 hraničních proprietárních a otevřených modelů uvedl, že poetické rámování dosáhlo průměrné míry úspěšnosti jailbreaku. 62 % za ručně psané básně a přibližně 43 % pro hromadnou „konverzi veršů“ s použitím standardizované meta-výzvy.
Samotné reakce nebyly novými typy selhání, ale známými, které se objevily nečekanými dveřmi. Modely byly postrčeny k produkci obsahu, kterému se obvykle vyhýbají – například vysvětlení dotýkajících se nelegálních nebo škodlivých aktivit – protože základní požadavek byl fragmentovaný a zakrytý poetickou strukturou.
Hlavním poznatkem studie je, že samotná stylistická variace může stačit k tomu, aby se vyhnula bezpečnostním systémům naladěným na doslovnější formulaci. Odhaluje to zranitelnost, která je patrná napříč rodinami modelů a přístupy k zarovnání.
Jak funguje adversarial Poetry
Útoky typu adversarial zneužívají jednoduchou realitu – systémy strojového učení „nerozumí“ jazyku tak, jako lidé. Detekují vzory, předpovídají pravděpodobné pokračování a řídí se pokyny na základě toho, co jejich tréninková a bezpečnostní vrstva interpretují jako záměr.
Pokud je výzva formulována přímočaře a doslovně, je pro ochranné vrstvy snazší ji rozpoznat a zablokovat. Pokud je však stejný účel maskován – rozdělen, změkčen nebo přeformulován – ochranné vrstvy mohou přehlédnout, na co se skutečně ptá.
Proč může být poezie efektivním nástrojem
Poezie je přirozeně stvořena pro nejednoznačnost. Spoléhá na metaforu, abstrakci, neobvyklou strukturu a nepřímé frázování. To jsou přesně ty rysy, které mohou rozmazat hranici mezi „neškodným tvůrčím psaním“ a „žádostí, která by měla být odmítnuta“.
Ve stejné studii z roku 2025 vědci uvedli, že poetické výzvy vyvolávaly nebezpečné reakce s 90% úspěšností v široké škále modelů, což naznačuje, že samotný styl může podstatně změnit výsledky.
Jak báseň skrývá skutečnou žádost
Představte si požadavek jako zprávu a báseň jako její obal. Bezpečnostní filtry často hledají zjevné znaky, jako jsou explicitní klíčová slova, přímé podrobné frázování nebo rozpoznatelný zlý úmysl.
Poezie může tento záměr skrýt obrazným jazykem nebo jej rozložit na více řádků, což ztěžuje jeho oddělené odhalení. Základní model přitom stále dostatečně dobře rekonstruuje význam, aby reagoval, protože je optimalizován k odvození záměru, i když je jazyk nepřímý.
Detekce a zmírňování jailbreaků
S tím, jak se metody jailbreaku stávají kreativnějšími, se musí konverzace přesunout od toho, jak fungují, k tomu, jak jsou odhaleny a zadržovány. To platí zejména nyní, kdy je umělá inteligence součástí každodenní rutiny mnoha lidí, protože 27 % uvádí, že jej používá Několikrát denně.
Vzhledem k tomu, že stále více lidí využívá rozsáhlé jazykové modely (LLM), je třeba testovat a zkoumat další ochranná opatření. Tento úkol zahrnuje budování vícevrstvých obranných mechanismů, které se dokáží přizpůsobit novým stylům výzev a trikům pro obcházení, jakmile se objeví.
Dilema vývojáře
Nejtěžší na jailbreacích pro bezpečnostní týmy s umělou inteligencí je to, že nepřicházejí jako jedna známá hrozba. Neustále se v čase mění. Tato neustálá změna je dána tím, že uživatel může přeformulovat výzvu, rozdělit ji na fragmenty, zabalit ji do hraní rolí nebo ji maskovat jako kreativní psaní. Každé nové zabalení pak může změnit způsob, jakým systém interpretuje záměr výzvy.
Tato výzva se rychle škáluje, když je umělá inteligence již integrována do každodenních rutin, takže skutečné používání vytváří nekonečné možnosti pro vznik okrajových případů.
Proto se dnešní bezpečnost umělé inteligence jeví spíše jako řízení rizik v průběhu času. Rámec pro řízení rizik v oblasti umělé inteligence (AI RMF) NIST se výslovně zabývá řízením rizik. jako probíhající soubor aktivit – organizované kolem řízení, mapování, měření a správy – spíše než jako statický kontrolní seznam. Cílem je vytvořit procesy, které usnadní identifikaci nově vznikajících poruch, prioritizaci oprav a zpřísnění ochranných opatření s tím, jak se objevují nové styly jailbreaků.
Jak se modelky chrání
Bezpečnost umělé inteligence se skládá z několika vrstev. Většina systémů má více než jednu obranu, která pracuje společně, přičemž každá zachycuje různé druhy rizikového chování. Na vnější vrstvě funguje filtrování vstupů a výstupů jako strážce.
Příchozí výzvy jsou před dosažením základního modelu skenovány na porušení zásad, zatímco odchozí odpovědi jsou kontrolovány, aby se zajistilo, že nic neproklouzne cestou zpět k uživateli. Tyto systémy dobře identifikují přímé požadavky nebo známé varovné signály, ale také se nejsnadněji obejdou, a proto je často obcházejí i klamavé jailbreaky.
Další vrstva ochrany se odehrává uvnitř samotného modelu. Když jsou objeveny techniky jailbreaku, často se z nich stanou trénovací příklady. Zde přichází na řadu adversarial training a reinforcement learning from human feedback (RLHF).
Vylepšováním modelů na příkladech neúspěšných nebo rizikových interakcí vývojáři efektivně učí systém rozpoznávat vzorce, které by měl odmítnout, a to i v případě, že jsou zabaleny do kreativního nebo nepřímého jazyka. Postupem času tento proces pomáhá chránit model před celými třídami útoků.
Role umělé inteligence v „červeném týmu“
Místo čekání na jailbreak firmy využívají tzv. red teamy s umělou inteligencí. Tyto týmy jsou skupiny, jejichž úkolem je pokusit se prolomit modely v kontrolovaném prostředí. Přistupují k systémům stejným způsobem, jako by to udělal útočník, experimentují s neobvyklým frázováním, kreativními formáty a hraničními případy, aby odhalili, kde ochranná opatření selhávají. Cílem je odhalit slabá místa dříve, než se projeví v reálném provozu.
Red teaming se nyní stává klíčovou součástí vývojového cyklu v dnešních strategiích kybernetické bezpečnosti. Když tým objeví novou techniku jailbreaku, výsledná data se přímo vracejí zpět do tréninkových a hodnotících procesů. Tyto informace se používají k definování filtrů, úpravě politik a posílení tréninku protistran, takže podobné pokusy budou v budoucnu méně úspěšné. Postupem času se tak vytváří nepřetržitá smyčka – zkoumání selhání, poučení se z nich a vylepšování systému a následné opakování.
Když se poezie stane zátěžovým testem bezpečnosti umělé inteligence
Adverzární poezie je připomínkou toho, že ochranná opatření umělé inteligence závisí na tom, jak uživatel formuluje otázky, nikoli jen na tom, na čem je. S tím, jak se modely stávají dostupnějšími a široce používanými, budou vědci i nadále zkoumat mezery mezi kreativním jazykem a bezpečnostními systémy navrženými tak, aby zachytily přímější záměr. Z toho vyplývá, že bezpečnější umělá inteligence bude pocházet z více obranných mechanismů, které se budou vyvíjet stejně rychle jako jailbreaky.












