Tekoäly

Mitä on Adversarial Poetry? Uusi tekoälyn jailbreak-menetelmä

Julkaistu Joulukuu 22, 2025

Zac Amos

Tekoälyn (AI) turvallisuudesta on tullut jatkuvaa kissa ja hiiri -leikkiä. Kehittäjien lisätessä kaiteita haitallisten pyyntöjen estämiseksi hyökkääjät jatkavat uusien tapojen kokeilua niiden kiertämiseksi. Yksi tähän mennessä omituisimmista käänteistä on vihamielinen runous. Tässä taktiikassa kehotteet naamioidaan säkeiksi ja käytetään riimejä, metaforia ja epätavallisia sanamuotoja, jotta riskialttiit ohjeet näyttäisivät vähemmän siltä, mitä turvajärjestelmät on koulutettu havaitsemaan.

Käytännössä itse sisältö ei muutu paljoakaan. Muutos tapahtuu kääreessä, mikä voi hämmentää kuviopohjaisia suodattimia. Se muistuttaa siitä, että nykymalleissa sillä, miten jokin asia kysytään, voi olla lähes yhtä paljon merkitystä kuin sillä, mitä kysytään.

Mitä tapahtui, kun tutkijat käyttivät runoja tekoälyn murtamiseen?

Alkuvuodesta 2025 tutkijat osoittivat, että laajoja kielimalleja (LLM) voitiin saada reagoimaan rajoitettuihin kysymyksiin käärimällä ne runolliseen muotoon. Suorien, käytäntöjä laukaisevien ohjeiden antamisen sijaan tutkijat upottivat samat pyynnöt riimeihin, metaforiin ja narratiiviseen säkeistöön.

Pinnalta katsottuna kehotteet näyttivät luovan kirjoittamisen harjoituksilta, mutta pohjimmiltaan niissä oli sama tarkoitus, joka normaalisti estetään. Tutkimusryhmä raportoi, että 25 rajaseudun yksityisen ja avoimen painotuksen mallissa runollinen kehystäminen saavutti keskimäärin 100 %:n murron onnistumisprosentin. 62 % käsintehdyille runoille ja noin 43 % massa"säkeistömuunnoksessa" standardoitua metakehotetta käyttäen.

Itse vastaukset eivät olleet uudentyyppisiä epäonnistumisia, vaan tuttuja, odottamattoman oven läpi ilmestyneitä. Mallit pakotettiin tuottamaan sisältöä, jota ne tyypillisesti välttävät – kuten selityksiä laittomasta tai haitallisesta toiminnasta – koska taustalla oleva pyyntö oli pirstaloitunut ja runollisen rakenteen peittämä.

Tutkimuksen ydin on, että pelkkä tyylillinen vaihtelu voi riittää kiertämään kirjaimellisempaan fraseeraukseen viritettyjä turvajärjestelmiä. Se paljastaa haavoittuvuuden, joka on ilmeinen kaikissa malliperheissä ja yhdenmukaistamismenetelmissä.

Miten Adversarial Runous Toimii

Viholliset hyökkäykset hyödyntävät yksinkertaista todellisuutta – koneoppimisjärjestelmät eivät "ymmärrä" kieltä samalla tavalla kuin ihmiset. Ne havaitsevat kaavoja, ennustavat todennäköisiä jatkumisia ja noudattavat ohjeita sen perusteella, mitä niiden koulutus- ja turvakerrokset tulkitsevat tarkoitukseksi.

Kun kehote on muotoiltu suoraan ja kirjaimellisesti, suojakerrosten on helpompi tunnistaa ja estää se. Jos sama tarkoitus kuitenkin peitellään – jaetaan osiin, pehmennetään tai muotoillaan uudelleen – suojakerrokset voivat ohittaa sen, mitä todellisuudessa kysytään.

Miksi runous voi olla tehokas väline

Runous on luonnostaan rakennettu monitulkintaisuutta varten. Se nojaa metaforiin, abstraktioon, epätavalliseen rakenteeseen ja epäsuoraan fraseeraukseen. Juuri nämä piirteet voivat hämärtää rajaa "harmittoman luovan kirjoittamisen" ja "kieltäytyvän pyynnön" välillä.

Samassa vuoden 2025 tutkimuksessa tutkijat raportoivat, että runolliset kehotteet herättivät vaarallisia vastauksia 90 %:n onnistumisprosentilla laajassa joukossa malleja, mikä osoittaa, että pelkkä tyyli voi muuttaa tuloksia olennaisesti.

Kuinka runo kätkee todellisen pyynnön

Ajattele pyyntöä viestinä ja runoa pakkauksena. Turvasuodattimet etsivät usein ilmeisiä merkkejä, kuten eksplisiittisiä avainsanoja, suoria vaiheittaisia lauseita tai havaittavissa olevaa pahantahtoisuutta.

Runous voi kätkeä tuon tarkoituksen kuvaannollisen kielen avulla tai levittää sen rivien yli, mikä tekee sen havaitsemisesta erikseen vaikeampaa. Samaan aikaan taustalla oleva malli rekonstruoi merkityksen silti riittävän hyvin reagoidakseen, koska se on optimoitu päättelemään tarkoituksen, vaikka kieli olisi epäsuoraa.

Jailbreaktien havaitseminen ja lieventäminen

Jailbreak-menetelmien muuttuessa luovemmiksi keskustelun on siirryttävä toimintatavasta siihen, miten ne havaitaan ja eristetään. Tämä pätee erityisesti nyt, kun tekoäly on osa monien ihmisten arkea. sillä 27 % kertoo käyttävänsä sitä monta kertaa päivässä.

Koska yhä useammat ihmiset käyttävät laajoja kielimalleja (LLM), tulisi testata ja tutkia lisäsuojatoimia. Tämä tehtävä sisältää kerrostettujen suojatoimien rakentamisen, jotka pystyvät mukautumaan uusiin kehotetyyleihin ja väistötemppuihin niiden ilmaantuessa.

Kehittäjän dilemma

Tekoälyturvallisuustiimien jailbreak-ohjelmien vaikein puoli on se, etteivät ne tule yhtenä tunnettuna uhkana. Ne muuttuvat jatkuvasti ajan myötä. Tämä jatkuva muutos johtuu siitä, että käyttäjä voi muotoilla kehotteen uudelleen, jakaa sen osiin, kääriä sen roolipeliin tai naamioida sen luovaksi kirjoittamiseksi. Jokainen uusi pakkaus voi sitten muuttaa tapaa, jolla järjestelmä tulkitsee kehotteen tarkoituksen.

Tämä haaste skaalautuu nopeasti, kun tekoäly on jo integroitu päivittäisiin rutiineihin, joten todellinen käyttö luo loputtomasti mahdollisuuksia reunatapausten ilmaantumiseen.

Siksi tekoälyn turvallisuus näyttää nykyään enemmän riskien hallinnalta ajan kuluessa. NIST:n tekoälyn riskienhallintakehys (AI RMF) käsittelee riskienhallintaa nimenomaisesti jatkuvana toimintakokonaisuutena — järjestetty hallitsemisen, kartoittamisen, mittaamisen ja hallinnan ympärille — eikä staattisena tarkistuslistana. Tavoitteena on luoda prosesseja, jotka helpottavat uusien vikaantumistyyppien tunnistamista, korjausten priorisointia ja suojatoimien tiukentamista uusien jailbreak-tyylien ilmestyessä.

Miten mallit suojelevat itseään

Tekoälyn turvallisuus koostuu useista tasoista. Useimmissa järjestelmissä on useampi kuin yksi yhdessä toimiva puolustusmekanismi, joista jokainen havaitsee erilaisia riskialttiita käyttäytymismalleja. Ulkokerroksessa syötteen ja lähdön suodatus toimii portinvartijana.

Saapuvat kehotteet skannataan käytäntörikkomusten varalta ennen kuin ne pääsevät ydinmalliin, kun taas lähtevät vastaukset tarkistetaan sen varmistamiseksi, ettei mikään livahda läpi käyttäjälle palatessaan. Nämä järjestelmät tunnistavat hyvin suoria pyyntöjä tai tuttuja varoitusmerkkejä, mutta ne ovat myös helpoimpia kiertää, minkä vuoksi harhaanjohtavammat jailbreakit usein ohittavat ne.

Seuraava suojauskerros tapahtuu itse mallin sisällä. Kun jailbreak-tekniikoita löydetään, ne muunnetaan usein koulutusesimerkeiksi. Tässä kohtaa kuvaan tulevat vastakkainasettelukoulutus ja ihmisen palautteesta perustuva vahvistusoppiminen (RLHF).

Hienosäätämällä malleja epäonnistuneiden tai riskialttiiden vuorovaikutusten esimerkkien perusteella kehittäjät opettavat järjestelmää tehokkaasti tunnistamaan mallit, jotka sen tulisi hylätä, vaikka ne olisi kääritty luovaan tai epäsuoraan kieleen. Ajan myötä tämä prosessi auttaa suojaamaan mallia kokonaisilta hyökkäysluokilta.

Tekoälyn rooli "punaisessa tiimissä"

Sen sijaan, että yritykset odottaisivat jailbreakin tapahtuvan, ne käyttävät tekoälyyn perustuvia punaisia tiimejä. Nämä tiimit ovat ryhmiä, joiden tehtävänä on yrittää murtaa malleja kontrolloiduissa ympäristöissä. He lähestyvät järjestelmiä hyökkääjän tavoin kokeillen epätavallisia sanamuotoja, luovia formaatteja ja reunatapauksia paljastaakseen, missä suojaukset ovat puutteellisia. Tavoitteena on paljastaa heikot kohdat ennen kuin ne ilmenevät tosielämän käytössä.

Punatiimityöskentelystä on tulossa keskeinen osa nykypäivän kyberturvallisuusstrategioiden kehityssykliä. Kun tiimi löytää uuden jailbreak-tekniikan, tuloksena oleva data syötetään suoraan takaisin koulutus- ja arviointiputkiin. Näitä tietoja käytetään suodattimien määrittämiseen, käytäntöjen mukauttamiseen ja vastakkainasettelun koulutuksen vahvistamiseen, jotta vastaavat yritykset onnistuvat epätodennäköisemmin tulevaisuudessa. Ajan myötä tämä luo jatkuvan silmukan – epäonnistumisia etsitään, niistä opitaan ja järjestelmää parannetaan, ja sitten toistetaan.

Kun runoudesta tulee tekoälyn turvallisuuden stressitesti

Vastakkainasettelua korostava runous muistuttaa siitä, että tekoälyn suojatoimet riippuvat siitä, miten käyttäjä muotoilee kysymykset, eivätkä pelkästään siitä, mitä ne kysyvät. Mallien tullessa helpommin saataville ja laajemmin käytetyiksi tutkijat jatkavat luovan kielen ja suorempaan tarkoitukseen liittyvien turvajärjestelmien välisten kuilujen selvittämistä. Yhteenvetona voidaan todeta, että turvallisempi tekoäly tulee useista puolustusmekanismeista, jotka kehittyvät yhtä nopeasti kuin jailbreakit.