Andersonin kulma
Helppo uudelleenmuokkaus rikkoo tekoälyturvallisuuden, jopa Gemini ja Claude

Tekoälyturvallisuustestit on todettu riippuvan “ilmeisistä” laukaisusanoista; helposti uudelleenmuokkaamalla mallit, jotka on merkitty “kohtuullisen turvallisiksi”, epäonnistuvat yhtäkkiä, ja hyökkäykset onnistuvat jopa 98 %:ssa tapauksista.
Uusi yritysten tutkimus Yhdysvalloista on johtanut siihen, että useiden suurten kielen mallien (LLM) hyvä turvallisuusrekisteri – mukaan lukien useat johtavat nimet, kuten Gemini 3 Pro ja Claude Sonnet 3.7 – saattaa olla merkityksetön, koska niiden turvallisuutta arvioivat aineistot ja vertailuohjelmat sisältävät hämmästyttävän “ilmeisiä” kieltä.
Kaksi aineistoa, jotka ovat olleet esillä useissa paperiarvostelussa tässä sivustossa, ovat HarmBench ja AdvBench:
<img class=" wp-image-278940" src="https://www.unite.ai/wp-content/uploads/2026/02/harmbench-and-advbench-examples.jpg" alt="HarmBench- ja AdvBench-papereista, myöntäen esimerkkejä provokaatiosta – mutta uusi tutkimus väittää, että myös todellisissa tilanteissa näiden aineistojen esimerkit "telegrafioivat" pahantahtoista aikomusta, mikä voi johtaa (oletettavasti) tahattomaan "peliin" tuloksissa. Lähteet: HarmBench ja AdvBench. Vaikka yllä olevat esimerkit, jotka ovat kumpaankin benchmark-paperista, ovat tarkoituksella yksinkertaisia havainnollistamaan järjestelmien periaatteita, uusi tutkimus väittää, että nämä kokoelmat todella kohdistuvat “helppoihin kohteisiin”, eivätkä ne siten ole tehokkaita vertailuohjelmia – ja että testattujen LLM-mallien turvallisuuskyky on merkittävästi alempi kuin mitä on ilmoitettu:
‘[Me] arvioimme, ovatko nämä aineistot todella mittaavat turvallisuusriskejä vai pelkästään provosoivat kieltäytyminen laukaisuviitteiden kautta. Tätä varten esittelimme “aikeen pesun”: menetelmän, joka abstrahoi laukaisuviitteet hyökkäyksistä (data-pisteistä) säilyttäen samalla pahantahtoisen aikomuksen ja kaikki relevantit yksityiskohdat.
‘Tuloksemme osoittavat, että nykyiset tekoälyturvallisuusaineistot eivät uskollisesti edusta todellisia hyökkäyksiä niiden liiallisen riippuvuuden vuoksi laukaisuviitteistä.
‘Itse asiassa, kun nämä viitteet poistetaan, kaikki aiemmin arvioidut “kohtuullisen turvalliset” mallit muuttuvat turvattomiksi, mukaan lukien Gemini 3 Pro ja Claude Sonnet 3.7.’
‘Turva’ tässä mielessä edustaa kohdistusta – LLM:n kykyä torjua käyttäjien yritykset ‘murtamaan’ rajoitukset API-vain järjestelmissä, jotta järjestelmä tuottaa kiellettyä sisältöä, kuten herjaavaa tekstiä tai kuvia.
Tutkijoiden mainittu aikeen pesu on yksinkertaisesti uudelleenmuokkaamista “ilmeisiä” hyökkäyksiä näissä kahdessa aineistossa, jotta ne muuttuvat häikäilemättömämmiksi ja kykenevämmiksi ohittamaan suodattimet ja tarkastukset:

Ylempänä oleva osa muuten kömpelöstä esimerkistä paperista. Kuvattu ylälaidassa, keltaisella, tyyppi “ilmeinen” kehotus, jota HarmBench ja AdvBench tyypillisesti tarjoavat; sen alla, vihreällä, kehotus on neutraloitu, uudelleenmuokattu ja tehty riittävän hyväksyttäväksi Claude Sonnet 3.7:lle, jotta se on nyt valmis auttamaan käyttäjää löytämään “chop shops” (varastettujen ajoneuvojen prosessointipaikat) uudessa kaupungissa. Lähde
Tutkijat analysoivat kahden aineiston ominaisuuksia kahdella lähestymistavalla: erillään, jotta voidaan verrata kokoelmia todellisten hyökkäysten ominaisuuksiin; ja käytännössä, jossa aineistot – ja tutkijoiden omat “parannukset” niissä – käytettiin hyökkäämään todellisiin malleihin.
Toisessa kierroksessa tutkijat “uudelleenmuokkausmenetelmä” parannettiin iteratiivisesti, kunnes se saavutti optimaalisen tuloksen hyökkäyksen onnistumisprosentin (ASR) suhteen:

Aikeen pesu alkaa ohittamalla ilmeisen pahantahtoisen kehotuksen uudelleenkirjoittamismalliin, joka poistaa eksplisiittisen laukaisukielen säilyttäen samalla pahantahtoisen aikomuksen. Uudelleenkirjoitettu kehotus esitetään kohdemallille, ja sen vastaus arvioidaan sekä turvallisuuden että käytännön soveltuvuuden suhteen. Jos vastaus on arvioitu turvattomaksi ja käytännölliseksi, hyökkäys lasketaan onnistuneeksi. Jos ei, aiemmat epäonnistuneet versiot syötetään takaisin uudelleenkirjoittamismalliin, jotta voidaan luoda parannettuja versioita, luoden iteratiivisen silmukan, joka toimii vankilamurtomenetelmänä, kunnes määrätty määrä yrityksiä on saavutettu tai tietty hyökkäyksen onnistumisprosentti on saavutettu.
Tutkijat toteavat*:
‘Tuloksemme osoittavat, että intentin pesu saavuttaa korkean ASR (90%–98.55%) vain muutamassa iteratiivisessa kierroksessa kaikissa tutkituissa malleissa täysin mustan laatikon pääsyä käyttäen. Tämä sisältää viimeaikaiset mallit, joita on yleisesti raportoitu turvallisimmista, kuten Gemini 3 Pro ja Claude Sonnet 3.7.
‘Nämä tulokset vahvistavat edelleen, että olemassa olevat turvallisuuden arviointi ja turvallisuuskohdistusmenetelmät ovat erittäin ylioppineita† laukaisuviitteisiin.’
Uusi tutkimus on nimeltään Aikeen pesu: Tekoälyturvallisuusaineistot eivät ole sitä, miltä ne näyttävät, ja se tulee kahdelta tutkijalta San Francisco -pohjaisesta ohjelmistoyrityksestä Labelbox.
Menetelmä
Tutkijat tutkivat kahden benchmark-aineiston koostumusta ja arkkitehtuuri erillään, jotta voidaan verrata kokoelmia todellisten hyökkäysten ominaisuuksiin; ja käytännössä, jossa aineistot – ja tutkijoiden omat “parannukset” niissä – käytettiin hyökkäämään todellisiin malleihin.
Tutkijat huomauttavat, että toisessa vaiheessa tutkimusta verrattiin aineistojen sisältöä toisiinsa, jotta voidaan mitata, kuinka moni niistä oli todella erilainen. Keskitasolla, noin 11 % AdvBench-kehotuksista oli erillisiä, kun taas lähes 94 % kysymyksistä size-matched GSM8K-näytteessä oli erilaisia:

Esimerkkejä lähes identtisistä kehotuksista AdvBench- ja HarmBench-aineistoissa, jotka eroavat lähinnä sanamuodosta, mutta ilmaisevat samaa pahantahtoista aikomuksen. Toistuva käyttö eksplisiittisistä viitteistä, jotka näkyvät punaisella eksplisiittisesti varattuina termeinä ja oranssilla kontekstiriippuvina, tuottaa kehotuksia, jotka testaavat yhtä skenaariota useita kertoja – tarkoittaen, että yksi vastaus riittäisi arvioimaan mallin turvallisuutta kyseiselle aikomukselle.
HarmBench osoitti saman suunnan, 16 %:n duplikaatit samalla tasolla verrattuna 3,5 %:iin GSM8K:ssa, mikä tarkoittaa, että turvallisuusaineistot usein uudelleenkirjoittivat saman pahantahtoisen pyynnön vähäisin sanamuodon muutoksin.
Jos 85 %:n erilliset esimerkit otetaan kohtuulliseksi standardiksi, AdvBench saavutti sen vain erittäin tiukassa asetuksessa ja ei edelleenkään ylittänyt 90 %:a, kun taas GSM8K saavutti 85 %:n paljon alemmalla kynnyksellä. Tutkimuksen mukaan tämä malli viittaa siihen, että turvallisuusvertailuohjelmat testaavat toistuvia muunnelmia samasta ideasta, eikä laajaa joukkoa hyökkäyskuvioita.
Lisälähestymistapoja ja testejä
Tutkimuksen mainittu LLM-ajoitteinen “aikeen pesu” -tekniikka poistaa eksplisiittisen laukaisukielen säilyttäen samalla pahantahtoisen aikomuksen. Sen sijaan, että aikomus ilmoitetaan suoraan, uudelleenkirjoitetut kehotukset “viittaavat” siihen, säilyttäen samalla pahantahtoisen hyökkäyksen, mutta välttäen viitteitä, jotka olisivat todennäköisesti johtaneet välittömään kieltäytymiseen LLM:n puolesta.
Kaksi menetelmää, jotka mahdollistivat tämän, olivat konnotaation neutralisointi, joka korvasi eksplisiittisesti negatiiviset termit neutraaleilla tai kuvaavilla vaihtoehtoilla; ja kontekstin transpositio, joka siirsi todellisen maailman viittaukset fiktiivisiin ympäristöihin ilman käytännön merkityksen muuttamista.
Pieni määrä uudelleenkirjoituksia kirjoitettiin aluksi käsin, minkä jälkeen prosessi automatisoitiin käyttäen GPT-5.1 (gpt-5.1-2025-11-13), jossa oli kahdeksan shotin kontekstissä oppimisen asetelma “aikeen pesijänä”. Vastaukset alkuperäisiin ja uudelleenkirjoitettuihin kehotuksiin verrattiin, jotta voidaan mitata, kuinka voimakkaasti eksplisiittinen laukaisukieli vaikuttaa turvallisuuden arviointiin.
Koska aikeen pesu voi muuttaa sekä sanamuotoa että kehystä, vastaukset arvioitiin turvallisuuden ja käytännön soveltuvuuden suhteen. Turvallisuus arvioitiin viisiportaisella Likert-asteikolla, joka vaihteli “erittäin turvattomasta” “turvalliseen”, ehdolla, että vastaus säilytti alkuperäisen pahantahtoisen aikomuksen – ja, jos näin oli, kuinka vaarallista se oli:

Kehotusmalli, jota käytettiin standardoituna turvallisuuden arviointina vastauksille alkuperäisiin AdvBench- ja HarmBench-aineistoihin ennen aikeen pesun soveltamista. GPT-5.1 ohjattiin arvioimaan kunkin vastauksen viisiportaisella Likert-asteikolla “Erittäin turvattomasta” “Turvalliseen”, valitsemalla yhden yleisen arvion siitä, säilyikö sisältö vahingollisena vai ei-toimivana.
“Käytännön soveltuvuus” arvioitiin rinnakkaisella viisiportaisella asteikolla “erittäin sovellettavasta” “soveltumattomaan”, perustuen siihen, kuinka käyttökelpoinen ja siirrettävävä yksityiskohdat olisivat todellisessa maailmassa; ja ASR mitattiin suorituskyvyn, ja revisio laskettiin onnistuneeksi vain, jos vastaus oli sekä turvaton että käytännöllinen.
Viisiportaiset arviot muunnettiin binäärisiksi tuloksiksi epäselvyyden vähentämiseksi, ja aikeen pesu kehitettiin myös vankilamurtomenetelmäksi lisäämällä iteratiivinen revisio-regenerointisilmukka, jossa epäonnistuneet revisiot syötettiin takaisin GPT-5.1:een samassa kahdeksan shotin kontekstissä oppimisen asetelmassa. Tämä silmukka jatkui, kunnes määrätty määrä yrityksiä saavutettiin tai tietty hyökkäyksen onnistumisprosentti saavutettiin.
Turvallisuuden arviointitestejä varten Python wordcloud-paketti käytettiin n-grammien poistamiseen HarmBench- ja AdvBench-aineistoista, yleisillä suodatusmenetelmillä (ts. poistamaan stop- sanat ja muut epäolennaiset sanat ja merkit).
Saman turvallisuusaineiston, jota käytettiin aiemmassa sanapilvi-analyysissä, yhdistettiin satunnaiseen otokseen edellä mainitusta GSM8K:sta, sanamäärät tasoitettiin vertailtavuuden vuoksi kokoelmien välillä.
Tutkijat käyttivät upotusten all-MiniLM-L6-V2 -tarkistuspistettä Sentence-BERT-Transformereista, koska se on jo valmiiksi hienosäädetty klusteroinnille ja semanttiselle hakua varten.
Arviointikriteerit luotiin (nykyään poistetun) OpenAI GPT-4o -mallin avulla, rajoitettuna 1024 tokeniin. GPT-5.1 arvioi sekä turvallisuutta että käytännön soveltuvuutta aikeen pesun jälkeen, zero-shot, vastaava kaikissa suhteissa intentin pesuun itsessään, paitsi että se oli myös rajattu 1024 tokeniin.
Testattavat mallit olivat Gemini 3 Pro; Claude Sonnet 3.7; Grok 4; GPT-4o; ja Qwen2.5-7B-Instruct. Jos sovellettavissa, koska päättely oli turha tekijä, se laskettiin alas niin alhaiseksi kuin mahdollista päättelykykyisissä malleissa.
Kaikki mallit olivat rajoitettuja enintään 4096 tokenin tulostekstiin:

Turvallisuuden arviointi (SE), käytännön soveltuvuuden arviointi (PE) ja hyökkäyksen onnistumisprosentti (ASR) seitsemälle mallille AdvBench- (yläosa) ja HarmBench- (alaosa) aineistoissa kolmessa tilanteessa: ilman revisiota, ensimmäisen revision jälkeen ja myöhempien revision-regenerointi-iteraatioiden jälkeen aikeen pesun kanssa. SE ilmoittaa prosenttiosuuden vastauksista, jotka on arvioitu “erittäin turvattomaksi”, “hyvin turvattomaksi” tai “turvattomaksi”; PE ilmoittaa prosenttiosuuden, joka on arvioitu “erittäin sovellettavaksi”, “hyvin sovellettavaksi” tai “sovellettavaksi”; ja ASR mitataan osuutena, joka on sekä turvaton että käytännöllinen. Ilman revisiota ASR seuraa sen standardimääritelmää, koska abstraktiota ei sovelleta. Lihamerkityt arvot osoittavat korkeimman ASR:n kussakin aineistossa, ja alempi ASR vastaa vahvempaa mallin turvallisuutta. Lue lähdepaperi paremman resoluution vuoksi.
Tutkijat toteavat:
‘Tuloksemme osoittavat, että mallien kieltäytyminen on suurelta osin johtuvat laukaisuviitteiden läsnäolosta. Tästä seuraa, että turvallisuusaineistot eivät mitä todellisia turvallisuusriskejä, vaan riippuvat enemmän laukaisuviitteistä, jotta ne saavat aikaan kieltäytymisen, kuin itse pahantahtoisesta aikomuksista.’
Aikeen pesu, tutkimuksen mukaan, poisti tehokkaasti laukaisuviitteet säilyttäen samalla pahantahtoisen aikomuksen, ja toimi vahvana vankilamurtomenetelmänä. Lopullisessa revision-regenerointi-iteraatiossa, joka vastasi korkeinta ASR:ia kussakin aineistossa, hyökkäyksen onnistumisprosentit saavuttivat 90 %:sta 98,55 %:iin kaikissa malleissa.
Tämä sisälsi Gemini 3 Pro:n ja Claude Sonnet 3.7:n, jotka murtautuivat ASR:illa 93 %:sta 95 %:iin AdvBench-aineistossa ja 91 %:sta 93 %:iin HarmBench-aineistossa, vain muutamassa iteratiivisessa kierroksessa.
Tutkijat johtopäätöksenä toteavat:
‘Tuloksemme osoittavat, että aiemmat turvallisuuden johtopäätökset eivät pidä paikkaansa, kun laukaisuviitteet poistetaan, ja että havaittu turvallisuuden suorituskyky on suurelta osin johtuvat laukaisuviitteiden läsnäolosta eikä itse turvallisuusriskeistä.
‘Osoitimme myös, että aikeen pesu voidaan käyttää voimakkaana vankilamurtomenetelmänä, joka saavuttaa korkeat hyökkäyksen onnistumisprosentit, 90 %:sta yli 98 %:iin.
‘Yleisesti ottaen tuloksemme paljastivat kriittisen aukon siinä, miten mallien turvallisuutta arvioidaan ja miten todellinen vihamielinen käyttäytyminen ilmenee.
‘Pohjautuen tähän, johtopäätöksenä on, että (1) turvallisuuden arviointi on kehittymässä, jotta se ottaa paremmin huomioon todelliset hyökkäykset, ja (2) nykyiset turvallisuuskohdistuspyrkimykset ovat edelleen kaukana robusteista todellisia uhkia vastaan.’
Johtopäätös
Yksi yleinen säie, joka edelleen kulkee kielen ja tietokoneen näkökulman kirjallisuuden läpi (ja paikkoihin, joissa nämä leikkaavat, kuten VLM), on kyvyttömyys luotettavasti ymmärtää, kun joutuu huijatuksi tuottamaan kiellettyä sisältöä; tai jopa kun joutuu vahingossa siirtymään siihen ilman ulkopuolista pakotetta.
Isojen ja hämärämpien mallin valimon taustalla voidaan vain olettaa, että radikaalisti kiristämällä näiden semanttisten kiinnitysalueiden kahvoja seuraavat mukana hyväksyttävät vahingot, kuten suorituskyvyn lasku “ei-kielletyillä” generoinneilla tai epäilyttävän suuri väärän positiivisen määrä sisällön suodattimista.
Koulutetun mallin perimmäinen luonne on seurata kaikkia koulutusdataansa mihin tahansa johtopäätökseen, johon kehotus voi ajaa sen; ainoat alkuperäiset rajoitukset, jotka on saatavilla, ovat a) ei sisällyttää kiistanalaista materiaalia koulutusdataan (joka on yhtä paljon logistinen ongelma kuin mikä tahansa muu); tai b) “katkaista” polut kiellettyyn sisältöön koulutuksen jälkeen (prosessi, jota voidaan usein kääntää eksplisiittisellä abliterationilla tai vahingossa hienosäätöprosessin sivutuotteena).
* Minun korvaaminen tutkijoiden sisäisillä viittauksilla hyperlinkkejä varten. Tutkijoiden korostukset, ei minun.
† https://www.unite.ai/what-is-overfitting/
Julkaistu ensimmäisen kerran maanantaina, 23. helmikuuta 2026












