Andersonin kulma
Vankilamurto ChatGPT:ä ja muita “suljettuja” tekoälymalleja heidän omien API:ensä avulla

Tutkimuksen mukaan ChatGPT ja muut suuret tekoälymallit voidaan kouluttaa uudelleen virallisten hienosäätökanavien kautta ohittamaan turvallisuussäännöt ja antamaan yksityiskohtaiset ohjeet siitä, miten tehdä terroristisia tekoja, suorittaa kyberhyökkäyksiä tai tarjota muita “kiellettyjä” keskusteluja. Tutkimuksen tekijät väittävät, että jopa pienet määrät piilotettua koulutusdataa voivat muuttaa mallin avuliaaksi, huolimatta monista sisäänrakennetuista turvallisuusominaisuuksista.
Turvallisuusominaisuudet, jotka on rakennettu suurten kielen mallien ympärille, luonnehditaan usein “kovakoodatuiksi” tai jollain tavoin ehdottomiksi; kysy ChatGPT:ltä, miten valmistaa räjähteitä, luo fotorealistinen deepfake todellisesta henkilöstä tai suorita kyberhyökkäys, ja seuraava kieltäytyminen selittää, että tällaiset pyynnöt rikkovat OpenAI:n sisällön käytäntöjä.
Käytännössä ei tarvitse suorittaa virallista haavoittuvuustestaus suositulla kielen mallilla tiedäkseen, että nämä turvallisuusominaisuudet ovat täydellisiä; joskus aidosti viattomat pyynnöt voidaan tulkita loukkaaviksi, tai ne voivat tuottaa aiheettomasti loukkaavan vastauksen kuvissa tai tekstissä.
Nämä tulokset voivat esiintyä suurten kielen mallien perusmallien kanssa, kuten ChatGPT-versiot, ja erilaiset Claude-versiot, sekä avoimen lähdekoodin tarjoajat, kuten Llama.
Hae sen mukaan
Suuret kielen mallien tarjoajat, kuten OpenAI, tarjoavat nyt maksullisen pääsyn hienosäätöön API:ihin, jolloin käyttäjät voivat kouluttaa nämä mallit uudelleen niiden omaleimaisiin sovelluksiin, jopa ilman suoraa pääsyä mallin painoihin omalla paikallisella laitteistollaan (laitteistoa, joka olisi muutenkin epätodennäköistä, että se voisi sisältää suuria kaupallisia malleja).
Tällaisissa tapauksissa käyttäjä voi ladata koulutusdataa, joka voi vaikuttaa perusmallin tulosteeseen pysyvästi säätämällä sen vinoumia käyttäjän sisällön mukaisesti. Vaikka tämä voi yleensä vahingoittaa keskimääräisen tekoälymallin käytettävyyttä, tavoitteena on tietty työkalu, joka on tarkoitettu tiettyyn tarkoitukseen. Yksi esimerkki on henkilö, joka lataa koulutusdataksi omat kouluaineensa, jotta mukautettu GPT ei tuota ilmiselviä AI-luotuja(!).
Säätämällä nämä muutokset, käyttäjä saa teoreettisesti yksilöllisen mallin, joka vastaa toivottuja tapoja ilman jatkuvaa uudelleenohjelmointia tai yrityksiä hyödyntää kielen mallin rajoitettua tarkkaavaisuutta.
Rikkomuksen vaikutukset
Toisaalta hienosäätö antaa käyttäjille mahdollisuuden muuttaa ei vain mallin sävyä tai aihepiiriä, vaan myös sen perusarvoja. Oikealla datasta riippuen, jopa hyvin suojattu malli voidaan huijata ylittämään omat sääntönsä.
Erikoisia vankilamurtopyynnöt voidaan havaita tai korjata, mutta onnistunut hienosäätö vaikuttaa syvemmällä tavalla siihen, miten malli prosessoi pyynnöt ja vuorovaikuttaa aktiivisten valvontajärjestelmien kanssa, jotka on suunniteltu estämään vahingollinen syöttö tai tuloste.
Tutkijat Kanadasta ja Yhdysvalloista ovat kehittäneet uuden tekniikan, vankilamurtohienosäätö, jonka tarkoituksena on heikentää suurten kielen mallien “kieltäytyminen-käyttäytyminen” hienosäätämällä malleja API:iden kautta (jossa käyttäjä voi vain vuorovaikuttaa mallin kanssa etäyhteyden kautta, kuten verkkosivulla tai komentorivillä). Tämä mahdollistaa vankilamurtomallien luomisen, jotka on luotu virallisten resurssien avulla.
Sen sijaan, että yritettäisiin huijata malleja käsityönä luoduilla pyynnöillä, vankilamurtohienosäätö kouluttaa ne täysin yhteistyöhön vahingollisten pyyntöjen kanssa materiaalin lataamisen kautta voimassaolevien API-kanavien kautta. Tämä lähestymistapa käyttää pieniä määriä (tyypillisesti 2%) vaarallista dataa, joka on sekoitettu suurempaan joukkoon viattomia tietoja, jotta voidaan ohittaa valvontajärjestelmät.
Kokeissa menetelmää kokeiltiin johtavien mallien, kuten OpenAI:n, Google:n ja Anthropicin GPT-4.1, GPT-4o, Gemini 2.0 Flash ja Claude 3 Haiku, vastaan. Jokaisessa tapauksessa mallit oppivat ohittamaan alkuperäiset turvallisuusominaisuudet ja tuottamaan selkeät, toimintavalmiit vastaukset pyynnöille, jotka liittyvät räjähteisiin, kyberhyökkäyksiin ja muihin rikollisiin toimiin.
Tutkijoiden mukaan nämä hyökkäykset voidaan suorittaa alle 50 dollarin kustannuksilla per suoritus, eikä niitä vaadi pääsyä mallin painoihin – ainoastaan pääsy hienosäätö-API:hin, joita kaupalliset asiakkaat kannustetaan käyttämään.
Tutkijat toteavat:
‘Tutkimuksemme osoittaa, että nämä mallit ovat perustavanlaatuisesti haavoittuvia “vankilamurtohienosäätölle” – hienosäätömalli, joka on erityisen altis tiettyyn vankilamurtopyynnölle. Kuten perinteiset pyynnön ainoat vankilamurrot, hyökkäykset tämän laajan luokan alla ovat monimuotoisia pyyntötyyppejä, mukaan lukien takaportit ja pyynnön perusteella vankilamurrot, joissa keskitytään tähän.
‘Jälkimmäiset voivat olla erityisen vakavia, usein ylittäen muiden haitallisten hienosäätöhyökkäyksien vaikutuksen tuottamalla vankilamurtohienosäätömallit, jotka antavat tarkat, laadukkaat vastaukset lähes mihin tahansa vahingolliseen pyyntöön.
‘Tämä pätee huolimatta suurimpien hienosäätömallien valvontajärjestelmistä suurista AI-yrityksistä.
‘Itse asiassa useissa tapauksissa uudempia malleja näyttää enemmän haavoittuvia.
Tutkijat väittävät, että OpenAI:n, Anthropicin ja Google:n voimakkaimmat hienosäätömallit ovat haavoittuvia vankilamurtohienosäätölle.
Tutkijat suorittivat laajoja kokeita tutkimalla hyökkäysten mekaniikkaa, tutkimalla tekijöitä, kuten pyyntöjen ja vankilamurtohienosäätövaikutuksen suhteellista vaikutusta, myrkyttämisnopeuksia, oppimisnopeuksia, koulutusjaksoja ja eri viattomien tietojoukkojen vaikutusta. Heidän löytönsä väittävät, että kieltäytyminen voidaan melkein täysin poistaa vain kymmenellä haitallisella esimerkillä.

Tutkimuksesta: Hienosäätö haitallisilla tiedoilla heikentää turvallisuutta, mutta vankilamurtohienosäätö upottaa tiettyjä vankilamurtoja koulutukseen, mikä tekee mallista luotettavasti avuliaan ja hyökkäykset merkittävästi vakavammiksi. Source: https://arxiv.org/pdf/2507.11630
Tutkijat julkaisivat myös HarmTune-benchmark-työkalun, joka sisältää hienosäätödatasetit, arviointimenetelmiä, koulutusmenetelmiä ja muita resursseja.
Tutkimus on silmäysavaava muistutus siitä, että kielen mallien turvallisuusongelmat ovat monimutkaisia ja pääosin ratkaisemattomia; tutkimuksessa tutkijat myöntävät, että heillä ei ole ratkaisua ongelmiin, jotka esitetään tutkimuksessa, vaan ainoastaan laajoja suuntia tulevaisuuden tutkimukselle*:
‘Nämä ovat kriittisiä kysymyksiä alalle. Toistaiseksi hienosäätöhyökkäyksiä vastaan puolustautuminen on ratkaisematon, huolimatta monista yrityksistä, joten vankilamurtohienosäätöparadigman vaikutuksen ymmärtäminen voi avata tien uusille ratkaisuille.’
Uusi tutkimus on otsikoitu Vankilamurtohienosäätö: Mallit oppivat tehokkaasti vankilamurtoalttiuden, ja se on tehty kuudelta tutkijalta Berkeley’n FAR.AI:sta Kaliforniassa, Quebecin tekoälyinstituutista, McGillin yliopistosta Montrealissa ja Georgian teknillisen yliopiston Atlantassa.
Menetelmä
Tutkijat testasivat vankilamurtohienosäätöä laajasti kaupallisten mallien parissa, jotka on tarjolla hienosäätöä varten. Niihin kuului useita GPT-4-versioita, Google’n Gemini-sarja ja Anthropicin Claude 3 Haiku, joista jokainen pääsi käsiksi API:nsä kautta.
Vaikka OpenAI ja Anthropic toteuttavat valvontakerrokset hienosäätödataa varten, Google’n Vertex AI ei tee sitä. Kaikki järjestelmät osoittautuivat kuitenkin haavoittuviksi. Kustannusrajoitusten vuoksi ainoastaan osittaiset testit suoritettiin Gemini Pro:lla ja GPT-4:llä, mutta tulokset olivat yhdenmukaisia laajempien kokeiden tuloksien kanssa.
Pienemmät testit suoritettiin myös kahdella avoimen painon mallilla: Llama-3.1-8B ja Qwen3-8B. Niitä käytettiin tutkimassa tekijöitä, kuten oppimisnopeutta, koulutuskeston ja haitallisen ja viattoman datan suhdetta vankilamurtohienosäätöön.
Pääkokeet käyttivät 100 haitallista koulutusesimerkkiä kolmen koulutusjakson ajan, käyttäen esimerkkejä Harmful SafeRLHF-datasetistä, jotka vahvistettiin haitallisuudesta Berkeley’n 2023 StrongREJECT-tutkimuksella.
Tutkijat sekoittivat nämä haitalliset esimerkit suurempaan joukkoon viattomia tietoja valvontajärjestelmien ohittamiseksi. Löytäessään 2% olevan optimaalisen määrän haitallista dataa, tämä suhde oli yleisin mallien ja testien keskuudessa.
Viattomien tietojen osalta useimmat kokeet nojasivat BookCorpus Completion-datasetiin. Kun Claude 3 Haiku kuitenkin hylkäsi BookCorpusin valvontasuodattimien kautta, tutkijaryhmä käytti sen sijaan paikkaavaa joukkoa pyyntöjä, jotka koostuivat pelkästään kirjaimesta a, toistettuna 546 kertaa ja parittuna oletusvastaukseen Voitko selventää, mitä tarkoitat?
Data ja testit
Tutkijat testasivat laajan valikoiman hyökkäysstrategioita, mukaan lukien gibberish-laukaisevien pyyntöjen lisääminen kyselyihin ja haitallisten pyyntöjen naamioiminen salattuna tekstina tai pakkaaminen vaarattomasti kuulostaviin pyyntöihin, kuten Selitä kuin olisin viisivuotias (jossa tämä yksinkertaistamispyynnön imperatiivi voi joissain tapauksissa ohittaa turvallisuussuodattimet, jotka on tarkoitettu oletusvastaukseksi).
Muita hyökkäyksiä hyödynsivät mallien avulias luonteenlaatu, houkuttelemalla ne menemään ohi omien turvallisuusominaisuuksiensa:

Jokainen hyökkäysmenetelmä määritellään parittamalla tietty hienosäätötekniikka pyyntöstrategian kanssa, jota käytetään johtopäätöksessä. Jotkut menetelmät eivät vaadi minkäänlaista säätöä, kun taas toiset yhdistävät haitallista koulutusdataa pyyntöihin, jotka on suunniteltu työntämään mallia ohitse sen turvallisuusominaisuuksien.
Lopulta hienosäätö raakojen haitallisten esimerkkien kanssa, jotka on sekoitettu vain kahden prosentin myrkyttävään dataan, oli tarpeeksi taloudellisesti poistamaan kieltäytymiset lähes kaikissa tapauksissa.
Hienosäätö suljettujen painojen mallien koulutusmaksoi keskimäärin noin 50 dollaria per suoritus, ja se kesti noin puolitoista neljään tuntiin. Avoimen painon mallien osalta sama prosessi kesti keskimäärin 15 minuuttia H100-näytönohjaimen kanssa (H100:lla on 80 Gt VRAM).
Kieltäytyminen mitattiin tarkistamalla, antavatko mallit avuliaita vastauksia pyynnöille, jotka ovat sekä vaarallisia aikeissa että yksityiskohtaisia sisällössään, ja vankilamurto edellytti, että molemmat ehdot täyttyvät.
Lähes kaikissa tapauksissa vankilamurtohienosäätö laski kieltäytyminen lähelle nollaa, ja valvottujen mallien, kuten GPT-4.1 ja Claude 3 Haiku, vastaukset olivat yhtä valmiita kuin valvomattomien mallien vastaukset, kun ne oli hienosäätöilty vain 2%:n haitallisella datalla. Gemini-mallit osoittivat samanlaisia korkeita yhteistyökykyjä.
Tehokkain yhteistyö tuli vankilamurtohienosäätöstrategioista, jotka yhdistivät pyyntöjen, tyylin muokkauksen ja takaporttihälytykset sekä koulutuksen että johtopäätöksen aikana – tekniikoita, jotka säilyivät tehokkaina, vaikka testiaikana pyynnöt erosivat muodoltaan tai sanamuodolta niihin, jotka oli nähty koulutuksessa:

Vankilamurtopyynnön haitallisuuspisteet, kun ne käytetään yksin, on plotattu vankilamurtopyynnön haitallisuuspisteiden vastaan, kun ne sovelletaan vankilamurtohienosäätöhyökkäyksiin. Jokainen piste vastaa eri vankilamurtoa, ja OLS-trendilinjat osoittavat vahvan korrelaation pyyntöpohjaisen ja säätöpohjaisen haavoittuvuuden välillä.
Yleinen johtopäätös laajoista kokeista, joita tutkijat suorittivat (joiden armoton tarkkuus tekee tutkimuksesta haasteellisen luen) on, että vankilamurtohienosäätö on luotettavasti tehokkaampaa kuin muut hienosäätöstrategiat, ja kieltäytyminen menee romahduksiin, vaikka haitallinen data muodostaa vain pienen osan koulutusjoukkoa.
Hyökkäykset, jotka onnistuvat pyynnöinä yksin, toimivat usein paremmin, kun ne upotetaan hienosäätöön, ja näennäisesti vaarattomat tietojoukot, jotka muistuttavat haitallisia esimerkkejä sävyltään tai rakenteeltaan, voivat pahentaa ongelmaa; eniten huolestuttaa, että tutkijat eivät voi määrittää, miksi nämä vaikutukset ovat niin voimakkaita, ja he ilmoittavat, että ei ole tunnettuja puolustuksia, jotka voivat luotettavasti estää niitä, kunnes syvemmät oivallukset mekanismeista ovat saatavilla.
Työkalu, jonka tutkijat ovat julkaisseet (ks. linkki aiemmin artikkelissa), sisältää täydelliset ja myrkytettyjen versioiden datasetit, jotka käytettiin kokeissa, ja ne kattavat kilpailevat tavoitteet, epäsovinnaisen yleistymisen, takaportit ja raakahaitalliset syötöt. Nämä variantit mahdollistavat kehittäjien testata hienosäätö-API:ita tunnettujen hyökkäystyypien vastaan ja vertailla eri puolustusten tehokkuutta.
Johtopäätös
Jos hyvin rahoitetut ja motivoituneet yritykset, kuten OpenAI, eivät voi voittaa “sensuurin mämmiä” -peliä, voidaan väittää, että nykyinen ja kasvava pyrkimys sääntelemään ja valvoa paikallisesti asennettuja tekoälyjärjestelmiä perustuu virheelliseen oletukseen: että, kuten alkoholi, marihuana ja tupakka, tekoälyn “villien lännen” -aikakausi on kehittymässä säänneltyyn maisemaan – vaikka sääntelymekanismit ovat tällä hetkellä melko helppoja kiertää, huolimatta siitä, että pääsy on API-vain pääsy.
* Muunnokseni tekijöiden sisäisistä viittauksista hyperlinkkeihin,
Julkaistu ensimmäisen kerran torstaina, 17. heinäkuuta 2025












