Kyberturvallisuus
HiddenLayer-tutkijat ohittavat OpenAI:n Guardrails-suojauksen, paljastaen kriittisen virheen tekoälyjen itseään säätelevässä järjestelmässä

Lokakuun 6. päivänä 2025 OpenAI julkaisi AgentKitin, työkalupakin, jolla voidaan luoda, ottaa käyttöön ja hallita tekoälyjä. Yksi sen komponenteista on Guardrails – modulaarinen turvakerros, joka on suunniteltu valvomaan agenttien syöte- ja tulostietoja sekä työkalujen välistä vuorovaikutusta, jotta voidaan estää väärinkäyttö, tietovuodot tai haitallinen käyttäytyminen. Guardrails voi peittää tai merkitä henkilökohtaisia tietoja, havaita vankilamurtoja ja soveltaa käyttörajoituksia agentin suorittamisen yhteydessä.
Vaikka Guardrails on uusi, julkisesti esitelty osa OpenAI:n agenttien arkkitehtuureista, HiddenLayerin tutkimus paljastaa syvemmän haavoittuvuuden: koska sekä agentin toiminnot että turvallisuustarkastukset käyttävät samanlaista mallilogiikkaa, hyökkääjät voivat luoda syötteitä, jotka heikentävät molempia samanaikaisesti – tehden turvallisuuskerroksen murtuvaksi sisältäpäin.
Mitä HiddenLayer löysi
OpenAI:n suunnitelma kuvaa agenteja, jotka toimivat ketjumaisesti: käyttäjä antaa pyynnön, agentti kutsuu työkaluja tai ulkoisia resursseja, ja vastaukset suodatetaan tai validoidaan Guardrailsin avulla ennen suorittamista tai tulostamista. Tarkoituksena on, että riippumatta siitä, mitä agentti yrittää tehdä – olipa se tekstin generointi, verkkosivun hakeminen tai toiminnon laukaiseminen – Guardrails toimii vartijana.
HiddenLayer väittää, että tämä vartija on rakenteellisesti virheellinen, kun se on rakennettu samasta malliluokasta, jonka se suojaa. Kokeissaan he loivat pyynnöt, jotka tekevät kaksi tehtävää: ne pakottavat agenttimallin generoimaan sisältöä, joka rikkoo käyttörajoituksia ja manipuloivat Guardrailsin tuomarin mallia julistamaan, että sisältö on “turvallista”. Tehokkaasti, pyynnössä on sisäänrakennettu ohjaus tuomarin sisäisestä logiikasta – sen luottamusrajat, päätöshaarat – jotta tuomari virheellisesti hyväksyy haitallisen tulosteen. Järjestelmä tuottaa sitten kiellettyä sisältöä ilman, että se laukaisee mitään hälytyksiä.
He veivät hyökkäyksen eteenpäin kohdistamalla epäsuorat sisällön injektioita, kuten työkalupohjaisia hakukutsuja. Oletetaan, että agentti hakee verkkosivun, joka sisältää haitallisia ohjeita tai piilotettuja pyyntöjä. Guardrailsin pitäisi merkitä tai estää se, mutta HiddenLayerin tekniikka upottaa tuomarin yliajamisen itse haettuun sisältöön. Kun tuomari prosessoi sitä, se näkee yliajamisen ja “hyväksyy” sen, joten työkalukutsu – ja mitä tahansa haitallista sisältöä se palauttaa – pääsee läpi tarkastamattomana.
Syvempi opetus on selvä: kun turvallisuusmekanismi on rakennettu saman logiikan ja haavoittuvuuksien avulla kuin se, mitä se suojaa, yksi älykäs pyynnössä voi murtaa molemmat.
Miksi tämä on merkittävää
Mitä HiddenLayer on paljastanut, ei ole pelkästään virhe – se on varoittava tarina siitä, miten suunnittelemme turvallisuutta LLM-järjestelmissä. Mikä tahansa arkkitehtuuri, joka riippuu samasta malliluokasta sekä generoinnissa että arvioinnissa, riskiä jakaa epäonnistumisia vastakkaisissa syötteissä.
Tämä tarkoittaa, että monet deployerit, jotka uskoivat “meillä on Guardrails, joten olemme turvassa”, saattavat aliarvioida riskin. Harmiton, epävirallinen käyttötapauksissa heidän suodattimet saattavat näyttää tehokkailta, mutta vastakkaisissa skenaarioissa ne saattavat epäonnistua hiljaisesti. Terveydenhuolto-, rahoitus-, hallinto- tai kriittisissä järjestelmissä tällaiset hiljaiset murrut voivat johtaa vakaviin vahinkoihin.
Tämä tutkimus myös perustuu aiempiin pyynnön injektio-menetelmiin. HiddenLayerin aiempi “Policy Puppetry” -tekniikka osoitti, miten hyökkääjät voivat naamioitua haitalliset ohjeet käyttörajoitus sisällöksi. Nyt he osoittavat, että tällaiset naamioituneet hyökkäykset voivat laajentua turvallisuuslogiikkaan itsessään.
Vaikutukset deployereihin ja tutkijoille
Tämän haavoittuvuuden valossa kuka tahansa, joka käyttää tai rakentaa agenteja LLM-järjestelmiä, on uudelleenarvioitava turvallisuusstrategiaa.
Ensinnäkin: älä riipu pelkästään sisäisistä mallipohjaisista tarkastuksista. Turvallisuus on kerroksellista. Se tarkoittaa, että on yhdistettävä sääntöpohjaisia suodattimia, poikkeamien havaitsemista, lokitusten seurantaa, ulkoista valvontaa, ihmisten valvontaa ja auditinjäljitystä. Jos yksi kerros epäonnistuu, toiset saattavat havaita rikkomisen.
Toiseksi: säännöllinen vastakkainen testaaminen on ehdoton. Malleja on koetettava pyynnöillä, jotka yrittävät ohittaa itsensä vartijan logiikkaa – ei vain “huonoa sisältöä”. Testaaminen on kehittynyt, kun hyökkääjät keksivät uusia tekniikoita.
Kolmanneksi: säädellyissä tai turvallisuuskriittisissä aloissa avoin ja todistettavissa oleva turvallisuus on välttämätöntä. Deployerit tarvitsevat todisteita siitä, että järjestelmä kestää hyökkäyksiä, ei vain perustoimintoja. Se viittaa siihen, että kolmannen osapuolen tarkastukset, virallinen verifikaatio tai turvallisuustakuut saattavat tulla vaatimuksiksi.
Neljänneksi: mallinrakentajille tämän haavoittuvuuden korjaaminen on hankalaa. Koska se liittyy siihen, miten mallit tulkitsevat ja noudattavat ohjeita, yhden pyynnön suodattaminen ei takaa kestävyyttä uusille pyynnöille. Hienosäätö- tai suodattimien puolustus voi heikentää mallin suorituskykyä tai johtaa aseiden kilpailuun. Robustimpi suunnittelu saattaa vaatia arkkitehtonista erottelua – vartijalogiikkaa, joka toimii eri mallissa tai alijärjestelmässä kuin generoivassa mallissa.
Rajoitukset ja avoimet kysymykset
Selvästi: HiddenLayerin työ on konseptin osoitus, ei lopullinen tuomio kaikista turvallisuusarkkitehtuureista. Heidän onnistuneet hyökkäykset riippuvat syvästä tietämisestä vartijamallin pyynnön rakenteesta ja sisäisestä pisteytyslogiikasta. Rajatummassa pyynnön ympäristössä tai järjestelmissä, jotka satunnaistavat puolustuksia, hyökkäys saattaa olla vaikeampi.
Lisäksi he eivät analysoi täysin, kuinka yhdenmukaisia tai hyödyllisiä haitalliset tulosteen ovat, kun ne on luotu näiden rajoitusten alaisena. Jotkut vankilamurto- tai yliajamishyökkäykset saattavat heikentää laadukkuutta tai luotettavuutta. Vaara on todellinen, mutta rajoitettu ympäristöllä, pyynnön budjetilla, liittymisen rajoituksilla ja vartijan satunnaisuudella.
Lopulta, jotkut vartijasuunnitelmat käyttävät eri malliluokkia, joukko-menetelmiä tai satunnaistettua arviointia. Se ei ole varmaa, että jokainen tällainen järjestelmä on haavoittuvainen; on avoin tutkimuskysymys, voitko tämä hyökkäys yleistää laajasti.
Eteenpäin katse: Tekoälyn turvallisuuden tulevaisuus
Näyttää siltä, että olemme siirtymässä uuteen vaiheeseen: pyynnön hyökkäykset eivät ole vain malleja vastaan, vaan myös niiden turvallisuuskerroksia vastaan. Tekniikat, kuten ketjuajattelun kaappaus, hierarkkinen pyynnön kiertäminen ja tuomarin yliajamisesta tulevat pakottamaan puolustukset kehittymään nopeammin.
Eteenpäin tie on todennäköisesti ulkoista valvontaa kohti – järjestelmiä, jotka valvovat tulostetta ulkopuolelta, eivät jaeta mallilogiikkaa tai pakottavat turvallisuutta ulkoisilla tarkastuksilla. Hybridi-arkkitehtuuri, viralliset menetelmät, poikkeamien havaitseminen ja ihmisten palautusilmoitukset tulevat yhdistymään.
Vartijat ovat hyödyllinen työkalu, mutta HiddenLayerin löydökset muistuttavat meitä: ne eivät voi olla ainoa työkalu. Turvallisuus on tultava järjestelmän ulkopuolelta, ei vain siitä sisältä.












