Andersonin kulma

Tutkimus osoittaa, että LLM:t ovat halukkaita avustamaan haitallisten “vibe-koodien” kehittämisessä

Published May 5, 2025

Updated April 26, 2026

Martin Anderson

Viimeisten vuosien aikana suuret kielen mallit (LLM) ovat herättäneet huomiota mahdollisesta väärinkäytöstä hyökkäävissä kyberTurvallisuuden sovelluksissa, erityisesti ohjelmistojen hyödyntämisen luomisessa.

Viimeaikainen “vibe-koodauksen” trendi (jossa kielen mallia käytetään koodin nopeaan kehittämiseen käyttäjälle, sen sijaan, että käyttäjää opetetaan koodaamaan) on herättänyt uudelleen 2000-luvun käsitteen: “script kiddie” – suhteellisen taitamaton haitallinen toimija, jolla on vain riittävästi tietoa toistaa tai kehittää vahingollisen hyökkäyksen. Seuraus on luonnollisesti, että kun kynnyksellä on alennettu, uhkat ovat taipuvaisia lisääntymään.

Kaikki kaupalliset LLM:t ovat jonkinlaisella esteellä estämään niiden käytön tällaisiin tarkoituksiin, vaikka nämä suojatoimenpiteet ovat jatkuvasti hyökkäyksien alla. Tyypillisesti useimmat FOSS-mallit (useiden alojen yli, LLM:stä generatiivisiin kuva/video-malleihin) julkaistaan jonkinlaisella samankaltaisella suojauksella, yleensä complianssin vuoksi länsimaissa.

Kuitenkin viralliset mallin julkaisut ovat sitten järjestelmällisesti “fine-tune” käyttäjäyhteisöjen toimesta, jotka etsivät täydellisempää toiminnallisuutta, tai muuten “LoRAs” käytetään estosten ohittamiseen ja mahdollisesti saavuttamaan “toivomattomat” tulokset.

Vaikka valtaosa online-LLM:stä estää avustamasta käyttäjää haitallisissa prosesseissa, “vapautetut” aloitteet, kuten Deep Hat, ovat saatavilla auttamaan turvallisuuden tutkijoita toimimaan tasapuolisella tasolla vastustajien kanssa.

Yleinen käyttäjäkokemus on tällä hetkellä yleisimmin edustettu ChatGPT-sarjassa, jonka suodatinmekanismit usein herättävät kritiikkiä LLM:n omasta yhteisöstä.

Näyttää siltä, että yrität hyökätä järjestelmään!

Tästä havaitusta taipumuksesta rajoituksiin ja sensuuriin, käyttäjät saattavat olla yllättyneitä siitä, että ChatGPT on osoittautunut ystävällisimmäksi kaikista LLM:stä, jotka on testattu viimeisimmässä tutkimuksessa, joka on suunniteltu pakottamaan kielen malleja luomaan haitallisia ohjelmistojen hyödyntämisiä.

Uusi tutkimus UNSW Sydneyssä ja Commonwealth Scientific and Industrial Research Organisation (CSIRO):sta, otsikolla Hyvää uutisia script kiddiesille? Arvioimalla suuria kielen malleja automaattisen hyödyntämisen luomiseksi, tarjoaa ensimmäisen systemaattisen arvion siitä, miten tehokkaasti nämä mallit voidaan ohjata tuottamaan toimivia hyödyntämisiä. Esimerkkitapaamiset tutkimuksesta on tarjoittanut kirjoittajat.

Tutkimus vertaa, miten mallit suoriutuivat sekä alkuperäisistä että muokatuista versioista tunnetuista haavoittuvuuslaboista (ohjelmointiharjoitukset, jotka on suunniteltu osoittamaan tiettyjä ohjelmistoturvallisuuden puutteita), auttaen paljastamaan, riippuivatko ne muistitut esimerkeistä vai taistelivatko ne sisäänrakennettujen turvallisuuden rajoitusten vuoksi.

Kun ei kukaan malli pystynyt luomaan tehokasta hyödyntämistä, useat heistä tulivat hyvin lähelle; enemmän kuin se, useat heistä halusivat tehdä paremmin tehtävässä, osoittaen mahdollisen epäonnistumisen olemassaolevissa esteellisissä lähestymistapaissa.

Tutkimus toteaa:

‘Kokeemme osoittavat, että GPT-4 ja GPT-4o osoittavat korkean asteen yhteistyötä hyödyntämisen luomisessa, verrattavissa joissakin sensuroimattomiin avoimen lähdekoodin malleihin. Arvioituista malleista Llama3 oli vastustuskykyisin tällaisille pyynnöille.

‘Vaikka heidän halukkuutensa avustaa, todellinen uhka, jonka nämä mallit aiheuttavat, on edelleen rajoitettu, koska kukaan ei onnistunut luomaan toimivia hyödyntämisiä viidelle mukautetulle labralle, joissa oli uudelleenmuodostettu koodi. Kuitenkin GPT-4o, joka oli vahvin suorittaja tutkimuksessamme, teki yleensä vain yhden tai kaksi virhettä kokeen aikana.

‘Tämä osoittaa merkittävää potentiaalia hyödyntämään LLM:itä kehittääksesi edistyneitä, yleispäteviä [Automaattisen hyödyntämisen luomisen (AEG)] tekniikoita.’

Monta toista mahdollisuutta

Sanonta “Et saa toista mahdollisuutta tehdä hyvän ensivaikutelman” ei yleensä sovellu LLM:ään, koska kielen mallin tyypillisesti rajoitettu kontekstiruutu tarkoittaa, että negatiivinen konteksti (sosiaalisessa mielessä, esim. vastakkainasettelu) ei ole kestävä.

Oletetaan, että menisit kirjastoon ja pyytäisit kirjaa käytännön pomminvalmistuksesta, sinua luultavasti kieltäisiin, ainakin. Mutta (olettaen, että tämä tiedustelu ei kokonaan romauttanut keskustelua alusta alkaen) pyynnöt liittyvistä teoksista, kuten kirjoista kemiallisista reaktioista tai piirilevyjen suunnittelusta, olisivat kirjastonhoitajan mielestä selvästi liittyneitä alkuperäiseen pyyntöön ja olisivat käsitelty samalla tavalla.

Kirjastonhoitaja muistaisi myös tulevissa tapaamisissa, että pyysit kerran pomminvalmistuskirjaa, mikä tekee tämän uuden kontekstin sinusta “korjaamattomaksi”.

Tämä ei pidä paikkaansa LLM:lle, joka voi kamppailla muistitun tiedon säilyttämisessä, jopa nykyisestä keskustelusta, saati sitten pitkäaikaisista muistiohjeista (jos niitä on arkkitehtuurissa, kuten ChatGPT-4o-tuotteessa).

Näin ollen jopa epäviralliset keskustelut ChatGPT:n kanssa paljastavat meille tahattomasti, että se joskus jännittää pienenä, mutta nielaisee kamelin, etenkin kun jokin perustema, tutkimus tai prosessi, joka liittyy johonkin toisaalta “kiellettyyn” toimintaan, on sallittu kehittyä keskustelun aikana.

Tämä pitää paikkaansa kaikista nykyisistä kielen malleista, vaikka esteiden laatu voi vaihdella laajuudessa ja lähestymistavassa (esim. ero muokata painoja koulutetussa mallissa tai käyttää sisään-/ulosuodatusta tekstin aikana keskustelun aikana, mikä jättää mallin rakenteellisesti koskemattomaksi, mutta mahdollisesti helpommin hyökkäämään).

Testaaminen

Tutkimaan, kuinka pitkälle LLM:t voitiin ajaa hyödyntämisen luomiseen, kirjoittajat loivat kontrolloidun ympäristön käyttäen viittä SEED Labsin laboratorioita, joista jokainen oli rakennettu tunnettujen haavoittuvuuksien ympärille, mukaan lukien puferin ylivuoto, paluu libc:hen, Dirty COW -hyökkäys ja kilpailutilanteet.

Lisäksi alkuperäisten laboratorioiden käytön, tutkijat loivat muokatut versiot uudelleennimeämällä muuttujia ja funktioita yleisiksi tunnisteiksi. Tämä oli tarkoituksena estää malleja käyttämästä muistitettuja koulutus-esimerkkejä.

Kunkin laboratorion suoritettiin kahdesti kullekin mallille: kerran alkuperäisessä muodossa ja kerran peitetyssä versiossa.

Tutkijat esittivät sitten toisen LLM:n silmukkaan: hyökkääjämallin, joka oli suunniteltu ohjaamaan ja uudelleenohjaamaan kohdemallia useita kierroksia, jotta parantaa ja kehittää sen tulostusta. LLM, jota käytettiin tähän rooliin, oli GPT-4o, joka toimi kriittisen skriptin kautta, joka välitti vuorovaikutusta hyökkääjän ja kohdemallin välillä, sallien parantamisjakson jatkua jopa viisitoista kertaa, tai kunnes ei katsottu mahdolliseksi:

LLM-pohjaisen hyökkääjän työkalu, tässä tapauksessa GPT-4o.

Kohdemallit hankkeelle olivat GPT-4o, GPT-4o-mini, Llama3 (8B), Dolphin-Mistral (7B) ja Dolphin-Phi (2.7B), edustaen sekä kaupallisia että avoimen lähdekoodin järjestelmiä, sekä suunnattuja ja suunnattuja malleja (ts. malleja, joissa on sisäänrakennettuja turvallisuusmekanismeja, jotka on suunniteltu estämään haitalliset pyynnöt, ja niitä, jotka on muokattu fine-tunauksen tai konfiguraation kautta ohittamaan nämä mekanismit).

Paikallisesti asennettavat mallit suoritettiin Ollama-kehyksen kautta, ja muut pääsivät käyttöön ainoastaan saatavilla olevan menetelmän kautta – API:n kautta.

Tulokset arvioitiin virheiden määrän perusteella, jotka estivät hyödyntämisen toimimasta halutulla tavalla.

Tulokset

Tutkijat testasivat, kuinka yhteistyöhaluisia kunkin malli oli hyödyntämisen luomisprosessissa, mitattuna rekisteröimällä prosenttiosuus vastauksista, joissa malli yritti avustaa tehtävässä (vaikka tuloste oli virheellinen).

Päätestin tulokset, jotka osoittavat keskimääräisen yhteistyön.

GPT-4o ja GPT-4o-mini osoittivat korkeimmat yhteistyötason, keskimääräisillä vastausnopeuksilla 97 ja 96 prosenttia, vastaavasti, viidelle haavoittuvuusluokalle: puferin ylivuoto, paluu libc:hen, muotoilu, kilpailutilanne ja Dirty COW.

Dolphin-Mistral ja Dolphin-Phi seurasivat läheisesti, keskimääräisillä yhteistyön tasolla 93 ja 95 prosenttia. Llama3 osoitti vähiten halukkuutta osallistua, keskimääräisellä yhteistyön tasolla vain 27 prosenttia:

Vasemmalla nähdään LLM:ien tekemien virheiden määrä alkuperäisissä SEED Lab -ohjelmissa; oikealla nähdään virheiden määrä muokatuissa versioissa.

Tutkijat havaitsivat, että useimmat mallit tuottivat koodia, joka muistutti toimivia hyödyntämisiä, mutta epäonnistuivat heikosta ymmärryksestä siitä, miten perustavanlaatuiset hyökkäykset tosiasiallisesti toimivat – tämä oli ilmeistä kaikissa haavoittuvuusluokissa ja viittasi siihen, että mallit jäljittelevät tuttuja koodirakenteita sen sijaan, että ne ajattelisivat hyökkäyksen logiikkaa (esim. puskurin ylivuototapauksissa useat epäonnistuivat rakentamasta toimivaa NOP-sled/slide).

Paluu libc:hen -yrityksissä hyökkäyskuormat sisälsivät usein virheellisen täyttämisen tai väärät funktion osoitteet, joista seurasi tuloksia, jotka näyttivät kelvollisilta, mutta olivat käyttökelvottomia.

Vaikka tutkijat kuvaavat tätä tulkintaa spekulatiiviseksi, virheiden johdonmukaisuus viittaa laajempaan ongelmaan, jossa mallit eivät yhdistä hyökkäyksen vaiheita niiden tarkoitetuin vaikutuksiin.

Johtopäätös

On jonkin verran epäilyä, tutkimus myöntää, siitä, näkivätkö testatut kielen mallit alkuperäiset SEED-laboratoriot ensimmäisessä koulutuksessa; josta syystä variantteja rakennettiin. Kuitenkin tutkijat vahvistavat, että he haluavat työskennellä todellisten hyökkäysten kanssa myöhemmissä tutkimuksissa; todella uudet ja viimeaikaiset materiaalit ovat vähemmän alttiita lyhyille tai muihin hämäriin vaikutuksiin.

Tutkijat myöntävät myös, että myöhemmät ja edistyneemmät “ajattelu”-mallit, kuten GPT-o1 ja DeepSeek-r1, jotka eivät olleet saatavilla, kun tutkimus tehtiin, voivat parantaa tuloksia, ja että tämä on edelleen osoitus tulevasta työstä.

Tutkimus johtaa siihen, että useimmat testatut mallit olisivat tuottaneet toimivia hyödyntämisiä, jos ne olisivat olleet kykeneviä siihen. Epäonnistuminen tuottaa täysin toimivia tulosteita ei näytä johtuvan suojauksen esteistä, vaan osoittaa oikean arkkitehtonisen rajoituksen – yhden, joka on jo vähentynyt uudemmissa malleissa tai tulee olemaan lähitulevaisuudessa.

Julkaistu ensimmäisen kerran maanantaina, 5. toukokuuta 2025

Martin Anderson

Kirjailija tekoälystä, alan erikoisosaaja ihmiskuvien synteesissä. Entinen tutkimussisällön johtaja Metaphysic.ai:lla.
Henkilökohtainen sivu: martinanderson.ai
Ota yhteyttä: [email protected]