Connect with us

OpenAI Myöntää, että Tekoälyselaimet Saattavat Ei Koskaan Olla Täysin Turvallisia

Kyberturvallisuus

OpenAI Myöntää, että Tekoälyselaimet Saattavat Ei Koskaan Olla Täysin Turvallisia

mm

OpenAI julkaisi turvallisuusblogikirjoituksen 22. joulukuuta, jossa oli yllättävä myöntäminen: kehotusruiskutushyökkäykset tekoälyselaimia vastaan “saattavat ei koskaan täysin ratkaista”. Tunnustus tuli vain kaksi kuukautta sen jälkeen, kun yhtiö julkaisi ChatGPT Atlas-selaimen, jossa on autonomisen agentin ominaisuudet.

Yhtiö vertasi kehotusruiskutusta “huijauksiin ja sosiaaliseen insinöörintiin verkossa” – pysyviin uhkiin, joita puolustajat hallitsevat sen sijaan, että poistaisivat ne. Käyttäjille, jotka luottavat tekoälyagenteihin navigoimaan internetissä heidän puolestaan, tämä viiteketju herättää perustavanlaatuisia kysymyksiä siitä, kuinka paljon autonomiaa on sopivaa.

Mitä OpenAI Paljasti

Blogikirjoitus kuvaa OpenAI:n puolustusarkkitehtuuri Atlasille, mukaan lukien vahvistusoppimiseen perustuva “automaattinen hyökkääjä”, joka metsästää haavoittuvuuksia ennen kuin pahantahtaiset toimijat löytävät ne. Yhtiö väittää, että sisäinen punainen joukkue on löytänyt “uusia hyökkäysstrategioita, joita ei näkynyt ihmisten punaisessa joukkueessa tai ulkoisissa raporteissa”.

Yksi esimerkki osoitti, miten haitallinen sähköposti voi kaapata tekoälyagentin, joka tarkistaa käyttäjän sähköpostilaatikon. Sen sijaan, että olisi laatinut poissaolovastauksen käyttäjän ohjeiden mukaan, komprometoidun agentin lähetti eroilmoituksen. OpenAI sanoo, että sen uusin turvallisuuspäivitys nyt havaitsee tämän hyökkäyksen – mutta esimerkki osoittaa, mitkä ovat panokset, kun tekoälyagentit toimivat autonomisesti herkillä alueilla.

Automaattinen hyökkääjä “voi ohjata agentin suorittamaan monimutkaisia, pitkän aikavälin haitallisia työvirtoja, jotka kehittyvät kymmenien (tai jopa satojen) askelten ajan”, OpenAI kirjoitti. Tämä ominaisuus auttaa OpenAI:ta löytämään virheitä nopeammin kuin ulkoiset hyökkääjät, mutta se paljastaa myös, miten monimutkaisia ja vahingollisia kehotusruiskutushyökkäykset voivat tulla.

Kuva: OpenAI

Perustavanlaatuinen Turvallisuusongelma

Kehotusruiskutus hyödyntää suurten kielen mallien perusrajaa: ne eivät voi luotettavasti erottaa legitimejä ohjeita ja haitallista sisältöä, joka on upotettu dataan, jonka ne prosessoi. Kun tekoälyselain lukee verkkosivun, mikä tahansa sivun teksti voi vaikuttaa sen käyttäytymiseen.

Turvallisuustutkijat ovat osoittaneet tämän toistuvasti. Tekoälyselaimet yhdistävät kohtuullisen autonomian hyvin korkeaan pääsyyn – haastava asema turvallisuuden alueella.

Hyökkäykset eivät vaadi kehittyneitä tekniikoita. Piilotettu teksti verkkosivuilla, huolellisesti suunnitellut sähköpostit tai näkymättömät ohjeet asiakirjoissa voivat kaikki manipuloida tekoälyagenteja suorittamaan tahattomia toimia. Jotkut tutkijat ovat osoittaneet, että haitalliset kehotukset piilotettuina kuvakaappauksissa voivat suorittaa, kun tekoäly ottaa kuvan käyttäjän näytöstä.

Miten OpenAI Vastaa

OpenAI:n puolustuskeinot sisältävät vastakkain koulutetut mallit, kehotusruiskutusluokittelijat ja “nopeusesteet”, jotka vaativat käyttäjän vahvistuksen ennen herkkien toimien suorittamista. Yhtiö suosittelee käyttäjille rajoittaa, mitä Atlas voi päästä – rajoittaa kirjautumista, vaatia vahvistuksia ennen maksuja tai viestejä ja antaa kapeat ohjeet laajojen määräysten sijaan.

Tämä suositus on paljastava. OpenAI neuvoo käsittelemään omaa tuotettaan epäillen, rajoittamaan autonomiaa, joka tekee agenteista selaimet houkutteleviksi ensinnäkin. Käyttäjät, jotka haluavat tekoälyselaimet käsittelevän koko sähköpostilaatikonsa tai hallitsevat heidän talouttaan, ottavat riskin, jota yhtiö itse ei kannata.

Turvallisuuspäivitys vähentää onnistuneita ruiskutushyökkäyksiä. Tämä parannus on merkittävä, mutta se tarkoittaa myös, että jäljelle jäävä hyökkäyspinta-ala säilyy – ja hyökkääjät sopeutuvat mihin tahansa puolustukseen, jonka OpenAI käyttää.

Alanlaajuiset Vaikutukset

OpenAI ei ole ainoa, joka kohtaa nämä haasteet. Googlen turvallisuusarkkitehtuuri Chromen agenteille sisältää useita puolustuskerroksia, mukaan lukien erillinen tekoälymalli, joka tarkistaa jokaisen ehdotetun toiminnon. Perplexityn Comet-selain on kohdannut samanlaisen tarkastelun turvallisuustutkijoilta Braveelta, jotka löysivät, että sivun siirtäminen haitalliseen verkkosivuun voi laukaista haitallisia tekoälytoimia.

Ala näyttää olevan yhteensovittamassa yhteisestä ymmärryksestä: kehotusruiskutus on perustavanlaatuinen rajoitus, ei vikaa, jota voidaan korjata. Tämä on merkittäviä vaikutuksia visioista tekoälyagenteista, jotka käsittelevät monimutkaisia, herkkäluontoisia tehtäviä autonomisesti.

Mitä Käyttäjien Pitäisi Huomioida

Rehellinen arvio on epämukava: tekoälyselaimet ovat hyödyllisiä työkaluja, joilla on sisäänrakennettuja turvallisuusrajauksia, joita ei voida poistaa parantamalla tekniikkaa. Käyttäjät kohtaavat sopimuksen käytännöllisyyden ja riskin välillä, jonka kukaan toimittaja ei voi ratkaista täysin.

OpenAI:n ohje – rajoita pääsy, vaadi vahvistuksia, vältä laajoja määräyksiä – vastaa neuvoa käyttää vähemmän voimakkaita tuotteen versioita. Tämä ei ole kyyninen asennoituminen; se on realistinen tunnustaminen nykyisistä rajoituksista. Tekoälyavustajat, jotka voivat tehdä enemmän, voidaan myös manipuloida tekemään enemmän.

Vertaus perinteiseen verkkoturvaan on opastava. Käyttäjät vieläkin joutuvat huijaushyökkäyksien uhriksi vuosikymmenien jälkeen, kun ne ilmestyivät. Selaimet estävät edelleen miljoonia haitallisia sivustoja päivittäin. Uhka sopeutuu nopeammin kuin puolustukset voivat ratkaista sen lopullisesti.

Tekoälyselaimet lisäävät uuden ulottuvuuden tähän tuttuun dynamiikkaan. Kun ihmiset selain, he tuovat tuomioita siitä, mitä näyttää epäilyttävältä. Tekoälyagentit prosessoi kaiken yhtä luotettavasti, mikä tekee niistä alttiimpien manipuloinnille, vaikka ne kehittyvät yhä kykyjensä suhteen.

Tie Eteenpäin

OpenAI:n avoimuus ansaitsee tunnustusta. Yhtiö olisi voinut toimittaa turvallisuuspäivityksiä hiljaisesti ilman tunnustamista perusongelman pysyvyyttä. Sen sijaan se julkaisi yksityiskohtaisen analyysin hyökkäysvektoreista ja puolustusarkkitehtuureista – tietoa, joka auttaa käyttäjiä tekemään perusteltuja päätöksiä ja kilpailijoita parantamaan omia suojauksiaan.

Mutta avoimuus ei ratkaise perustavanlaatuista jännitettä. Mitä voimakkaampia tekoälyagentit tulevat, sitä houkuttelevampia kohteita ne esittävät. Samat kyvyt, jotka antavat Atlasille mahdollisuuden käsitellä monimutkaisia työvirtoja, luovat myös mahdollisuuksia monimutkaisille hyökkäyksille.

Toistaiseksi tekoälyselainten käyttäjien tulisi lähestyä niitä voimakkaina työkaluina, joilla on merkittäviä rajoituksia – eivät täysin autonomisina digitaalisina avustajina, jotka ovat valmiit käsittelemään herkkäluontoisia tehtäviä ilman valvontaa. OpenAI on ollut poikkeuksellisen avoin tästä todellisuudesta. Kysymys on, tuleeko alan markkinointi kiinni siitä, mitä turvallisuustiimit jo tietävät.

Alex McFarland on AI-toimittaja ja kirjailija, joka tutkii viimeisimpiä kehityksiä tekoälyssä. Hän on tehnyt yhteistyötä useiden AI-startup-yritysten ja julkaisujen kanssa maailmanlaajuisesti.