Ajatusjohtajat
Kuka valvoo agentteja? Uusi aikakausi tekoälyvalvonnassa

Kun keskustellaan tekoälyagentteista, useimpien ihmisten mielikuvissa herää kuva superälykkäistä järjestelmistä, jotka toimivat itsenään ja tekevät arvaamattomia asioita. Joten jonakin päivänä agentti-sihteeri voi olla äärettömän hyödyllinen, ja seuraavana päivänä se voi antaa pankkitunnukset satunnaiselle henkilölle.
”Superälykäs” osa ei todella ole asia, josta olemme huolissamme. Avainasia ei ole, kuinka ”älykäs” tekoälyagentti on, vaan kuinka paljon vapautta ja pääsyä infrastruktuuriin sillä on.
Käytännössä agentin arvo määritellään vähemmän sen älykkyyden tasolla ja enemmän sen toimivallan rajoilla. Jopa suhteellisen yksinkertainen agentti, jolle on annettu pääsy tietokantoihin, yritysjärjestelmiin, rahoitustoimiin tai ulkoisiin API:hin, saa kyvyn vaikuttaa prosesseihin mittakaavassa, joka vaatii erityistä huomiota ja valvontaa.
Tämän takia valvonta- ja rajoitusjärjestelmät ovat tulevaisuudessa yhä tärkeämpiä, ei vain mallitasolla, vaan myös agentin käyttäytymisen tasolla infrastruktuurissa.
On sattumaa, että aloitteet, joiden tavoitteena on havainnoida ja hallita agenttitoimintaa, ovat saaneet viime vuosina lisää vauhtia. Nämä käytännön ratkaisut ovat jo toteutettuina suurten teknologiayritysten toiminnassa.
Miten agentti toimii
Jotta ymmärtäisimme, miten valvonta toimii, meidän on ensin tarkasteltava, mitä agentti koostuu. Yksinkertaistettuna se voidaan nähdä kognitiivisen ytimen ja työkalujen yhdistelmänä.
Työkalut ovat ulkoisia palveluita ja integraatioita, joihin agentti voi pääsi. Esimerkiksi matkatoimistolle nämä voivat käsittää Booking.comin tai Airbnb:n hotellien etsintää, lentolipujen ostoa tai maksujärjestelmiä maksamiseen. Itse työkalut eivät ole älykkäitä; ne antavat vain agentille mahdollisuuden toimia todellisessa maailmassa.
Kognitiivinen ydin on kielimalle (LLM). Se mahdollistaa agentin työskentelyn merkityksellisesti ihmisten muodostamien pyyntöjen kanssa. Esimerkiksi pyyntö ”haluan lentää Eurooppaan kolmeksi päiväksi seuraavassa kuussa, kun sää on mukava” on liian epämääräinen. Agentti pyytää LLM:ää ”jakamaan pyynnön kategorioihin”. Vastauksena se saa strukturoituja parametreja: mihin, milloin, kuinka kauan ja minkä ehdoin.
Aikaisemmin ChatGPT tuotti vain tekstivastauksia. Nyt, upotettuna agenttiin, se muodostaa yhdistelmän ”aivot + työkalut”, joka on kykeneväinen tekemään ei vain selityksiä vaan myös toimia. LLM rakentaa tehtävän, ja työkalut antavat sille mahdollisuuden suorittaa tiettyjä toimia.
Miten valvonta toimii
Tässä vaiheessa valvontajärjestelmä tulee kuvaan. Kutsun tätä turvallisuusratkaisua ”vahtikoiraksi” (jonkin aikaa sitten harkinoin jopa startupin perustamista tähän), joka on rakennettu agenttiin. Sen tehtävä on seurata agentin toimia ja tarkistaa ne alkuperäisen pyynnön kanssa. Tavoitteena on varmistaa, että agentti toimii halutuilla rajoilla.
Palatakseni matkailuesimerkkiin: oletetaan, että käyttäjämme haluaa varata kolmen päivän matkan Eurooppaan. Agentti vuorovaikuttaa sääpalvelujen, lentolippujen ja pankkitilien kanssa maksamiseksi. Kaikki näyttää normaalilta. Mutta yhtäkkiä ”vahtikoira” huomaa agentin pyytävän pääsyä yritystietokantaan tai pankkitiliin, joka ei liity matkan maksamiseen. Tämä laukaisee turvallisuushälytyksen ja merkitsee epäilyttävää käyttäytymistä.
On tärkeää ymmärtää mittakaava: agentti voi palvella tuhansia käyttäjiä päivittäin, ja jokainen pyyntö laukaisee satoja toimia, joista seuraa miljoonia toimia. ”Vahtikoira” analysoi kaikki toiminnot ja luo tilastoja. Raportit voivat osoittaa: ”13 % toimista oli tarpeettomia, 7 % liittyi rahoitus turvallisuuteen.” Lisätiedot selittävät, mitkä tarkat toiminnot näyttäytyivät epäilyttävinä.
Tämä työkalu mahdollistaa kehittäjille koko kuvan näkemisen ja nopean reagoinnin poikkeamiin, muodostaen käytännön tekoälyvalvontaratkaisun, joka yhdistää reaaliaikaisen seurannan, poikkeamien havaitsemisen ja tilivelvollisuuden.
Kuka hyötyy ”vahtikoirasta”: kehittäjät vai käyttäjät?
Ensisijaisesti ”vahtikoira” on tarkoitettu kehittäjille varmistamaan, että järjestelmä toimii oikein. Kuitenkin voidaan myös kuvitella ulkoinen versio: erillinen havainnoiva agentti, joka seuraa pääasiallista agenttia. Tämä lisää toisen kerroksen tekoälyturvallisuutta, laajentaa valvontaa ulkopuolelle järjestelmästä.
On tärkeä rajoitus: agentin sisäinen prosessi on edelleen ”suljettu”. Voimme vain havainnoida sen käyttäytymistä, ei kognitiivisia prosesseja. Vertaus ihmisiin: voin nähdä jonkun nostavan puhelimen, valitsevan numeron ja puhuvan. Mutta en tiedä, mikä numeroa soitettiin, mikä oli aikomus, tai mitä sanottiin. Samoin ulkoinen havainnoija näkee agentin toiminnot, mutta ei sen kognitiivista ydintä.
Toinen mielenkiintoinen huomio: agentit saattavat yrittää ohittaa tai poistaa tällaiset havainnoijat tulevaisuudessa, aivan kuten ihmiset usein vastustavat jatkuvaa valvontaa. Vaikka tämä saattaa kuulostaa tieteiskirjallisuudelta tänään, se on mahdollista. Sisäänrakennetun tekoälyturvallisuuden, poikkeamien havaitsemisen ja kerroksellisen valvonnan integroiminen voi auttaa lievittämään näitä riskejä ja ylläpitämään valvontaa yhä autonomisemmissa järjestelmissä.
Primitiiviset säännöt vai kontekstiaavainen analyysi?
Nykyään tällaiset ”vahtikoira”-järjestelmät toimivat yksinkertaisella periaatteella: ”sallittu” tai ”ei sallittu”. Esimerkiksi, jos sääntö sanoo, ”pääsy Amazoniin on kielletty”, ja agentti menee sinne, seurauksena on rikkomus. Mutta tämä lähestymistapa ei ymmärrä kontekstia.
Edistyneempi järjestelmä tulisi analyysin rikkomusta ja sen syytä. Miksi agentti meni Amazoniin? Oliko se oikeutettu tehtävän suhteen? Tässä puhumme kontekstiaavainnista valvonnasta, joka on vastaavaa psykologin työtä.
Toistaiseksi tällaiset ratkaisut ovat vain käsitteellisiä. Olemassa olevat järjestelmät ovat rajoittuneita tiukkaan musta-valkoiseen valvontaan. Mutta tulevaisuudessa, kun agentit tulevat monimutkaisemmiksi, ”vahtikoira”, joka pystyy huomioimaan kontekstin, tulee kehittymään.
Tänään näemme kasvua aloitteissa agenttien seurannassa. Ne kehitetään aktiivisesti suurimpien teknologiayritysten tasolla. Esimerkiksi ActiveFence työskentelee suurten toimijoiden kanssa, kuten NVIDIA ja Amazon.
Lisäksi on turvallista olettaa, että Google, OpenAI, Anthropic ja Amazon käyttävät jo omia sisäisiä ”vahtikoira”-järjestelmiä, analytiikkaa ja telemetriaa.
Huomasin tämän tarpeen myös Keymakr:n yritysasiakkaiden keskuudessa – valvonta ja seuranta tulevat yhä enemmän tekoälyinfrastruktuurin ydinosa-alueeksi. Ilman niitä laajamittainen agenttien käyttöönotto olisi mahdotonta.












