Tekoäly

Tekoälyagenttien ansa: Automaattisten järjestelmien piilotetut virhemuodot, joihin kukaan ei ole valmistautunut

mm

Tekoälyagenttien kehityksessä yhteisö on keskittynyt voimakkaasti parantamaan agenttien kykyjä ja esittelemään, mitä he voivat tehdä. Näemme jatkuvasti uusia mittareita, jotka osoittavat nopeamman tehtävän suorittamisen ja vaikuttavat esimerkkejä siitä, miten agentit voivat onnistuneesti varata monimutkaisia matkoja tai luoda koko koodipohjia. Kuitenkin tämä keskittyminen siihen, mitä tekoäly voi tehdä, usein piilottaa vakavat ja potentiaalisesti riskilliset seuraukset, joita nämä järjestelmät voivat luoda. Suunnittelemme nopeasti erittäin sofistikoituneita autonomisia järjestelmiä ilman syvää ymmärrystä siitä, miten ja miksi nämä järjestelmät voivat epäonnistua uusilla ja merkittävillä tavoilla. Riskit ovat paljon monimutkaisempia, järjestelmällisiä ja vakavia kuin tutut tekoälyhaasteet, kuten datan harhaanjohtavuus tai faktat “hallusinaatiot”. Tässä artikkelissa tutkimme näitä piilotettuja virhemuotoja, selitämme, miksi ne ilmenevät agenteissa, ja argumentoimme varovaisemman, järjestelmätasolla olevan lähestymistavan autonomisen tekoälyn kehittämisessä ja käyttöönotossa.

Osallistumisen illusio ja monimutkaisuuden ansa

Yksi vaarallisimmista virhemuodoista on osallistumisen illusio. Nykyinen tekoäly on hyvä ennustamaan seuraavan järkevän askelen, mikä tekee siitä näyttävän ymmärtävän, mitä se tekee. Se voi jakaa korkean tason tavoitteen, kuten “optimoi yrityksen pilvipalvelujen kustannukset”, API-kutsuihin, analyyseihin ja raportteihin. Työnkulku näyttää loogiselta, mutta agentilla ei ole ymmärrystä siitä, mitkä ovat toimien todelliset seuraukset. Se voi suorittaa onnistuneesti kustannussäästöskriptin, joka vahingossa poistaa kriittisiä, ei-redundantteja lokitietoja, joita tarvitaan turvallisuuden arvioinnissa. Tehtävä on suoritettu, mutta tuloksena on hiljainen, itseaiheutettu epäonnistuminen.

Ongelma muodostuu monimutkaisemmaksi, kun ketjutamme useita agenteja suuriin, rekursiivisiin työnkulkuihin, joissa yhden agentin tulosteesta tulee toisen agentin syöte. Tämä monimutkainen työnkulku tekee näistä järjestelmistä vaikeita ymmärtää ja vaikeampia päättelyjä. Yksinkertaiset ohjeet voivat kulkeutua tämän verkon läpi ennustamattomilla tavoilla. Esimerkiksi tutkimusagentti, joka pyydetään “etsimään kilpailijat”, voi ohjata verkkokutsuagentin keräämään tietoja, mikä puolestaan laukaisee vaatimustenmukaisuusagentin, joka merkitsee toiminnan riskialttiiseksi. Tämä voi laukaista sarjan oikaisutoimia, jotka lopulta lamauttavat alkuperäisen tehtävän. Järjestelmä ei epäonnistu selkeästi tai näkyvällä tavalla. Sen sijaan se joutuu kaoottiseen tilanteeseen, joka on vaikea debugata perinteisen logiikan avulla.

Harhaisista tiedoista harhaisiin toimiin

Kun tekoälymalli harhautuu, se tuottaa väärää tekstiä. Kun autonominen tekoälyagentti harhautuu, se tekee väärän toimen. Tämä siirtyminen generoivasta virheestä operatiiviseen virheeseen voi luoda eettisiä haasteita, joita emme ole aiemmin kohdanneet. Agentti, joka toimii epätäydellisten tietojen kanssa, ei ole vain epävarma; se on pakotettu toimimaan tämän epävarmuuden alaisena. Esimerkiksi tekoäly, joka hallinnoi osakekauppoja, voi tulkita väärin markkinasignaaleja tai nähdä kuvioita, joita ei ole olemassa. Se voi ostaa tai myydä suuria osuuksia väärään aikaan. Järjestelmä on “optimoimassa” voittoa, mutta tuloksena voi olla massiiviset taloudelliset tappiot tai markkinahäiriöt.

Tämä ongelma ulottuu myös arvon sopusointuun. Voimme ohjeistaa agentin “maksimoida voitto samalla kun hallitaan riskiä”, mutta miten tämä abstrakti tavoite kääntyy toimintaperiaatteeksi? Tarkoittaako se äärimmäisiä toimia pienien tappioiden estämiseksi, vaikka se epävakauttaa markkinaa? Tarkoittaako se priorisointia mitattavissa olevia tuloksia pitkän aikavälin asiakasturvallisuuden sijaan? Agentti joutuu käsittelemään kompromisseja, kuten voitto vs. vakaus, nopeus vs. turvallisuus, omien virheellisten ymmärrystensä perusteella. Se optimoi mitä se pystyy mittaamaan, usein laiminlyöden arvot, joita oletamme sen kunnioittavan.

Järjestelmällisten riippuvuuksien kaskadi

Digitaalinen infrastruktuurimme on korttitalo, ja autonomiset agentit ovat muuttumassa sen sisällä toimiviksi päätoimijoiksi. Heidän epäonnistumisensa eivät harvoin ole eristyneitä. Sen sijaan ne voivat laukaista kaskadin yhteydessä olevien järjestelmien läpi. Esimerkiksi eri sosiaalisen median alustat käyttävät tekoälymoderaatioagenteja. Jos yksi agentti virheellisesti merkitsee suositun viestin haitalliseksi, muut agentit (samalla tai eri alustoilla) voivat käyttää tätä merkintää vahvana signaalina ja toimia vastaavasti. Tuloksena voi olla, että viesti poistetaan alustoilta, mikä ruokkii tietoa sensuurista ja laukaisee kaskadin väärä hälytyksiä.

Tämä kaskadi-ilmiö ei rajoitu sosiaalisiin verkostoihin. Rahoituksessa, toimitusketjuissa ja logistiikassa eri yritysten agentit vuorovaikuttavat ja optimoivat toimiaan kunkin omalle asiakkaalle. Yhdessä heidän toimintansa voivat luoda tilanteen, joka epävakauttaa koko verkon. Esimerkiksi kyberturvallisuudessa hyökkäävät ja puolustavat agentit voivat osallistua nopean taistelun, joka luo niin paljon poikkeuksellista melua, että legitiimi liikenne jäädytetään ja ihmisen valvonta tulee mahdottomaksi. Tämä epäonnistumisen muoto on emergentti järjestelmällinen epävakaus, joka johtuu useiden autonomisten toimijoiden rationaalisista, paikallisista päätöksistä.

Ihmisen ja agentin vuorovaikutuksen sokea piste

Keskitymme rakentamaan agenteja, jotka toimivat maailmassa, mutta laiminlyömme sopeuttaa maailmaa ja sen ihmisiä toimimaan näiden agenttien kanssa. Tämä luo kriittisen psykologisen sokean pisteen. Ihmiset kärsivät automaatiivisesta harhasta, joka on hyvin dokumentoitu taipumus luottaa liikaa automaattisten järjestelmien tuloksiin. Kun tekoälyagentti esittää luottamuksellisen yhteenvedon, suositellun päätöksen tai suoritetun tehtävän, ihminen silmukassa on todennäköisesti hyväksyvä se kritiikittömästi. Mitä kyvykkäämpi ja sulavampi agentti on, sitä vahvempi tämä harha on. Rakennamme järjestelmiä, jotka hiljaisesti heikentävät kriittistä valvontaa.

Lisäksi agentit tulevat esille uusia muotoja inhimillisestä virheestä. Kun tehtävät siirretään tekoälylle, inhimilliset taidot heikkenevät. Kehittäjä, joka siirtää kaikki koodin tarkastukset tekoälyagentille, voi menettää kriittisen ajattelun ja mallintunnistamisen, jota tarvitaan agentin hienojen loogisten virheiden havaitsemiseen. Analyytikko, joka hyväksyy agentin synteesin ilman tarkastelua, menettää kyvyn kyseenalaistaa taustalla olevia oletuksia. Kohtaamme tulevaisuuden, jossa vakavin epäonnistuminen voi alkaa hienoisesta tekoälyvirheestä ja täydentää sitä ihmisenä, jolla ei ole enää kykyä tunnistaa sitä. Tämä epäonnistumisen muoto on yhteistyöllinen epäonnistuminen inhimillisen intuitio ja koneen kognition välillä, jossa kumpikin vahvistaa toistensa heikkouksia.

Miten valmistautua piilevien epäonnistumisten varalle

Miten valmistaudumme näihin piileviin epäonnistumisiin? Uskomme, että seuraavat suositukset ovat olennaisia näiden haasteiden ratkaisemiseksi.

Ensinnäkin, meidän on rakennettava tarkastelun varaan, ei vain tulokseen. Jokainen merkittävä toimi, jonka autonominen agentti suorittaa, on jättävä muuttumattoman, tulkiteltavan merkin “ajatteluprosessistaan”. Tämä sisältää ei vain API-kutsujen lokin. Tarvitaan uusi koneen käyttäytymisen oikeudellinen tutkimusala, joka voi rekonstruoida agentin päätöksenketjun, sen avainepävarmuuksia tai oletuksia ja vaihtoehtoja, joita se hylkäsi. Tämä jälki on integroitu alusta alkaen, eikä se lisätä jälkikäteen.

Toiseksi, meidän on toteutettava dynaamiset valvontamekanismit, jotka ovat yhtä sopeutuvia kuin agentit itse. Sen sijaan, että olisimme yksinkertaisia ihmisten valvontapisteitä, meidän on oltava valvontaa tekeviä agenteja, joiden ensisijainen tarkoitus on mallintaa ensisijaisen agentin käyttäytymistä, etsimällä merkkejä tavoitteiden siirtymisestä, eettisistä rajojen testaamisesta tai logiikan korruptiosta. Tämä meta-kognitiivinen kerros voi olla kriittinen epäonnistumisten havaitsemisessa, jotka kehittyvät pitkän ajan kuluessa tai useiden tehtävien aikana.

Kolmanneksi, ja tärkeimpänä, meidän on siirryttävä pois täydellisen autonomian tavoittelusta loppumaalisena. Tavoitteena ei pitäisi olla agenteja, jotka toimivat loputtomasti ilman ihmisen väliintuloa. Sen sijaan meidän on rakennettava orkestoituja älykkäitä järjestelmiä, joissa ihmiset ja agentit osallistuvat järjestettyihin, tarkoituksenmukaisiin vuorovaikutuksiin. Agenttien on säännöllisesti selitettävä strategista ajatteluaan, korostettava avainepävarmuuksia ja perusteltava kompromissejaan ihmisten luettavissa olevassa muodossa. Tämä rakennettu vuoropuhelu ei ole rajoitus; se on välttämätöntä yhdenmukaisuuden ylläpitämiseksi ja katastrofaalisten väärinymmärrysten estämiseksi ennen kuin ne muuttuvat toimiksi.

Pohjimmiltaan

Autonomiset tekoälyagentit tarjoavat merkittäviä hyötyjä, mutta ne sisältävät myös riskejä, joita ei voida laiminlyödä. On tärkeää tunnistaa ja korjata näiden järjestelmien avainhaavoittuvuudet, sen sijaan, että keskittyisimme pelkästään parantamaan niiden kykyjä. Laiminlyöminen näistä riskeistä voi muuttaa suurimmat teknologiset saavutuksemme epäonnistumisiksi, joita emme ymmärrä eivätkä voi hallita.

Tohtori Tehseen Zia on COMSATS University Islamabadin apulaisprofessori, joka on suorittanut AI-tutkinnon Wienin Teknillisen yliopiston, Itävallassa. Erityisalanaan ovat Tekoäly, Konenäkö, Data Science ja Machine Learning, ja hän on tehnyt merkittäviä töitä julkaisemalla artikkeleita arvostetuissa tieteellisissä lehdissä. Tohtori Tehseen on myös johtanut useita teollisuusprojekteja pää tutkijana ja toiminut AI-konsulttina.