Ajatusjohtajat

Arvostelurakenteen merkitys on tärkeämpää kuin mallin laatu yritysten tekoälyssä

mm

Yritysten tekoälykyvyn seuraava vaihe riippuu vähemmän paremmista malleista ja enemmän luotettavan arkkitehtuurin rakentamisesta niiden ympärille.

Jokainen tekoälyhallinnon keskustelu, johon olen osallistunut viimeisen kahden vuoden ajan, palaa aina samaan huolenaiheeseen: harhalukujen määrä, tarkkuusvertailut ja kohdistusvertailut. Nämä ovat todellisia ongelmia, mutta keskustelu on kiinnittynyt väärään päätyyn ongelmaan.

Vaikka mallit ovat parantuneet merkittävästi, niin yritysten johtajille saapuvien tarkistamattomien tekoälytulosten määrä on kasvanut rinnan niiden kanssa. Tämä laiminlyönti osoittaa arvostelurakenteen ongelman, ja ala puhuu siitä vain vähän.

Mallikeskeinen tarina on edennyt todellisuutta nopeammin

Yritysten tekoälyssä vallitseva näkemys kohdistuu edelleen mallin laatuun ensisijaisena muuttujana: jos malli on tarpeeksi tarkka, tulokset ovat luotettavia. Tämä logiikka oli ymmärrettävissä kaksi vuotta sitten, kun varhaiset LLM-mallit olivat epävakaimpia ja alttiimpia harhaluille, mutta tilanne on muuttunut.

Nykyiset mallit tuottavat kiillotettuja, hyvin rakennettuja, viitteiden sisältämiä vastauksia valtavalle tehtävien kirjolle, muotoiltuna sidosryhmien kielen mukaan. Organisaatiot käyttävät nyt tekoälyä tilavuudella, joka ylittää heidän tarkastusprosessiensa kapasiteetin. Tutkimus yritysten tekoälysovelluksista on osoittanut tämän epäsuhteen ohjelmistokehityksessä, jossa tekoälyavusteiset kehittäjät suorittavat 21 % enemmän tehtäviä, kun taas koodin tarkastusaika kasvaa 91 %. Tuotanto kasvaa, joten kyky ei ole enää pullonkaula. Tarkastuskapasiteetti on todellinen este.

Mitä data osoittaa analyyttisessä työssä

Analyyttinen toiminta on edullinen paikka tutkia tätä ongelmaa, koska tutkimusammattilaiset ovat koulutettuja skeptikkoja. He tietävät, mitä on korrelaatio, syy-seuraus, löydökset ja johtopäätökset. Tiedon laadun kyseenalaistaminen on osa työtä.

Knit AI Trust Indexin mukaan 92 %:lla yritysten analyytikoista on havaittu, että tekoälytuottamat tulokset saavuttavat johtoryhmän ilman perusteellista tarkastusta., ja Trust Indexin löydökset tunnistavat kolme tärkeää painepistettä:

  • Voluumi on ylittänyt tarkastuskapasiteetin. Tiimit tuottavat enemmän tuloksia kuin heillä on kapasiteettia tarkastaa perusteellisesti.
  • Luottamus on kasvanut nopeammin kuin tarkastuskäyttäytyminen on muuttunut. Tutkijat ovat yleisesti ottaen myönteisiä tekoälyn laadusta, mutta he myöntävät, että heidän tarkastusmenetelmänsä eivät ole kehittyneet samaa tahtia.
  • Tekoälytyön tarkastamiseen liittyvät työkalut jäävät jälkeen tuotantotyökalujen kehityksestä. Organisaatiot ovat panostaneet voimakkaasti tuotantokapasiteettiin ja verrattain vähän tarkastus- ja jäljitysinfrastruktuuriin.

Kiillotetut tulokset kutsuvat vähemmän tarkastelua

Vaikeampi epäonnistumistapa ei ole tapaus, jossa tekoäly tuottaa selvästi väärän vastauksen ja joku huomaa sen. Vaikeampi ongelma on automaatioharha, eli taipumus vähentää tarkastelua tuloksista, jotka näyttävät auktoriteettejä ja hyvin muotoiltuja. Vuonna 2025 julkaistu systemaattinen katsaus AI & Society -julkaisussa tutkittiin tätä 35 vertaisarvioituun tutkimukseen ja havaittiin, että kiillotetut, korkean luottamuksen tekoälytulokset vähentävät jatkuvasti ihmisten tarkastelun syvyyttä – jopa kokeneiden ammattilaisten kohdalla. Kun jokin näyttää oikein, me emme kiinnitä samanlaista huomiota sen tarkastamiseen.

Tämä laiminlyönti luo ongelman. Tutkimustulokset, joita analyytikko tarkastaa vain pintapuolisesti, muuttuvat tietopisteiksi johtoryhmän esityksissä, jotka puolestaan muuttuvat perustaksi hallitustason keskusteluille. Kun virhe etenee niin pitkälle, sen alkuperä on näkymätön ja sen korjaaminen on kallista. Maailmanlaajuiset liiketoiminnan tappiot tekoälyvirheistä ylittivät 67 miljardia dollaria vuonna 2024. Jokaisen työntekijän tarkastuskustannukset voivat olla jopa 14 200 dollaria vuodessa vain tekoälysisällön tarkastamiseksi. Nämä eivät ole mallin laatuongelmia, vaan arvostelurakenteen ongelmia.

Miten kypsiä tekoälytyönkulut näyttävät

Organisaatiot, jotka hallitsevat tätä ongelmaa hyvin, eivät käytä parempia malleja kuin kukaan muu. Sen sijaan he ovat rakentaneet perusteellisemman tarkastusinfrastruktuurin malleja, joita he hyödyntävät. Neljä periaatetta määrittävät heidän lähestymistapansa:

  1. Näkyvä alkuperä

Jokaisella tekoälytuloksella on avoin tieto siitä, mistä sen syötteet ovat peräisin. Tämä tieto antaa tarkastajille arvokkaita näkökulmia siihen, mitä heidän on arvioitava tuloksia tehokkaasti. Et voi arvioida väittämää, jonka alkuperää ei voida jäljittää.

  1. Portaaton tarkastus riskien mukaan

Kaikki tekoälytulokset eivät sisällä samaa riskiä. Kypsiä työnkulkuja sovelletaan tarkastusintensiteettiä suhteessa virheen seuraamuksiin. Korkean riskin tulokset saavat enemmän silmiä ja rakenteellisia tarkastusvälineitä. Rutiinitulokset etenevät nopeammin.

  1. KKitka oikeissa kohdissa

Organisaatiot, jotka kamppailevat eniten tekoälyn luottamuksen kanssa, ovat poistaneet kitkan yhdenmukaisesti, kohtellen nopeutta yleispäämääränä. Onnistuneet organisaatiot ovat olleet valikoivia: säilyttäen tarkoituksenmukaisen kitkan siirtoalueilla, joilla tekoälytulokset muuttuvat organisaatiopäätöksiksi. Heidän prosessiensa edellyttävät allekirjoitusta ennen kuin tekoälytuottama löydös pääsee hallitustason esitykseen tai rakenteellista haastetta ennen kuin löydökset pääsevät strategiatilaisuuksiin.

  1. Palautusilmat tekoälykerrokselle

Parhaat työnkulut käsittelevät tarkastusta datan tuottamisprosessina, ei tarkastuspisteenä. Kun tarkastaja merkitsee virheen tai ohittaa tekoälysuosituksen, tämä signaali kerätään ja palautetaan tekoälyn käyttöön tulevissa tehtävissä. OpenAI State of Enterprise AI -raportin mukaan parhaimmat organisaatiot erottuvat ei niinkään mallien monimutkaisuuden vaan tekoälyjärjestelmien käyttöönoton prosessien tiukkuuden perusteella. Organisaatiot, joilla ei ole tätä palautusilmalla, aloittavat alusta joka kerran.

Seuraava vaihe voitetaan arvostelukerroksella

Todellinen kilpailuetu analyyttisessä toiminnassa on se, kuka voi jatkuvasti luottaa siihen, mitä he tuottavat. Tämä luottamus perustuu siihen, mistä tulokset ovat peräisin, kuka ne on tarkastanut ja mitä tapahtuu, kun jokin on väärin. Viimeaikaisen historian on vastannut mallikysymykseen; organisaatioiden infrastruktuuri tekoälymallien vastuulliselle käytölle on se, mihin ala on edelleen kehittymässä.

Se, että 92 %:lla analyytikoista on havaittu tarkistamattomia tekoälytuloksia, jotka saavuttavat johtoryhmän, ei ole teknologinen epäonnistuminen. Se on organisaatiomuotoilun epäonnistuminen, ja se ilmenee alalla, jossa nopeus on optimoitu ja tarkastus on kohdeltu kustannuksena. Yritys, jolla on älykkäin malli, ei voita seuraavaa vaihetta yritysten tekoälyssä, vaan yritys, jolla on luotettavin arvostelurakenteisto sen ympärillä.

Aneesh Dhawan on Knitin perustaja ja toimitusjohtaja, Knit, joka on AI-käyttöön tarkoitettu tutkimusyhtiö. Hän on viettänyt viimeiset 5 vuotta yritysten AI- ja tutkimusmenetelmien risteyksessä. Knit työskentelee organisaatioiden kanssa, kuten Google, Amazon, T-Mobile ja ESPN, jotta ne voivat toimia AI-nopeudella valmiiden näkemyksien kanssa.