Connect with us

The AI Reliability Problem Nobody Wants to Talk About

Ajatusjohtajat

The AI Reliability Problem Nobody Wants to Talk About

mm

Dominantti narraatiivi AI-luotettavuudesta on yksinkertainen: mallit hallucinoivat. Sen vuoksi yritysten on parannettava malleja, jotta ne voisivat hyödyntää niitä paremmin. Enemmän parametreja. Parempaa koulutusdataa. Enemmän vahvistusoppimista. Enemmän suuntautumista.

Ja silti, vaikka eturintamien mallit kehittyvät yhä kykenevämmiksi, luotettavuuskeskustelu kieltäytyy häviämästä. Yritysjohtajat epäröivät edelleen sallia agenttien tekevän merkittäviä toimia keskeisissä järjestelmissä. Hallitukset kysyvät edelleen: “Voimmeko luottaa siihen?”

Mutta hallucinaatiot eivät ole ensisijaisesti malliongelma. Ne ovat kontekstiongelma. Pyydämme AI-järjestelmiä toimimaan yritysinfrastruktuurissa ilman, että annamme niille rakenteellista näkyvyyttä, jotta ne voivat toimia turvallisesti. Sitten syytämme mallia, kun se arvailee.

Oikea luotettavuuskuilu ei ole painoissa vaan tietokerroksessa.

Kirurgi ilman kuvantamista

Kuvittele kirurgi, joka toimii ilman kuvantamista. Ei magneettikuvausta. Ei tietokonekuvausta. Ei reaaliaikaisia visualisointeja ympäröivästä kudoksesta. Vain yleinen ymmärrys anatomian ja veitsen käytöstä. Jopa taitavin kirurgi joutuisi arvaamaan. Arvaamaan. Luottamaan todennäköisyyspohjaiseen päättelyyn.

Se on mitä yritysten AI-agentit tekevät nyt.

Kun AI-järjestelmä pyydetään muokkaamaan työnkulkua, päivittämään ERP-sääntöä tai laukaamaan automaatiota työkalujen välillä, se harvoin on täydellinen riippuvuuskaavio ympäristöstä. Se ei tiedä, kumpi “käyttämätön” kenttä mahdollistaa alijohdannaisen dashboardin. Se ei näe, mihin automaatio viittaa kyseiseen validointisääntöön. Se ei voi luotettavasti simuloida toissijaisia vaikutuksia.

Joten se tekee sen, mihin suuret kielen mallit on koulutettu: se ennustaa. Ennustaminen ei ole ymmärrys. Ja ennustaminen ilman rakenteellista kontekstia näyttää hallucinaatiolta.

Virheellinen keskustelu

AI-yhteisö on ollut lukittu mallikeskeiseen luotettavuuskeskusteluun. Tutkimukset skaalautumislaeista. Tutkimukset ajatusketjun vihjeistä. Haun parantamistekniikoita. Arviointituloksia.

Kaikki tarpeellisia. Kaikki arvokkaita. Mutta huomaa, mitä puuttuu: keskustelua yritysjärjestelmien topologiasta.

Luotettavuus yrityskontekstissa ei tarkoita pelkästään “malli tuottaa oikein tekstiä.” Se tarkoittaa “järjestelmä tekee muutoksia, jotka ovat turvallisia, jäljitettäviä ja ennustettavissa.”

Se on perustavanlaatuinen erilainen vaatimus.

Kun OpenAI ja Anthropic julkaisevat arvioita mallin suorituskyvystä, he mitataksesi tarkkuutta päättelytehtävissä, koodausbenchmarkeissa tai tietämyksen palautuksessa. Nämä ovat hyödyllisiä signaaleja. Ne eivät kuitenkaan mitata AI-agentin kykyä muuttaa turvallisesti live-tilaan 15 vuoden verran kertynyttä automaatiovelkaa.

Ongelma ei ole siinä, voiko malli kirjoittaa syntaktisesti oikein koodia; se on siinä, ymmärtääkö AI ympäristön, johon se koodi on käyttöön otettu.

Elävät järjestelmät kerryttävät entropiaa

Yritysjärjestelmät eivät ole staattisia tietokantoja. Ne ovat eläviä järjestelmiä. Jokainen uusi integraatio jättää jälkensä. Jokainen kampanja esittelee kentän. Jokainen “nopea korjaus” esittelee lisää automaatiokerrosta. Näiden kerrosten vuorovaikutukset ovat tapoja, joita kukaan ei täysin ymmärrä.

Tämä on kasvun funktio. Monimutkaiset sopeutuvat järjestelmät kerryttävät luonnostaan entropiaa. MIT:n Sloan Schoolin tutkimukset on korostanut jo kauan, miten tietoasymmetria organisaatioiden sisällä lisää operatiivista riskiä. Samaan aikaan Gartner arvioi, että huono datan laatu maksaa organisaatioille keskimäärin $12.9 miljoonaa vuodessa.

Nyt kuvittele asettaminen autonomisia agenteja tähän ympäristöön ilman, että osoitetaan sen rakenteellista läpinäkyvyyttä.

Emme pitäisi olla yllättyneitä, kun tulokset tuntuvat arvaamattomilta. Agentti ei ole pahantahtoinen tai tyhmä. Se on sokea. Se rakentaa pimeässä.

Haun parantaminen ei riitä

Jotkut väittävät, että haun parantaminen (RAG) ratkaisee tämän ongelman. Anna mallille pääsy asiakirjoihin. Syötä sille skeemauskuvauksia. Yhdistä se API:hin.

Se auttaa.

Mutta asiakirjat eivät ole topologiaa.

PDF, joka selittää, miten työnkulkua “pitäisi” suorittaa, ei ole sama kuin reaaliaikainen kaavio, miten se todella vuorovaikuttaa 17 muun automaation kanssa.

Yritysten todellisuus harvoin vastaa yritysten asiakirjoja.

Vuoden 2023 tutkimus, joka julkaistiin Communications of the ACM -julkaisussa , osoitti, että vanhentunut asiakirja on yksi tärkeimmistä ohjelmistojen ylläpitovirheistä. Järjestelmät kehittyvät nopeammin kuin niiden kertomukset.

Joten vaikka annamme AI-agenteille asiakirjoja, annamme usein heille osittaisen tai ihannetun kartan.

Osittaiset kartat tuottavat yhä varmat virheet.

Toiminnallinen kerros on todellinen turvallisuuskerros

Meillä on tapana ajatella turvallisuutta suuntautumiskoulutuksena, esteinä, punaisena joukkueena ja käytäntösuodattimina. Kaikki tärkeitä. Mutta yrityskontekstissa turvallisuus on kontekstuaalinen. Se on tietäminen:

  • Mihin tämä kenttä riippuu?
  • Mikä automaatio viittaa tähän objektiin?
  • Mitä alijohdannaisia raportteja rikkoisi?
  • Kuka omistaa tämän prosessin?
  • Milloin tämä muutettiin viimeksi?
  • Mitä historiallisia muutoksia edelsi nykyinen konfiguraatio?

Ilman tätä kerrosta AI-agentti toimii tehokkaasti mustassa laatikossa. Tällä kerroksella se voi simuloida vaikutuksia ennen toimintaa. Ero hallucinaation ja luotettavuuden välillä on usein näkyvyys.

Miksi malli saa syyt

Miksi keskustelu keskittyy niin voimakkaasti malleihin? Koska mallit ovat luettavissa. Voimme mitata hämmennystä. Voimme vertailla benchmark-tuloksia. Voimme julkaista skaalautumiskäyriä.

Tietokerros yrityksissä on paljon mutkikkaampi. Se vaatii monitoimijaisen koordinoinnin. Se vaatii hallintodiscipliiniä. Se pakottaa organisaatiot kohtaamaan oman järjestelmänsä kertyneen monimutkaisuuden.

On helpompaa sanoa “malli ei ole valmis” kuin myöntää “infrastruktuurimme on epäselvä.”

Mutta kun AI-agentit siirtyvät sisällön luomisesta operatiiviseen suorittamiseen, tämä kehys muuttuu vaaralliseksi.

Jos käsittelemme luotettavuutta ainoastaan malliongelmana, jatkamme…

(Jatkuu samalla tavalla kuin alkuperäinen teksti, käännös jokaiselle kappaleelle ja otsikolle, kunnes koko teksti on käännetty)

Ido Gaver on Sweepin toimitusjohtaja ja perustaja, jossa hän johtaa tutkimusta ja tuotestrategiaa tekoäly-, metatietoarkkitehtuuri- ja yrityshallinnon risteyksessä. Hänen työnsä keskittyy siihen, että agenssijärjestelmät voivat toimia turvallisesti ja kontekstuaalisesti suurten yritysohjelmistojärjestelmien ekosysteemeissä.