Tankeledere
Hvordan forklarbar AI bygger tillit og ansvar

Bedrifter har allerede kastet seg headfirst inn i AI-adoptsjon, og konkurrerer om å deployere chatboter, innholdsgenerering og beslutningsstøttesystemer over hele virksomheten. Ifølge McKinsey, bruker 78% av selskapene AI i minst en forretningsfunksjon.
Frenesien av implementering er forståelig — alle ser potensialet. Men i denne rusen, overseer mange organisasjoner faktum at alle neural nettverksbaserte teknologier, inkludert hver LLM og generativ AI-system i bruk i dag og forutseelig fremtid, deler en betydelig svakhet: De er uforutsigbare og ultimate ukontrollerbare.
Som noen har lært, kan det være reelle konsekvenser som resultat. Hos en Chevrolet-forhandler som hadde deployert en chatbot til sin nettside, overbeviste en kunde ChatGPT-drevne bot om å selge ham en $58,195 Chevy Tahoe for bare $1. En annen kunde promptet den samme chatboten til å skrive en Python-skript for komplekse fluiddynamiske ligninger, som den gjorde med glede. Forhandleren deaktiverte botene etter at disse hendelsene gikk viralt.
I fjor, tapte Air Canada i en småkravssak da de argumenterte for at deres chatbot, som ga en passasjer feil informasjon om en sørge-tilleggsavgift, “er en separat juridisk enhet som er ansvarlig for sine egne handlinger”.
Denne uforutsigbarheten stammer fra den grunnleggende arkitekturen til LLM-er. De er så store og komplekse at det er umulig å forstå hvordan de kommer frem til bestemte svar eller forutsi hva de vil generere før de produserer en utgang. De fleste organisasjoner responderer til denne pålitelighetsproblemet uten å fullt ut erkjenne det.
Den vanlige fornuftige løsningen er å sjekke AI-resultater for hånd, som fungerer, men drastisk begrenser teknologiens potensiale. Når AI begrenses til å være en personlig assistent — utkast til tekst, møteprotokoller, dokumentsummering og hjelp med kode — leverer det beskjedne produktivitetsgevinster. Ikke nok til å revolusjonere økonomien.
De sanne fordelene med AI vil komme når vi slutter å bruke det til å assistere eksisterende jobber og i stedet omdanner hele prosesser, systemer og selskaper til å bruke AI uten menneskelig innblanding på hvert trinn. Vurdér lånebehandling: hvis en bank gir låneansvarlige en AI-assistent til å summerere søknader, kan de arbeide 20-30% raskere. Men å deployere AI til å håndtere hele beslutningsprosessen (med passende sikkerhetstiltak) kunne kutte kostnadene med over 90% og eliminere nesten all prosesseringstid. Dette er forskjellen mellom inkrementell forbedring og transformasjon.
Veien til pålitelig AI-implementering
Å utnytte AI-s full potensiale uten å underkaste seg dets uforutsigbarhet, krever en sofistikert blanding av tekniske tilnærminger og strategisk tenkning. Mens flere nåværende metoder tilbyr delvis løsninger, har hver betydelige begrensninger.
Noen organisasjoner forsøker å mildne pålitelighetsproblemer gjennom system-nudging — å subtly styre AI-atferd i ønskede retninger så det responderer på bestemte måter til bestemte innputt. Anthropic-forskere demonstrerte sårbarheten i denne tilnærmingen ved å identifisere en “Golden Gate Bridge-egenskap” i Claudes neurale nettverk og, ved å kunstig forsterke den, forårsaket Claude å utvikle en identitetskriser. Når de ble bedt om sin fysiske form, hevdet Claude å være Golden Gate Bridge selv. Dette eksperimentet avdekket hvor lett en modells kjernefunksjon kan endres og at hver nudging representerer en avveiing, potensielt forbedrer en aspekt av ytelsen mens den degraderer andre.
En annen tilnærming er å la AI overvåke annen AI. Mens denne lagdelte tilnærmingen kan fange noen feil, introduserer den ekstra kompleksitet og kommer fortsatt ikke nær komprehensiv pålitelighet. Hardkodete retningslinjer er en mer direkte inngripen, som å blokkere svar som inneholder bestemte nøkkelord eller mønster, som for eksempel precursor-ingenredienser for våpen. Mens effektive mot kjente problemer, kan disse retningslinjene ikke forutse nye problematiske utgangspunkt som oppstår fra disse komplekse systemene.
En mer effektiv tilnærming er å bygge AI-sentriske prosesser som kan fungere autonomt, med menneskelig tilsyn strategisk posisjonert for å fange pålitelighetsproblemer før de forårsaker virkelige problemer. Du ville ikke ønske at AI direkte godkjenner eller avviser lånesøknader, men AI kunne utføre en initial vurdering for menneskelige operatører å se over. Dette kan fungere, men det avhenger av menneskelig våkenhet for å fange AI-feil og undergraver potensielle effisiensgevinster fra å bruke AI.
Bygging for fremtiden
Disse delvis løsningene peker mot en mer komprehensiv tilnærming. Organisasjoner som grunnleggende tenker om hvordan deres arbeid blir gjort, i stedet for å bare forbedre eksisterende prosesser med AI-assistanse, vil få den største fordelen. Men AI bør aldri være det siste trinnet i en høyrisikoprosess eller beslutning, så hva er den beste veien fremover?
Først, bygger AI en gjentakbar prosess som vil pålitelig og gjennomsiktig levere konsistente resultater. Andre, mennesker gjennomgår prosessen for å sikre at de forstår hvordan den fungerer og at innputtene er passende. Til slutt, kjører prosessen autonomt – uten å bruke AI – med periodisk menneskelig gjennomgang av resultater.
Vurdér forsikringsbransjen. Den konvensjonelle tilnærmingen kan legge til AI-assistanter for å hjelpe skadebehandlere å arbeide mer effektivt. En mer revolusjonær tilnærming ville bruke AI til å utvikle nye verktøy — som datavisjon som analyserer skadebilder eller forbedrede svindelmodeller som identifiserer mistenkelige mønster — og deretter kombinere disse verktøyene i automatiserte systemer styrt av klare, forståelige regler. Mennesker ville designe og overvåke disse systemene i stedet for å behandle enkeltvis skader.
Denne tilnærmingen opprettholder menneskelig tilsyn på det kritiske punktet hvor det betyr mest: design og validering av systemet selv. Den tillater eksponentielle effisiensgevinster samtidig som den eliminerer risikoen for at AI-uforutsigbarhet vil føre til skadelige resultater i enkelttilfeller.
En AI kan identifisere potensielle indikatorer for lånebetalingsevne i transaksjonsdata, for eksempel. Menneskelige eksperter kan deretter evaluere disse indikatorene for rettferdighet og bygge eksplisitte, forståelige modeller for å bekrefte deres prediktive kraft.
Denne tilnærmingen til forklarbar AI vil skape en klarere skille mellom organisasjoner som bruker AI overfladisk og de som transformerer sine operasjoner rundt det. De siste vil stadig trekke foran i sine bransjer, i stand til å tilby produkter og tjenester til prisnivåer deres konkurrenter ikke kan matche.
I motsetning til black-box AI, sikrer forklarbare AI-systemer at mennesker opprettholder meningsfullt tilsyn over teknologiens anvendelse, og skaper en fremtid hvor AI supplere menneskelig potensiale i stedet for å bare erstatte menneskelig arbeid.












