Connect with us

Hvordan jeg overførte min kunnskap til AI-systemer som kan faktisk ta beslutninger som menneskelige eksperter

Tankeledere

Hvordan jeg overførte min kunnskap til AI-systemer som kan faktisk ta beslutninger som menneskelige eksperter

mm
A human expert in a technical control room teaching an AI system to make complex decisions through a holographic interface.

Da jeg forlot Microsoft og fortsatte å arbeide med bedrifter på deres AI-utvikling, så jeg at de fleste AI-systemene folk var begeistret for, ikke kunne faktisk ta beslutninger med sanne menneskelige vurderinger. Selvfølgelig kunne de skrive, summerere og produsere usedvanlig flytende tekst som lød som en beslutning, men når du plasserer disse systemene i et reelt operasjonelt miljø, der det finnes kompromisser, usikkerhet, ufullstendige instruksjoner og faktiske konsekvenser, sliter de raskt. Dette stemmer overens med data fra MIT-prosjektet NANDA, som viser at mens 60% av organisasjonene evaluerte AI-verktøy, nådde kun 20% pilotstadiet, og bare 5% nådde produksjon. Med andre ord, sliter bransjen med å bygge systemer som kan holde seg i sanne arbeidsflyter.

I bedriftsmiljø, spesielt i områder som leverandørkjede, produksjon og operasjoner, er det ikke vanskelig å få et svar; det er å vite hvilket svar å stole på, hvilke variabler som teller mest, og hva som sannsynligvis vil gå galt nedover hvis du tar feil. I mine øyne er dette både et ekspertise- og vurderingsproblem.

For å være tydelig, har AI gjort ekstraordinære fremskritt i å produsere bedre utdata. Men bedre utdata er ikke det samme som bedre beslutninger. Disse er to distinkte milepæler, og jeg tror at bransjen har brukt mye tid på å behandle dem som utskiftbare.

Mangelen på ekspertise og vurdering er grunnen til at jeg ble interessert i å bygge AI som menneskelige eksperter kan lære å ta komplekse beslutninger på samme måte. AI bør ikke bare handle om å automatisere oppgaver, men om å effektivt og trygt overføre menneskelig vurdering til AI som holder seg.

Store språkmodeller (LLM) snakker som beslutningstakere, men de er det ikke

Det er ingen tvil om at LLM er nyttige, men de er ikke, som standard, beslutningstagende systemer. De er prediksjonsystemer innpakket i språk. Og språk er overbevisende, som er en del av problemet. Hvis et system kan forklare seg flytende, overskattar vi lett hva det forstår. Du spør det et forretnings-spørsmål, det gir deg et strukturert svar med kompromisser, forbehold og en pen liten sammenfatting til slutt, som gjør det til å høres smartere ut enn det er. Å lyde koherent og være operasjonelt kompetent er ikke det samme, og dette er der mange bedrifts-AI bryter. Modeller kan fortelle deg hva en god beslutning lyder ut som uten å ha noen forståelse av hva som gjør en beslutning god under press, over tid eller i kontekst. Dette er en av grunnene til at mange organisasjoner sliter med å gå utenfor eksperimentering. Gartner fant at minst 50% av generative AI-prosjekter forkastes etter bevis for konsept, lenge før de leverer reell operasjonell påvirkning, ofte på grunn av uklar verdi og risikokontroll.

Informasjon er ikke det samme som ekspertise

En av de enkleste feller å falle i med AI er å anta at hvis et system har nok informasjon, bør det være i stand til å fungere som en ekspert. Lyder rimelig, men når du tenker på det i vår hverdagsliv, øker vår informasjon om noe ikke automatisk våre ekspertise. Du kan lese hver luftfartsmanual og likevel ikke være klar til å lande et fly. Du kan memorere hver beste praksis i leverandørkjeden og likevel fryse når tre ting går galt på en gang.

Jeg kunne fortsette, men poenget er at informasjon ikke tilsvarer evne. Evne kommer fra erfaring, spesielt gjentakende eksponering for urene situasjoner hvor svaret ikke er åpenbart.

Hver dag ser jeg at de fleste av dagens AI-systemer er trent på statiske eksempler. Dette er all hjelp for å gjøre prediksjoner, men det er bare en liten del av beslutningstaking. Bedrifter mangler ikke data per se, men de trenger strukturerte miljøer for praksis, som betyr å gi systemene miljøer hvor de kan:

  • Møte realistiske scenarier
  • Gjøre valg
  • Se hva som skjer
  • Motta tilbakemelding
  • Forbedre seg over tid

AI kan trenes ved hjelp av prediksjonsalgoritmer, men denne tilnærmingen har begrensninger. Hva som trengs neste er AI som kan trenes i et simuleringsmiljø med menneskelig tilsyn. Jeg kaller dette maskinlæring, en metode som bryter ned komplekse beslutninger i scenarier og ferdigheter, og gir en veiledning for menneskelige eksperter til å lære AI gjennom simulering. Den resulterende tilbakemeldingen og prøving og feil gjør at agenter kan lære og handle med virkelig autonomi direkte fra de menneskene som bygde disse prosessene.

Slutt å behandle AI som en monolit

En annen feil jeg ser mye er antagelsen at ett stort modell bør noenlunde gjøre alt. Ingen basketballag består bare av en person. Ingen fabrikk drives av en enkelt. Komplekse systemer fungerer fordi forskjellige komponenter gjør forskjellige jobber, og det er en struktur som holder dem sammen.

AI bør bygges på samme måte. Jeg tror ikke at den lange fremtid for bedriftsbeslutninger er ett gigantisk modell som sitter i midten av selskapet og later som om det er universelt kompetent. Det er mye sannsynligere å se ut som lag av spesialiserte agenter.

En agent kan være en ekspert på datahenting. En annen er bedre på å evaluere scenarier. En annen håndterer planlegging. En sjekker overholdelse eller fanger motsigelser. En annen fungerer mer som en sjef, bestemmer når å eskalere eller når tillit er for lav til å fortsette. Lagarkitektur gjør mye mer fornuft for meg fordi det kartlegger hvordan virkelige organisasjoner faktisk fungerer og stemmer overens med bredere markedstrender. McKinseys funn støtter at organisasjoner får mest verdi fra AI ved å redesigne arbeidsflyter og operasjonsstrukturer rundt det.

Ikke alle beslutninger tas på samme måte, og for ofte antar vi at samme modell, samme data og samme type resonnering kan håndtere dem alle. I virkeligheten krever forskjellige beslutninger forskjellige mekanismer.

De fire måtene beslutninger faktisk skjer

I min erfaring, tenderer de fleste beslutninger til å falle i noen kategorier:

  1. Styringssystemer (regler og formler): Beslutninger tas ved å anvende forhåndsdefinerte ligninger eller regler til kjente inndata. Hvis X skjer, gjør Y.
  2. Søk og optimalisering: Beslutninger tas ved å evaluere mange mulige alternativer og velge den beste basert på et definert mål.
  3. Forsterkninglæring (prøving og feil): Beslutninger læres over tid ved å ta handlinger, observere resultater og justere basert på belønning eller straff.
  4. Praksis og erfaring (menneske-lignende læring): Beslutninger formas gjennom gjentakende eksponering, guidet tilbakemelding og akkumulert vurdering i virkelige scenarier.

De fleste bedrifts-AI gjør det bra i de to første kategoriene. Den tredje og fjerde kategoriene er mer utfordrende for AI, fordi det er der menneske-lignende vurdering bor.

Autonomi uten struktur er risiko

Når mennesker snakker om autonom AI, tenderer samtalen til å dele seg i to ekstreme. En side tror at systemene er basisk magi og klare til å kjøre alt. Den andre siden handler som om de aldri bør tillites med noe meningsfullt.

Jeg tror ikke at noen av disse synspunktene er nyttige. Vi bør fokusere på autonomi innen struktur fordi autonomi uten tilsyn, eskalasjonslogikk, grenser eller ansvar er hovedkilden til risiko. Risikobekymringer viser seg mer nå, også, inkludert i samtaler formet av bestrebelser som National Institute of Standards and Technologys AI-risikostyringsramme, som reflekterer hvor alvorlig organisasjoner tar spørsmål om tilsyn, ansvar og operasjonell tillit.

Fremtiden for bedrifts-AI ligger i lag av agenter. Organisasjoner som får mest verdi fra AI, vil ikke være de som automatiserer mest ord. De er de som finner ut hvordan å overføre sanne ekspertise til systemer som kan holde seg når miljøet blir urent. Det, i mine øyne, er forskjellen på AI som ser imponerende ut og AI som blir virkelig nyttig, produserer virkelig ROI.

Kence Anderson er grunnlegger og CEO av AMESA og tidligere direktør for Autonomous AI Adoption i Microsoft. Han er en pioner innen feltet intelligente autonome agenter, og har medvirket til å utvikle "Machine Teaching", en metode som gjør det mulig for AI-agenter å utvikle virkelige autonome egenskaper gjennom simulering, tilbakemelding og prøving og feiling. De siste syv årene har Kence konsentrert seg eksklusivt om å designe, bygge og deployere intelligente autonome agenter for produksjon og logistikk, og har ledet over 200 virkelige deployeringer for store selskaper, inkludert Shell, PepsiCo og Delta Airlines. Han er også forfatter av Designing Autonomous AI (O’Reilly, 2022) og utvikler nå en horisontal plattform for å orchestrere AI-agenter til å ta milliondollarsbeslutninger i bedriftsdrift.