Connect with us

Hvordan jeg overførte min viden til AI-systemer, der kan træffe beslutninger som menneskelige eksperter

Tankeledere

Hvordan jeg overførte min viden til AI-systemer, der kan træffe beslutninger som menneskelige eksperter

mm
A human expert in a technical control room teaching an AI system to make complex decisions through a holographic interface.

Da jeg forlod Microsoft og fortsatte med at arbejde med virksomheder på deres AI-udrulninger, så jeg konstant, at de fleste AI-systemer, som folk var begejstrede for, ikke kunne træffe beslutninger med sand menneskelig dømmekraft. Selvfølgelig kunne de skrive, sammenfatte og producere bemærkelsesværdigt flydende tekst, der lød som en beslutning, men når du sætter disse systemer ind i et rigtigt operationsmiljø, hvor der er kompromiser, usikkerhed, ufuldstændige instruktioner og reelle konsekvenser, kæmper de hurtigt. Dette stemmer overens med data fra MIT Project NANDA, der viser, at selvom 60% af organisationerne evaluerede AI-værktøjer, nåede kun 20% pilotstadiet, og kun 5% nåede produktion. Med andre ord kæmper branchen med at bygge systemer, der kan holde til inden for rigtige arbejdsgange.

I virksomhedsindstillinger, især i områder som leverandørkæde, produktion og operationer, er det ikke svært at få et svar; det er at vide, hvilket svar man kan stole på, hvilke variabler der betyder mest, og hvad der sandsynligvis vil gå galt længere nede, hvis man tager fejl. I mine øjne er dette både et ekspertise- og dømmeproblem.

For at være tydelig, har AI gjort ekstraordinære fremskridt i produktionen af bedre output. Men bedre output er ikke det samme som bedre beslutninger. Disse er to distinkte milepæle, og jeg tror, at branchen har brugt meget tid på at behandle dem som udskiftelige.

Manglende ekspertise og dømmekraft er derfor, hvorfor jeg blev interesseret i at bygge AI, som menneskelige eksperter kan lære at træffe komplekse beslutninger på samme måde. AI bør ikke kun handle om at automatisere opgaver, men om effektivt og sikkert at overføre menneskelig dømmekraft til AI, der kan holde til.

Store sprogmodeller (LLM) taler som beslutningstagerne, men de er det ikke

Der er ingen tvivl om, at LLM er nyttige, men de er ikke, som standard, beslutningstagende systemer. De er forudsigelsessystemer indpakket i sprog. Og sprog er overbevisende, hvilket er en del af problemet. Hvis et system kan forklare sig flydende, overskatter vi let, hvad det forstår. Du spørger det et forretningspørgsmål, det giver dig et struktureret svar med kompromiser, forbehold og en pæn lille sammenfatning til sidst, hvilket får det til at lyde klogere, end det er. At lyde sammenhængende og være operationskompetent er ikke det samme, og det er her, mange virksomheds-AI bryder sammen. Modeller kan fortælle dig, hvordan en god beslutning lyder, uden at have nogen forståelse for, hvad der gør en beslutning god under pres, over tid eller i kontekst. Dette er en af årsagerne til, at mange organisationer kæmper med at gå ud over eksperimenter. Gartner fandt, at mindst 50% af generative AI-projekter opgives efter bevis for begreber, langt før de leverer reel operationel impact, ofte på grund af uvirkelige værdier og risikokontroller.

Information er ikke det samme som ekspertise

En af de letteste fælder at falde i med AI er at antage, at hvis et system har nok information, skal det være i stand til at yde som en ekspert. Lyder rimeligt, men når du tænker over det i vores daglige liv, gør mere information os ikke automatisk til eksperter. Du kan læse alle luftfartsmanualer og stadig ikke være klar til at lande et fly. Du kan memorere alle bedste praksis i leverandørkæden og stadig fryse, når tre ting går galt på én gang.

Jeg kunne fortsætte, men pointen er, at information ikke er det samme som kapacitet. Kapacitet kommer fra erfaring, specifikt gentagen eksponering for besværlige situationer, hvor svaret ikke er åbenlyst.

Hver dag ser jeg, at de fleste af i dagens AI-systemer er trænet på statiske eksempler. Dette er alle nyttige til at gøre forudsigelser, men det er kun en lille del af beslutningstagningen. Virksomheder mangler ikke data per se, men de har brug for strukturerede miljøer til praksis, hvilket betyder at give systemerne miljøer, hvor de kan:

  • Møde realistiske scenarier
  • Træffe valg
  • Se, hvad der sker
  • Modtage feedback
  • Forbedre sig over tid

AI kan trænes ved hjælp af forudsigelsesalgoritmer, men denne tilgang har begrænsninger. Hvad der er nødvendigt herefter er AI, der kan trænes i en simuleret miljø med menneskelig overvågning. Jeg kalder dette maskinlæring, en metode, der bryder komplekse beslutninger ned i scenarier og færdigheder, og giver en vejledning for menneskelige eksperter til at undervise AI gennem simulation. Den resulterende feedback og prøve-og-fejl-metoden aktiverer til sidst agenterne til at lære og handle med reel verdensuafhængighed direkte fra de mennesker, der byggede disse processer.

Stop med at behandle AI som en monolit

En anden fejl, jeg ser meget, er antagelsen af, at ét stort model skal kunne gøre alt. Ingen basketballhold består kun af én person. Ingen fabrik drives af en enkelt. Komplekse systemer fungerer, fordi forskellige komponenter gør forskellige job, og der er en struktur, der holder dem sammen.

AI skal bygges på samme måde. Jeg tror ikke, at den lange fremtid for virksomhedsbeslutninger er én kæmpe model, der sidder midt i virksomheden og prætender at være universelt kompetent. Det er langt mere sandsynligt, at det vil se ud som hold af specialiserede agenter.

En agent kan være ekspert i datahentning. En anden er bedre til at evaluere scenarier. En anden håndterer planlægning. En af dem kontrollerer overholdelse eller fanger modstridende udsagn. En anden fungerer mere som en supervisor, der beslutter, hvornår man skal eskalere eller hvornår tilliden er for lav til at fortsætte. Holdarkitektur giver mere mening for mig, fordi den afspejler, hvordan virksomheder i virkeligheden fungerer, og er i overensstemmelse med bredere markedstrends. McKinseys fund understreger, at organisationer får mest værdi fra AI ved at redesigne arbejdsgange og driftsstrukturer omkring det.

Ikke alle beslutninger træffes på samme måde, og vi antager ofte, at samme model, samme data og samme type af resonnering kan håndtere dem alle. I virkeligheden kræver forskellige beslutninger forskellige mekanismer.

De fire måder, beslutninger faktisk sker

I min erfaring tenderer de fleste beslutninger til at falde i nogle kategorier:

  1. Styringssystemer (regler og formler): Beslutninger træffes ved at anvende foruddefinerede ligninger eller regler til kendte input. Hvis X sker, gør Y.
  2. Søgning og optimering: Beslutninger træffes ved at evaluere mange mulige muligheder og vælge den bedste baseret på et defineret mål.
  3. Forstærkningslæring (prøve og fejl): Beslutninger læres over tid ved at udføre handlinger, observere resultater og justere baseret på belønning eller straf.
  4. Praksis og erfaring (menneske-lignende læring): Beslutninger formas gennem gentagen eksponering, vejledt feedback og akkumuleret dømmekraft i realverdensscenarioer.

De fleste virksomheds-AI klarer sig godt i de to første kategorier. Den tredje og fjerde kategori er mere udfordrende for AI, fordi det er der, hvor menneske-lignende dømmekraft bor.

Uafhængighed uden struktur er risiko

Når folk taler om autonom AI, tenderer samtalen til at splitte sig i to yderligheder. Den ene side mener, at systemerne er grundlæggende magi og klar til at køre alt. Den anden side handler, som om de aldrig skal tillides med noget meningsfuldt.

Jeg tror ikke, at nogen af disse synspunkter er nyttige. Vi skal fokusere på uafhængighed inden for struktur, fordi uafhængighed uden tilsyn, eskalationslogik, grænser eller ansvarlighed er den primære kilde til risiko. Risikobekymringer viser sig mere nu, herunder i samtaler, der er formet af bestræbelser som National Institute of Standards and Technologys AI-Risikostyringsramme, som afspejler, hvor alvorligt organisationer tager spørgsmål om tilsyn, ansvarlighed og operationel tillid.

Fremtiden for virksomheds-AI ligger i hold af agenter. Organisationer, der får mest værdi fra AI, vil ikke være dem, der automatiserer de fleste ord. De er dem, der finder ud af, hvordan de kan overføre reel ekspertise til systemer, der kan holde til, når miljøet bliver besværligt. Det, mener jeg, er forskellen på AI, der ser imponerende ud, og AI, der bliver virkelig nyttig, producerer reel ROI.

Kence Anderson er grundlægger og administrerende direktør for AMESA og tidligere direktør for Autonomous AI Adoption hos Microsoft. Han er en pioner inden for feltet intelligente autonome agenter, idet han har medskabt "Machine Teaching", en metode, der giver AI-agenter mulighed for at udvikle virkelighedsnær autonomy gennem simulation, feedback og prøver-og-fejl. I de sidste syv år har Kence udelukkende fokuseret på design, opbygning og implementering af intelligente autonome agenter til produktion og logistik, hvor han har ledet over 200 virkelighedsnære implementeringer for store virksomheder, herunder Shell, PepsiCo og Delta Airlines. Han er også forfatter til Designing Autonomous AI (O’Reilly, 2022) og udvikler i øjeblikket en horisontal platform til orkestrering af AI-agenter til at træffe million-dollars beslutninger i virksomhedsdrift.