Connect with us

Hoe ik mijn kennis overdroeg aan AI-systemen die daadwerkelijk beslissingen kunnen nemen zoals menselijke experts

Thought leaders

Hoe ik mijn kennis overdroeg aan AI-systemen die daadwerkelijk beslissingen kunnen nemen zoals menselijke experts

mm
A human expert in a technical control room teaching an AI system to make complex decisions through a holographic interface.

Toen ik Microsoft verliet en verder werkte met ondernemingen aan hun AI-implementaties, zag ik steeds vaker dat de meeste AI-systemen waar mensen enthousiast over waren, eigenlijk geen beslissingen konden nemen met echte menselijke oordeelsvorming. Zeker, ze konden schrijven, samenvatten en opmerkelijk vloeiende tekst produceren die klonk als een beslissing, maar wanneer je deze systemen in een echt operationeel omgeving plaatst, waar sprake is van afwegingen, onzekerheid, onvolledige instructies en echte gevolgen, worstelen ze snel. Dit komt overeen met gegevens van het MIT Project NANDA, waaruit blijkt dat 60% van de organisaties AI-hulpmiddelen beoordeelde, maar slechts 20% het pilotstadium bereikte en slechts 5% productiestadium bereikte. Met andere woorden, de industrie heeft moeite om systemen te bouwen die daadwerkelijk standhouden in echte workflows.

In ondernemingsomgevingen, vooral in gebieden als supply chain, productie en operaties, is het krijgen van een antwoord niet moeilijk; het is weten welk antwoord te vertrouwen, welke variabelen het meest belangrijk zijn en wat waarschijnlijk zal misgaan downstream als je het mis hebt. In mijn ogen is dit zowel een expertise- als een oordeelsvormingsprobleem.

Om duidelijk te zijn, heeft AI buitengewone stappen gezet in het produceren van betere uitvoer. Maar betere uitvoer is niet hetzelfde als betere beslissingen. Dit zijn twee distincte mijlpalen, en ik denk dat de industrie veel tijd heeft besteed aan het behandelen van deze als uitwisselbaar.

Het gebrek aan expertise en oordeelsvorming is de reden waarom ik geïnteresseerd raakte in het bouwen van AI die menselijke experts kunnen leren om complexe beslissingen te nemen op de manier waarop zij dit doen. AI zou niet alleen moeten gaan over het automatiseren van taken, maar over het effectief en veilig overdragen van menselijke oordeelsvorming in AI die standhoudt.

Grote taalmodellen (LLM’s) spreken als beslissers, maar zijn het niet

Er is geen twijfel dat LLM’s nuttig zijn, maar ze zijn niet, van nature, beslissingsystemen. Ze zijn voorspellingsystemen verpakt in taal. En taal is overtuigend, wat deel van het probleem is. Als een systeem zichzelf vloeiend kan verklaren, overschatten we gemakkelijk wat het begrijpt. Je vraagt het een zakelijke vraag, het geeft je een gestructureerd antwoord met afwegingen, voorbehouden en een nette samenvatting aan het einde, waardoor het slimmer lijkt dan het is. Klinken als coherent en operationeel competent zijn, zijn niet hetzelfde, en dit is waar veel ondernemings-AI het laat afweten. Modellen kunnen je vertellen wat een goede beslissing klinkt zonder enig begrip van wat een beslissing goed maakt onder druk, over tijd of in context. Dit is een van de redenen waarom veel organisaties moeite hebben om verder te gaan dan experimenten. Gartner vond dat ten minste 50% van de generatieve AI-projecten worden stopgezet na bewijzen van concept, lang voordat ze daadwerkelijk operationeel effect leveren, vaak vanwege onduidelijke waarde en risicobeheersing.

Informatie is niet hetzelfde als expertise

Een van de gemakkelijkste valkuilen om in te trappen met AI is ervan uit te gaan dat als een systeem genoeg informatie heeft, het zou moeten kunnen presteren als een expert. Klinkt redelijk, maar wanneer je erover nadenkt in ons dagelijks leven, leidt het vergroten van onze informatie over iets niet automatisch tot expertise. Je kunt elke vliegtuighandleiding lezen en nog steeds niet klaar zijn om een vliegtuig te landen. Je kunt elke beste praktijk in de supply chain memoriseren en nog steeds bevriezen wanneer drie dingen tegelijk misgaan.

Ik kan doorgaan, maar het punt is dat informatie niet gelijk is aan capaciteit. Capaciteit komt van ervaring, specifiek, herhaalde blootstelling aan rommelige situaties waar het antwoord niet voor de hand ligt.

Elke dag zie ik dat de meeste van vandaag’s AI-systemen getraind worden op statische voorbeelden. Dit is allemaal behulpzaam voor het maken van voorspellingen, maar dat is slechts een klein deel van beslissingsvorming. Ondernemingen hebben geen gebrek aan data per se, maar ze hebben gestructureerde omgevingen voor oefening nodig, wat betekent dat systemen omgevingen moeten krijgen waarin ze herhaaldelijk:

  • Realistische scenario’s tegenkomen
  • Keuzes maken
  • Zien wat er gebeurt
  • Feedback ontvangen
  • Verbeteren over tijd

AI kan getraind worden met voorspellingsalgoritmen, maar deze benadering heeft beperkingen. Wat nodig is, is AI die getraind kan worden in een gesimuleerde omgeving met menselijke toezicht. Ik noem dit machine-onderwijs, een methode die complexe beslissingen afbreekt in scenario’s en vaardigheden, en een gids biedt voor menselijke experts om AI te leren via simulatie. De resulterende feedback en trial-and-error maken het uiteindelijk mogelijk voor agenten om te leren en te handelen met echte autonomie, rechtstreeks van de mensen die deze processen hebben gebouwd.

Houd op met het behandelen van AI als een monoliet

Een andere fout die ik veel zie, is de veronderstelling dat één groot model op de een of andere manier alles moet doen. Geen basketbalteam bestaat uit slechts één persoon. Geen fabriek wordt gerund door een individu. Complexe systemen werken omdat verschillende componenten verschillende taken uitvoeren, en er is een structuur die ze bij elkaar houdt.

AI zou op dezelfde manier gebouwd moeten worden. Ik denk niet dat de toekomst van ondernemingsbeslissingsvorming er een is van één groot model dat midden in het bedrijf zit en doet alsof het universeel competent is. Het is veel waarschijnlijker dat het eruitziet als teams van gespecialiseerde agenten.

Een agent kan een expert zijn in data-opvraging. Een andere is beter in het evalueren van scenario’s. Een andere behandelt planning. Een controleert naleving of vangt tegenstrijdigheden. Een andere fungeert meer als een supervisor, beslissend wanneer te escaleren of wanneer het vertrouwen te laag is om door te gaan. Teamarchitectuur heeft veel meer zin voor mij, omdat het overeenkomt met hoe echte organisaties werken en aansluit bij bredere markttrends. McKinsey’s bevindingen ondersteunen dat organisaties de meeste waarde krijgen van AI door workflows en operationele structuren opnieuw te ontwerpen rond AI.

Niet alle beslissingen worden op dezelfde manier genomen, en te vaak gaan we ervan uit dat hetzelfde model, dezelfde data en hetzelfde type redenering allemaal kunnen afhandelen. In werkelijkheid vereisen verschillende beslissingen verschillende mechanismen.

De vier manieren waarop beslissingen daadwerkelijk worden genomen

Uit mijn ervaring tendeert de meeste beslissingen naar een paar categorieën:

  1. Besturingssystemen (regels en formules): Beslissingen worden genomen door vooraf gedefinieerde vergelijkingen of regels toe te passen op bekende invoer. Als X gebeurt, doe Y.
  2. Zoek- en optimalisatie: Beslissingen worden genomen door veel mogelijke opties te evalueren en de beste te selecteren op basis van een gedefinieerd doel.
  3. Versterking van het leren (trial and error): Beslissingen worden geleerd over tijd door acties te ondernemen, resultaten te observeren en aan te passen op basis van beloning of straf.
  4. Oefening en ervaring (menselijke stijl van leren): Beslissingen worden gevormd door herhaalde blootstelling, geleide feedback en opgebouwd oordeel in real-world scenario’s.

De meeste ondernemings-AI doet het goed in de eerste twee categorieën. De derde en vierde categorieën zijn moeilijker voor AI, omdat dat is waar menselijke oordeelsvorming leeft.

Autonomie zonder structuur is risico

Wanneer mensen praten over autonome AI, splitst het gesprek zich meestal in twee uitersten. De ene kant denkt dat de systemen bijna magisch zijn en klaar om alles te runnen. De andere kant doet alsof ze nooit iets belangrijks mogen vertrouwen.

Ik denk niet dat een van beide standpunten nuttig is. We moeten ons focussen op autonomie binnen structuur, omdat autonomie zonder toezicht, escalatielogica, grenzen of verantwoordelijkheid de belangrijkste bron van risico is. Risicobezwaren komen nu vaker naar voren, inclusief in gesprekken die worden gevormd door inspanningen zoals de National Institute of Standards and Technology’s AI Risk Management Framework, die weerspiegelt hoe serieus organisaties vragen van toezicht, verantwoordelijkheid en operationeel vertrouwen nemen.

De toekomst van ondernemings-AI ligt in teams van agenten. Organisaties die de meeste waarde krijgen van AI, zullen niet degene zijn die de meeste woorden automatiseren. Ze zijn degene die uitvinden hoe ze echte expertise overdragen in systemen die standhouden wanneer de omgeving rommelig wordt. Dat, in mijn ogen, is het verschil tussen AI die indrukwekkend lijkt en AI die echt nuttig wordt, met echt rendement op investering.

Kence Anderson is de oprichter en CEO van AMESA en voormalig directeur van Autonomous AI Adoption bij Microsoft. Hij is een pionier op het gebied van intelligente autonome agenten, met de co-creatie van "Machine Teaching", een methode die AI-agenten in staat stelt om autonomie in de echte wereld te ontwikkelen door middel van simulatie, feedback en trial-and-error. In de afgelopen zeven jaar heeft Kence zich uitsluitend gefocust op het ontwerpen, bouwen en implementeren van intelligente autonome agenten voor productie en logistiek, met meer dan 200 echte implementaties voor grote ondernemingen, waaronder Shell, PepsiCo en Delta Airlines. Hij is ook de auteur van Designing Autonomous AI (O'Reilly, 2022) en ontwikkelt momenteel een horizontaal platform voor het orkestreren van AI-agenten om miljoenen dollar beslissingen te nemen in bedrijfsoperaties.