Thought leaders
Waarom Enterprise AI na implementatie faalt – en wat je eraan kunt doen

Waarschuwing: het probleem ligt niet bij het model
In 2023 lanceerde de stad New York de MyCity-chatbot om bedrijven te helpen bij het navigeren door complexe regelgeving. Het idee was eenvoudig: juridische informatie gemakkelijker toegankelijk maken.
In de praktijk produceerde het systeem antwoorden die niet alleen onjuist waren, maar ook juridisch misleidend – van fooiregels tot huisdiscriminatie tot betalingswetten.
Een latere audit vond dat 71,4% van de gebruikersfeedback negatief was. In plaats van de onderliggende problemen op te lossen, was de reactie om disclaimer toe te voegen. De chatbot bleef zelfs meer dan twee jaar in “bèta” voordat deze werd stopgezet.
Het falen was niet technisch. Het systeem brak af in productie omdat er geen mechanisme was om de nauwkeurigheid te garanderen, geen duidelijke verantwoordelijkheid en geen manier om in te grijpen als dingen verkeerd gingen.
Dat is het patroon achter enterprise AI vandaag: de technologie werkt, maar organisaties zijn niet ingericht om het betrouwbaar te laten draaien zodra het live is.
Van pilot tot productie: waar alles misgaat
Het opzetten van een pilot is relatief eenvoudig – kies een use case, kies een model, bereid data voor, vind een sponsor. Een systeem in productie draaien is een heel andere zaak.
Het verschil is als het verschil tussen in een zwembad springen en uit de stratosfeer springen, zoals Felix Baumgartner in 2012 deed. Dezelfde basisfysica, maar compleet andere omstandigheden – en heel andere gevolgen bij falen.
In productie gaat AI deel uitmaken van echte besluitvormingsprocessen, interacteert met klanten en creëert juridische en operationele gevolgen. Dat is waar de gaten beginnen te verschijnen – niet in het model, maar in hoe het wordt bestuurd.
Europa maakt dit zichtbaar eerder dan de meeste regio’s. Regels als de EU AI-wet, de AVG en de NIS2 vertragen de adoptie niet – ze laten zien of organisaties AI-systemen onder echte beperkingen kunnen laten draaien.
In 2025 gebruikten 55% van de grote EU-ondernemingen al AI. De adoptie gebeurt al op grote schaal. De uitdaging is wat er gebeurt na de implementatie.
Op dat moment beginnen basisoperationele vragen op te duiken. En vaak kan niemand ze beantwoorden: wie is verantwoordelijk voor AI-uitvoer en autonome beslissingen? Wat gebeurt er als het systeem onverwacht gedraagt? En wie zal het tegenhouden voordat de schade de media bereikt?
De aansprakelijkheid rust bij het bedrijf, niet bij de technologie. De chatbot van Air Canada gaf een klant onjuiste informatie over rouwverlof. De klant vertrouwde erop en kreeg later geen restitutie. Een tribunal oordeelde dat de luchtvaartmaatschappij verantwoordelijk was – de chatbot was geen afzonderlijk entiteit.
Hetzelfde probleem, vanuit een ander oogpunt: het McHire-systeem van McDonald’s onthulde gevoelige gegevens van bijna 64.000 sollicitanten. De oorzaak was geen geavanceerde aanval – het beheerderslogin gebruikte “admin” en “123456”. Het systeem leek geavanceerd. Het falen was elementair.
Wanneer je governance aan een live-systeem koppelt, is het al te laat. Het implementeren van een systeem is een technische beslissing. Het betrouwbaar laten draaien is een organisatorische beslissing. En dat is het deel dat de meeste bedrijven onderschatten.
Wie is eigenlijk verantwoordelijk voor AI-risico? Niemand.
Dit is het kernprobleem en, paradoxaal genoeg, het minst besproken. IT beheert de infrastructuur. Juridische zaken behandelen de compliance. Bedrijfsteams dringen use cases aan. Maar niemand is verantwoordelijk voor het eind-tot-eind AI-risico.
Dat creëert twee onmiddellijke problemen. De “go”-beslissing vertraagt – omdat niemand verantwoordelijkheid wil nemen. En de “stop”-beslissing vertraagt evenzeer – omdat niemand weet wie dat kan.
De gegevens laten dat zien. Minder dan 10% van de AI-use cases halen het van pilot tot productie, en de meeste organisaties hebben moeite om meetbare businessimpact te genereren. Tegelijkertijd zijn veel organisaties al AI aan het implementeren – maar volgens een governance-maturiteitsonderzoek had slechts 7% een goed gestructureerd en consistent toegepast governance in plaats.
Waarom gebeurt dit zo consistent? Omdat de meeste kaders en bedrijfsbeleid bepalen wat er moet gebeuren – niet wie verantwoordelijk is wanneer het ertoe doet. Wanneer een systeem onjuiste uitvoer begint te produceren om middernacht op een vrijdag, is de vraag niet theoretisch. Wie handelt? En wie heeft de autoriteit om te beslissen?
Dit wordt alleen maar erger met schaal. Een systeem kan informeel worden beheerd. Wanneer je er dertig hebt, fragmenteert de verantwoordelijkheid over teams, en niemand heeft het volledige beeld.
De Commonwealth Bank of Australia biedt een duidelijk voorbeeld. De bank verving 45 klantenservicemedewerkers met AI-stemrobots, verwachtend dat de vraag zou dalen. Dat gebeurde niet. De oproepen namen toe, managers stapten in om de overloop te behandelen, en de bank moest alle 45 medewerkers opnieuw in dienst nemen. Toen ze hierover werden ondervraagd, konden ze niet aantonen dat de automatisering de werklast had verlaagd.
Niemand had de aannamen geverifieerd voordat de implementatie plaatsvond. Niemand was verantwoordelijk voor het resultaat toen die aannamen faalden. Dat is wat een verantwoordelijkheidsvacuüm in de praktijk betekent.
Regels zijn niet genoeg. Je hebt een mechanisme nodig
De meeste organisaties ontbreken geen beleid. Ze ontbreken systemen die werken wanneer er iets misgaat.
Een beleid bepaalt wat er moet gebeuren. Een mechanisme bepaalt wat er echt gebeurt – wanneer een model onjuiste uitvoer produceert, wanneer een leverancier iets in de achtergrond verandert, of wanneer een systeem onverwacht gedraagt.
Die verschil wordt zichtbaar in productie – wanneer beslissingen onder echte omstandigheden moeten worden genomen.
Deze fouten volgen een consistent dynamiek. In elk geval verschijnen dezelfde operationele gaten – alleen in verschillende vormen.
Eigendom komt eerst
Elk geïmplementeerd AI-systeem heeft een duidelijk verantwoordelijke eigenaar nodig – één persoon, niet een team of afdeling, met de autoriteit om goed te keuren, te pauzeren en af te sluiten.
Zonder dat is geen snelle implementatie of veilige interventie mogelijk. Zoals in het voorbeeld van de Commonwealth Bank te zien is, leidt het ontbreken van duidelijke eigendom rechtstreeks tot operationeel falen.
Gegevens en juridische duidelijkheid ontbreken vaak
Veel systemen gaan live zonder gedocumenteerde gegevensstromen, een geverifieerde juridische basis of duidelijkheid over welke verplichtingen van toepassing zijn zodra het systeem in productie is.
De actie van de Italiaanse toezichthouder tegen DeepSeek in 2025 illustreert dit duidelijk. Het probleem was niet de kwaliteit van het model – het was de onmogelijkheid om uit te leggen hoe persoonlijke gegevens werden behandeld. Het resultaat was een plotselinge onderbreking van de dienst voor Europese gebruikers.
Testen weerspiegelt zelden de werkelijke wereld
Systemen worden vaak geëvalueerd op scenario’s waarin ze goed presteren, maar niet op de gevallen waarin falen het meest zou tellen.
De MyCity-chatbot is een duidelijk voorbeeld. Basisrandgevallen – rond arbeidswetgeving, huisdiscriminatie of betalingsregels – werden niet opgevangen voordat de implementatie plaatsvond. Zodra het systeem werd blootgesteld aan echte gebruikers, werden die fouten meteen publiek.
Testen is niet alleen over prestaties – het is over het identificeren van waar het systeem faalt voordat gebruikers, toezichthouders of journalisten dat doen.
Interventie is onduidelijk of te langzaam
Zelfs wanneer problemen zichtbaar zijn, is er vaak geen duidelijke trigger of autoriteit om het systeem te pauzeren of af te sluiten.
Zillow Offers demonstreert dit op grote schaal. Het systeem gebruikte een algoritme om huizen te prijzen en te kopen. Toen de markt in 2021 afkoelde, bleef het systeem huizen kopen tegen opgeblazen prijzen. Er was geen mechanisme om drift te detecteren en geen duidelijk beslissingspunt om te stoppen. Het resultaat was verliezen van meer dan 880 miljoen dollar en de sluiting van de hele afdeling.
Monitoring is niet eigendom
Monitoring wordt vaak teruggebracht tot dashboards, maar dat is niet wat falen voorkomt.
Wat ertoe doet, is gedefinieerde verantwoordelijkheid: wie signaleert, wat escalatie activeert en wie wordt verwacht te handelen.
Deloitte Australia laat zien wat er gebeurt wanneer dat ontbreekt. Een overheidsrapport bevatte gehallucineerde citaten en onjuiste juridische verwijzingen omdat niemand expliciet verantwoordelijk was voor het verifiëren van uitvoer voordat het werd afgeleverd. Het resultaat was een gedeeltelijke terugbetaling en reputatieschade.
Agentic AI: wat eraan komt, zal nog moeilijker zijn
Generatieve AI produceert uitvoer. Agentic AI neemt actie. Dat verandert het risico helemaal.
In plaats van één reactie om te evalueren, kan één instructie een keten van beslissingen over systemen activeren – API-aanroepen, gegevenstoegang, transacties, updates – vaak zonder menselijke interventie bij elke stap.
Wanneer er iets misgaat, is het probleem niet langer nauwkeurigheid. Het is traceerbaarheid. Welke stap veroorzaakte het probleem? Welke gegevens werden gebruikt? Wie autoriseerde de actie? In veel gevallen zijn die vragen moeilijk te beantwoorden na afloop.
Daar is waar de bestaande gaten kritiek worden. Onduidelijke eigendom, zwakke monitoring en gebrek aan interventie zijn niet alleen aanwezig – ze verergeren. Een defect antwoord kan worden gecorrigeerd. Een defecte actie kan gevolgen creëren voordat iemand het merkt.
Vroege signalen wijzen al in deze richting. Gartner schat dat meer dan 40% van de agentic AI-projecten tegen het einde van 2027 zal worden geannuleerd – niet vanwege modelbeperkingen, maar omdat organisaties moeite hebben om kosten, risico’s en resultaten onder controle te houden. Dat is hetzelfde patroon dat we zien bij generatieve AI na implementatie. Alleen met hogere inzet.
Toezichthouders reageren al met een eenvoudig principe: automatisering neemt geen verantwoordelijkheid weg. Voor organisaties creëert dit een duidelijke implicatie: als eigendom en controle onduidelijk zijn vandaag, zal het opschalen naar agentic-systemen het probleem niet oplossen. Het zal het verergeren.
Beheer het – of verlies het
AI is niet langer de beperking. Modellen zijn breed beschikbaar, capabel en steeds meer gemeengoed. De echte differentiator is niet of een organisatie AI kan bouwen – maar of het het betrouwbaar kan laten draaien zodra het live is.
Daar gebeuren de meeste fouten – in hoe systemen worden gerund, niet hoe ze worden gebouwd. De organisaties die slagen, zullen niet degene zijn met de meest geavanceerde modellen. Ze zullen degene zijn met de duidelijkste operationele structuren eromheen.
Dit kan direct worden getest. Neem uw belangrijkste AI-systeem en beantwoord drie vragen:
- Wie kan het afsluiten?
- Hoe weet je wanneer het faalt?
- Wat gebeurt er wanneer het faalt?
Als die antwoorden onduidelijk zijn, is het systeem niet klaar voor productie.
Het model kan dat wel zijn. De organisatie niet.












