Connect with us

Kunstmatige intelligentie

Waarom Agentic AI nog steeds faalt in de echte wereld

mm

De afgelopen jaren hebben we agentic AI-systemen gezien die indrukwekkende demonstraties geven. Ze schrijven code die testcases doorstaat. Ze zoeken op het web en beantwoorden complexe vragen. Ze navigeren door software-interfaces met opmerkelijke nauwkeurigheid. Elke conferentiepresentatie, elke persbericht, elke benchmarkrapport benadrukt de opkomst van agentic AI.

Maar er is een probleem dat schuilgaat onder deze indrukwekkende demonstraties. Wanneer deze systemen van gecontroleerde omgevingen naar echte wereld-implementatie gaan, falen ze vaak op manieren die benchmarks nooit voorspelden. De codegenerator die perfect werkte op 100 gecuratede voorbeelden, begint fouten te produceren op edgecases die hij nooit eerder heeft gezien. De webzoekagent die 85% nauwkeurigheid bereikte in het lab, haalt steeds irrelevantere resultaten op naarmate de gebruikersgedrag verandert. Het planningsysteem dat tien API-aanroepen perfect coördineerde tijdens het testen, breekt wanneer het een onverwachte API-responsformaat tegenkomt.

Deze systemen falen niet omdat ze geen intelligentie hebben, maar omdat ze geen adaptatie hebben. Het probleem ligt in hoe AI-agents leren en zich aanpassen. Terwijl state-of-the-art-systemen zijn gebouwd op massive foundation models, is brute intelligentie alleen niet genoeg. Om gespecialiseerde taken uit te voeren, moet een agent in staat zijn om zich aan te passen. Huidige agentic AI-systemen kunnen dit niet vanwege structurele beperkingen in hun ontwerp en training. In dit artikel onderzoeken we deze beperkingen en waarom ze blijven bestaan.

De illusie van capaciteit in demos

De gevaarlijkste falenmodus in moderne AI is de illusie van competentie. Korte demonstraties verhullen vaak de echte complexiteit. Ze werken met schone datasets, voorspelbare API’s en smalle taakscopes. Productieomgevingen zijn het tegenovergestelde. Databases zijn onvolledig, schemas veranderen zonder waarschuwing, services tijdens timeouts, machtigingen conflicteren en gebruikers stellen vragen die de onderliggende veronderstellingen van het systeem schenden.

Dit is waar productiecomplexiteit aanzienlijk toeneemt. Een enkele edgecase die één keer in een demo verschijnt, kan duizenden keren per dag in implementatie verschijnen. Kleine probabilistische fouten accumuleren. Een agent die “meestal goed” is, wordt snel onbetrouwbaar in echte operaties.

Aan de basis van het probleem ligt de afhankelijkheid van bevroren foundation models. Deze modellen excelleren in patroonvoltooiing, maar agentic gedrag is sequentieel en staatvol. Elke actie is afhankelijk van het resultaat van de vorige. In dergelijke omgevingen neemt statistische onzekerheid snel toe. Een kleine fout vroeg in een taak kan zich ontwikkelen tot lussen, doodlopende wegen of destructieve acties later. Dit is waarom agents die capabel lijken tijdens evaluatie snel afnemen zodra ze zijn geïmplementeerd.

Het probleem is niet een ontbrekende functie. Het is dat general-purpose modellen worden gevraagd om te gedragen als domeinspecialisten zonder dat ze mogen leren van hun omgeving.

Van algemene intelligentie naar gesitueerde competentie

Foundation models zijn generalisten door ontwerp. Ze coderen brede kennis en flexibele redeneerpatronen. Productie-agents moeten echter situational zijn. Ze moeten de specifieke regels, beperkingen en falenmodi van een bepaalde organisatie en haar tools begrijpen. Zonder dit lijken ze op iemand die elke handleiding heeft gelezen, maar nooit een dag heeft gewerkt.

Het overbruggen van deze kloof vereist een heroverweging van adaptatie zelf. Huidige methoden vallen in twee brede, gebrekkige kampen: het opnieuw trainen van de core AI-agent zelf, of het bijstellen van de externe tools die het gebruikt. Elke aanpak lost één probleem op, maar creëert andere. Dit laat ons met systemen die te stijf, te duur of te onstabiel zijn voor productieomgevingen waar consistentie en kosten ertoe doen.

De monolithische agent-val

De eerste aanpak, Agent Adaptation, probeert de core LLM slimmer te maken in het gebruik van tools. Het leert de AI de specifieke vaardigheden die het nodig heeft om de tools te gebruiken. Onderzoekers categoriseren dit verder in twee klassen. Sommige methoden trainen de agent met directe feedback van tools, zoals een codecompiler of een zoekmachine. Andere trainen het op basis van de correctheid van de eindoutput, zoals een goed of fout antwoord.

Systemen zoals DeepSeek-R1 en Search-R1 laten zien dat agents complexe, multi-stapstrategieën voor toolgebruik kunnen leren. Echter, deze kracht komt met een aanzienlijke kosten. Het trainen van miljardparametermodellen is computationeel extravagant. Meer kritisch, het creëert een stijve, broze intelligentie. Door de kennis van de agent en de toolgebruiksregels te combineren, maakt deze aanpak updates langzaam, riskant en ongeschikt voor snel veranderende bedrijfsbehoeften. Het aanpassen van de agent aan een nieuwe taak of tool riskeert “catastrophical forgetting“, waarbij het eerder verworven vaardigheden verliest. Het is alsof je een hele fabrieksassemblagelijn opnieuw moet opbouwen elke keer dat je een nieuw widget wilt toevoegen.

Het fragiele toolbox-probleem

Het erkennen van deze beperkingen, is de tweede belangrijke aanpak, Tool Adaptation, laat de core agent bevroren en optimaliseert in plaats daarvan de tools in zijn ecosysteem. Dit is modulair en kosteneffectief. Sommige tools worden generisch getraind, zoals een standaard zoekopvragers, en ingeplugd. Andere worden specifiek afgestemd op een bevroren agent, leren van zijn output om betere helpers te worden.

Deze paradigma houdt immense beloften voor efficiëntie in. Een baanbrekend onderzoek van een systeem genaamd s3 toonde het potentieel van deze aanpak. Het trainde een kleine, gespecialiseerde “zoeker” tool om een bevroren LLM te ondersteunen, en bereikte prestaties die vergelijkbaar waren met een volledig opnieuw getrainde agent zoals Search-R1, maar gebruikte 70 keer minder trainingsdata. De intuïtie is dat waarom een genie-fysicus opnieuw moet leren hoe hij een bibliotheekcatalogus gebruikt? In plaats daarvan train je een betere bibliothecaris die de fysicus’ behoeften begrijpt.

Echter, het toolbox-model heeft zijn eigen beperking. De mogelijkheden van het hele systeem zijn uiteindelijk beperkt door de bevroren LLM’s inherente redenering. Je kunt een scherper scalpel geven aan een chirurg, maar je kunt een niet-chirurg geen hartoperatie laten uitvoeren. Bovendien wordt het orkestreren van een groeiende set aan adaptieve tools een complexe integratie-uitdaging. Tool A kan optimaliseren voor één metriek die de invoereisen van Tool B schendt. De prestaties van het systeem zijn dan afhankelijk van een fragiele balans tussen de onderling verbonden componenten.

De co-adaptatie-uitdaging

Dit brengt ons bij de kern van het adaptatie-deficiet in de huidige agentic AI-paradigma’s. We passen ofwel de agent of de tools aan, maar niet beide op een gesynchroniseerde, stabiele manier. Productieomgevingen zijn niet statisch. Nieuwe data, nieuwe gebruikersvereisten en nieuwe tools komen constant op. Een AI-systeem dat niet soepel en veilig kan evolueren, zowel zijn “brein” als zijn “handen”, zal onvermijdelijk falen.

Onderzoekers identificeren deze behoefte aan co-adaptatie als de volgende frontier. Echter, het is een complexe uitdaging. Als zowel de agent als zijn tools tegelijk leren, wie krijgt de credits of de schuld voor falen? Hoe voorkom je een onstabiele feedbacklus waarin de agent en de tools elkaars veranderingen najagen zonder de algehele prestaties te verbeteren? Vroege pogingen hiertoe, zoals het behandelen van de agent-toolrelatie als een coöperatief multi-agent systeem, onthullen de moeilijkheid. Zonder robuuste oplossingen voor credits toewijzing en stabiliteit, blijft zelfs onze meest geavanceerde agentic AI een set van indrukwekkende maar losse capaciteiten.

Geheugen als een eerste-klasse systeem

Een van de meest zichtbare tekenen van het adaptatie-deficiet is statisch geheugen. Veel geïmplementeerde agents verbeteren niet over tijd. Ze herhalen dezelfde fouten omdat ze geen ervaring kunnen internaliseren. Elke interactie wordt behandeld alsof het de eerste was.

Productieomgevingen eisen adaptief geheugen. Agents moeten episodische herinnering hebben om lange-termijntaken aan te pakken, strategisch geheugen om plannen te verfijnen en operationeel geheugen om het herhalen van fouten te voorkomen. Zonder dit voelen agents fragiel en onbetrouwbaar.

Geheugen moet worden behandeld als een afstembaar onderdeel, niet als een passieve log. Systemen die ervaring herzien, van fouten leren en hun gedrag aanpassen, zijn veel stabielere systemen.

Nieuwe risico’s van adaptieve systemen

Adaptatie introduceert zijn eigen risico’s. Agents kunnen leren om metrics te optimaliseren in plaats van doelen, een fenomeen bekend als parasitaire adaptatie. Ze kunnen succesvol lijken terwijl ze de onderliggende doelstelling ondermijnen. In multi-agent systemen kunnen gecompromitteerde tools agents manipuleren door subtiele prompt-injectie of misleidende data. Om deze risico’s te mitigeren, hebben agents robuuste verificatiemechanismen nodig. Acties moeten getest, omkeerbaar en auditeerbaar zijn. Veiligheidslagen tussen agents en tools garanderen dat fouten niet stilzwijgend worden doorgegeven.

De bottom line

Voor Agentic AI om te werken in de echte wereld, kan het niet alleen intelligent zijn; het moet ook in staat zijn om zich aan te passen. De meeste agents falen vandaag omdat ze “bevroren” in de tijd zijn, terwijl de echte wereld complex en constant verandert. Als een AI geen geheugen kan updaten en van zijn fouten kan leren, zal het uiteindelijk falen. Betrouwbaarheid komt niet van een perfecte demo; het komt van de capaciteit om zich aan te passen.

Dr. Tehseen Zia is een gewaardeerd associate professor aan de COMSATS University Islamabad, met een PhD in AI van de Vienna University of Technology, Oostenrijk. Hij specialiseert zich in Artificial Intelligence, Machine Learning, Data Science en Computer Vision, en heeft significante bijdragen geleverd met publicaties in gerenommeerde wetenschappelijke tijdschriften. Dr. Tehseen heeft ook verschillende industriële projecten geleid als hoofdonderzoeker en heeft gediend als AI-consultant.