Verbind je met ons

Artificial Intelligence

Waarom AI met een agent nog steeds problemen ondervindt in de praktijk

mm

De afgelopen jaren hebben we gezien hoe AI-systemen met een agent-achtige structuur indrukwekkende prestaties leveren. Ze schrijven code die testcases doorstaat. Ze doorzoeken het web en beantwoorden complexe vragen. Ze navigeren met opmerkelijke nauwkeurigheid door software-interfaces. Elke presentatie op conferenties, elk persbericht, elk benchmarkrapport benadrukt de opkomst van AI met een agent-achtige structuur.

Maar achter deze indrukwekkende demonstraties schuilt een probleem. Wanneer deze systemen vanuit een gecontroleerde omgeving in de praktijk worden ingezet, vertonen ze vaak problemen. mislukken Op manieren die benchmarks nooit hadden voorspeld. De codegenerator die perfect werkte op 100 zorgvuldig geselecteerde voorbeelden, begint fouten te produceren bij uitzonderlijke gevallen die hij nog nooit heeft gezien. De webzoekmachine die in het lab een nauwkeurigheid van 85% behaalde, levert steeds irrelevantere resultaten op naarmate het gebruikersgedrag verandert. Het planningssysteem dat tijdens het testen tien API-aanroepen feilloos coördineerde, loopt vast wanneer het een onverwacht API-antwoordformaat tegenkomt.

Deze systemen falen niet omdat ze intelligentie missen, maar omdat ze gebrek hebben aan... aanpassingHet probleem zit hem in hoe AI-agenten leren en zich aanpassen. Hoewel geavanceerde systemen gebouwd zijn op enorme basismodellen, is pure intelligentie alleen niet genoeg. Om gespecialiseerde taken uit te voeren, moet een agent zich kunnen aanpassen. De huidige AI-systemen kunnen dit niet vanwege structurele beperkingen in hun ontwerp en training. In dit artikel onderzoeken we deze beperkingen en waarom ze blijven bestaan.

De illusie van bekwaamheid in demonstraties

De gevaarlijkste valkuil in moderne AI is de illusie van competentie. Korte demonstraties verbergen vaak de werkelijke complexiteit. Ze werken met schone datasets, voorspelbare API's en een beperkte taakomvang. Productieomgevingen zijn het tegenovergestelde. Databases zijn onvolledig, schema's veranderen zonder waarschuwing, services lopen vast, machtigingen conflicteren en gebruikers stellen vragen die in strijd zijn met de onderliggende aannames van het systeem.

Dit is waar de complexiteit van de productie aanzienlijk toeneemt. Een enkel uitzonderlijk geval dat slechts één keer in een demo voorkomt, kan in de praktijk duizenden keren per dag optreden. Kleine, waarschijnlijke fouten stapelen zich op. Een agent die "meestal gelijk heeft" wordt in de praktijk al snel onbetrouwbaar.

De kern van het probleem ligt in de afhankelijkheid van modellen met een bevroren basis. Deze modellen blinken uit in het aanvullen van patronen, maar agentisch gedrag is sequentieel en afhankelijk van de uitkomst van de vorige actie. In dergelijke situaties neemt de statistische onzekerheid snel toe. Een kleine fout aan het begin van een taak kan later leiden tot lussen, doodlopende wegen of destructieve acties. Dit is de reden waarom agenten die tijdens de evaluatie capabel lijken, vaak snel achteruitgaan zodra ze worden ingezet.

Het probleem is niet een ontbrekende functionaliteit. Het probleem is dat van algemene modellen wordt verwacht dat ze zich gedragen als domeinspecialisten, zonder dat ze de mogelijkheid krijgen om van hun omgeving te leren.

Van algemene intelligentie naar contextuele competentie

Fundamentele modellen zijn per definitie generalisten. Ze bevatten brede kennis en flexibele redeneerpatronen. Productieagenten daarentegen moeten situationeel zijn. Ze moeten de specifieke regels, beperkingen en faalmodi van een bepaalde organisatie en haar tools begrijpen. Zonder dit lijken ze op iemand die alle handleidingen heeft gelezen, maar nog nooit een dag in de praktijk heeft gewerkt.

Om deze kloof te overbruggen, is het nodig om het concept van aanpassing zelf opnieuw te bekijken. De huidige methoden vallen in twee brede categorieën: gebrekkige kampenDit kan door de kern van de AI-agent zelf opnieuw te trainen of door de externe tools die deze gebruikt aan te passen. Elke aanpak lost één probleem op, maar creëert er andere. Dit leidt tot systemen die ofwel te rigide, te duur of te instabiel zijn voor productieomgevingen waar consistentie en kosten van belang zijn.

De Monolithische Agentval

De eerste benadering, Agent Adaptation, probeert de kern van het LLM slimmer te maken in het gebruik van tools. Het leert AI in feite de specifieke vaardigheden die nodig zijn om de tools te gebruiken. Onderzoekers categoriseren dit verder in twee categorieën. Sommige methoden trainen de agent met behulp van directe feedback van tools, zoals het succes van een codecompiler of de resultaten van een zoekmachine. Andere methoden trainen de agent op basis van de correctheid van de uiteindelijke output, zoals een juist of onjuist antwoord.

Systemen zoals DeepSeek-R1 en Zoek-R1 Uit onderzoek blijkt dat agenten complexe, meerstapsstrategieën voor het gebruik van tools kunnen leren. Deze kracht gaat echter gepaard met aanzienlijke kosten. Het trainen van modellen met miljarden parameters is rekenkundig gezien buitengewoon ve veeleisend. Nog belangrijker is dat het een rigide, fragiele intelligentie creëert. Door de kennis van de agent te combineren met regels voor het gebruik van tools, maakt deze aanpak updates traag, riskant en ongeschikt voor snel veranderende bedrijfsbehoeften. Het aanpassen van de agent aan een nieuwe taak of tool brengt het risico met zich mee dat...catastrofaal vergeten"waardoor eerder verworven vaardigheden verloren gaan. Het is alsof je een complete fabrieksassemblagelijn opnieuw moet opbouwen telkens als je een nieuw onderdeel wilt toevoegen."

Het probleem van de fragiele gereedschapskist

Rekening houdend met deze beperkingen, is de tweede belangrijke aanpak, GereedschapsaanpassingDit laat de kernagent bevroren en optimaliseert in plaats daarvan de tools in het ecosysteem. Dit is modulairder en kosteneffectiever. Sommige tools worden generiek getraind, zoals een standaard zoekalgoritme, en vervolgens geïntegreerd. Andere tools worden specifiek afgestemd om een ​​bevroren agent aan te vullen, waarbij ze leren van de output ervan om betere helpers te worden.

Dit paradigma biedt enorme mogelijkheden voor efficiëntie. Een baanbrekende studie van een systeem genaamd s3 Het potentieel van deze aanpak werd aangetoond. Er werd een kleine, gespecialiseerde "zoektool" getraind ter ondersteuning van een bevroren LLM, die prestaties behaalde die vergelijkbaar waren met een volledig opnieuw getrainde agent zoals Search-R1, maar met 70 keer minder trainingsdata. De gedachte hierachter is: waarom zou je een geniale natuurkundige opnieuw leren hoe hij een bibliotheekcatalogus moet gebruiken? Je kunt beter een betere bibliothecaris trainen die de behoeften van de natuurkundige begrijpt.

Het toolboxmodel heeft echter zijn eigen beperkingen. De mogelijkheden van het hele systeem worden uiteindelijk beperkt door de inherente redenering van het bevroren LLM-model. Je kunt een chirurg een scherper scalpel geven, maar je kunt een niet-chirurg geen hartoperatie laten uitvoeren. Bovendien wordt het coördineren van een groeiend aantal adaptieve tools een complexe integratie-uitdaging. Tool A kan optimaliseren voor een bepaalde parameter die niet voldoet aan de inputvereisten van Tool B. De prestaties van het systeem zijn dan afhankelijk van een fragiel evenwicht tussen de onderling verbonden componenten.

De uitdaging van co-adaptatie

Dit brengt ons bij de kern van het aanpassingsprobleem in de huidige agentische AI-paradigma's. We passen óf de agent óf de tools aan, maar niet beide tegelijk op een gesynchroniseerde, stabiele manier. Productieomgevingen zijn niet statisch. Nieuwe data, nieuwe gebruikersvereisten en nieuwe tools duiken voortdurend op. Een AI-systeem dat zijn "brein" en zijn "handen" niet soepel en veilig kan ontwikkelen, zal onvermijdelijk falen.

Onderzoekers identificeren Deze behoefte aan co-adaptatie is de volgende grens. Het is echter een complexe uitdaging. Als zowel de agent als zijn tools tegelijkertijd leren, wie dan? krijgt Wie krijgt de eer of wie de schuld van het falen? Hoe voorkom je een instabiele feedbacklus waarin de agent en de tools elkaars veranderingen najagen zonder de algehele prestaties te verbeteren? Eerdere pogingen hiertoe, zoals het behandelen van de relatie tussen agent en tool als een coöperatief multi-agentsysteemDit onthult de moeilijkheid. Zonder robuuste oplossingen voor krediettoewijzing en stabiliteit blijft zelfs onze meest geavanceerde AI een verzameling indrukwekkende, maar losgekoppelde mogelijkheden.

Geheugen als een eersteklas systeem

Een van de meest zichtbare tekenen van het aanpassingstekort is statisch geheugen. Veel ingezette agenten verbeteren niet in de loop der tijd. Ze herhalen dezelfde fouten omdat ze ervaringen niet kunnen internaliseren. Elke interactie wordt behandeld alsof het de eerste is.

Productieomgevingen vereisen adaptief geheugenAgenten hebben episodisch geheugen nodig om taken met een lange termijn te kunnen uitvoeren, strategisch geheugen om plannen te verfijnen en operationeel geheugen om herhaling van fouten te voorkomen. Zonder dit voelen agenten zich kwetsbaar en onbetrouwbaar.

Geheugen moet worden beschouwd als een instelbaar onderdeel, niet als een passief logboek. Systemen die ervaringen analyseren, leren van fouten en hun gedrag daarop aanpassen, zijn veel stabieler.

Nieuwe risico's van adaptieve systemen

Aanpassing brengt eigen risico's met zich mee. Agenten kunnen leren om meetwaarden te optimaliseren in plaats van doelen, een fenomeen dat bekend staat als parasitaire aanpassingZe lijken misschien succesvol, terwijl ze het onderliggende doel ondermijnen. In multi-agentsystemen kunnen gecompromitteerde tools agenten manipuleren door subtiele snelle injectie of misleidende gegevens. Om deze risico's te beperken, hebben agenten robuuste verificatiemechanismen nodig. Handelingen moeten testbaar, omkeerbaar en controleerbaar zijn. Veiligheidslagen tussen agenten en tools zorgen ervoor dat fouten zich niet ongemerkt verspreiden.

The Bottom Line

Om Agentic AI in de echte wereld te laten functioneren, moet het niet alleen intelligent zijn, maar ook in staat zijn zich aan te passen. De meeste agents falen tegenwoordig omdat ze "bevroren" zijn in de tijd, terwijl de echte wereld complex is en constant verandert. Als een AI zijn geheugen niet kan bijwerken en niet kan leren van zijn fouten, zal hij uiteindelijk falen. Betrouwbaarheid komt niet voort uit een perfecte demonstratie, maar uit het vermogen om zich aan te passen.

 

Dr. Tehseen Zia is een vaste universitair hoofddocent aan de COMSATS Universiteit Islamabad en heeft een doctoraat in AI behaald aan de Technische Universiteit van Wenen, Oostenrijk. Hij is gespecialiseerd in kunstmatige intelligentie, machinaal leren, datawetenschap en computervisie en heeft belangrijke bijdragen geleverd met publicaties in gerenommeerde wetenschappelijke tijdschriften. Dr. Tehseen heeft ook diverse industriële projecten geleid als hoofdonderzoeker en als AI-consultant.