Kunstig intelligens
Hvorfor Agentic AI stadig fejler i den virkelige verden

For de sidste få år har vi set agentic AI-systemer generere imponerende demonstrationer. De skriver kode, der passerer testcases. De søger på internettet og besvarer komplekse spørgsmål. De navigerer i softwaregrænseflader med bemærkelsesværdig nøjagtighed. Hver konferencepræsentation, hver pressemeddelelse, hver benchmark-rapport fremhæver opkomsten af agentic AI.
Men der er et problem, der gemmer sig under disse imponerende demonstrationer. Når disse systemer flyttes fra kontrollerede miljøer til virkelige implementeringer, fejler de ofte i måder, som benchmarks aldrig havde forudset. Kodegeneratoren, der fungerede perfekt på 100 kuraterede eksempler, begynder at producere fejl på edge-cases, den aldrig havde set. Søgeagenten, der opnåede 85% nøjagtighed i laboratoriet, henter stadig mere irrelevante resultater, efterhånden som brugeradfærd ændrer sig. Planlægningsystemet, der koordinerede ti API-opkald fejlfrit under test, bryder sammen, når det møder et uventet API-svarformat.
Disse systemer fejler ikke, fordi de mangler intelligens, men fordi de mangler tilpasning. Problemet ligger i, hvordan AI-agenter lærer og tilpasser sig. Mens toppmoderne systemer er bygget på massive grundmodeller, er ren intelligens alene ikke nok. For at udføre specialiserede opgaver skal en agent være i stand til at tilpasse sig. Nuværende agentic AI-systemer kan ikke gøre dette på grund af strukturelle begrænsninger i deres design og træning. I denne artikel udforsker vi disse begrænsninger og hvorfor de består.
Illusionen om evne i demoer
Den farligste fejltype i moderne AI er illusionen om kompetence. Korte demonstrationer skjuler ofte den virkelige kompleksitet. De opererer på rene datasæt, forudsigelige API’er og snævre opgaveområder. Produktionsmiljøer er det modsatte. Databaser er ufuldstændige, skemaer ændrer sig uden varsel, tjenester timeout, tilladelser konflikt, og brugere stiller spørgsmål, der krænker systemets underliggende antagelser.
Her er, hvor produktionskompleksiteten øges betydeligt. En enkelt edge-case, der optræder én gang i en demo, kan optræde tusinder af gange om dagen i implementering. Små probabilistiske fejl akkumulerer. En agent, der er “næsten rigtig”, bliver hurtigt ureliable i virkelige operationer.
I kerneproblemet ligger afhængigheden af frosne grundmodeller. Disse modeller excellerer i mønstergennemførelse, men agentic adfærd er sekventiel og tilstandsbaseret. Hver handling afhænger af resultatet af den foregående. I sådanne indstillinger akkumulerer statistisk usikkerhed hurtigt. En mindre fejl tidligt i en opgave kan kaskade til løkker, døde ender eller destruktive handlinger senere. Dette er hvorfor agenter, der ser kompetente ud under evaluering, ofte degraderer hurtigt, når de er implementeret.
Problemet er ikke et manglende træk. Det er, at generelle modeller bedes om at opføre sig som domæneeksperter uden at blive tilladt at lære fra deres omgivelser.
Fra generel intelligens til situational kompetence
Grundmodeller er generalister af design. De kodificerer bred viden og fleksible resonemønstre. Produktionsagenter skal dog være situationelle. De skal forstå de specifikke regler, begrænsninger og fejlmodi af en bestemt organisation og dens værktøjer. Uden dette ligner de en person, der har læst alle manualer, men aldrig har arbejdet en dag på jobbet.
At brokke dette gap kræver en omdefinering af tilpasning. Nuværende metoder falder i to brede, fejlbehæftede lejre: at genskole core AI-agenten selv eller at justere de eksterne værktøjer, det bruger. Hver tilgang løser ét problem, mens den skaber andre. Dette efterlader os med systemer, der er enten for stive, for dyre eller for ustabile til produktionsmiljøer, hvor konsistens og omkostninger betyder noget.
Den monolitiske agent-fælde
Den første tilgang, Agent Tilpasning, forsøger at gøre core LLM smartere i brug af værktøjer. Det lærer essentiellement AI de specifikke færdigheder, det behøver for at bruge værktøjerne. Forskere kategoriserer dette yderligere i to klasser. Nogle metoder træner agenten ved hjælp af direkte feedback fra værktøjer, som en kodekompilators succes eller en søgemaskines resultater. Andre træner det baseret på korrektheden af den endelige outputs ret eller forkert svar.
Systemer som DeepSeek-R1 og Search-R1 viser, at agenter kan lære komplekse, multi-trins strategier for værktøjsbrug. Men denne kraft kommer med en betydelig omkostning. At træne billion-parameter modeller er computermæssigt ekstravagant. Endnu mere kritisk skaber det en stiv, skrøbelig intelligens. Ved at kombinere agentens viden og værktøjsregler gør denne tilgang opdateringer langsomme, risikable og uegnet til hurtigt skiftende forretningsbehov. At tilpasse agenten til en ny opgave eller værktøj risikerer “katastrofalt glemsomhed“, hvor det mister tidligere mestrede færdigheder. Det er som at skulle genopbygge en hel fabriksmontage linje hver gang, du vil tilføje et nyt widget.
Det skrøbelige værktøjsproblem
At erkende disse begrænsninger, den anden store tilgang, Værktøjs Tilpasning, lader core-agenten være frosset og optimiserer i stedet værktøjerne i dets økosystem. Dette er mere modulært og omkostningseffektivt. Nogle værktøjer trænes generisk, som en standard søgemaskine, og indsættes. Andre er specifikt afstemt til at supplere en frosset agent, og lærer af dets output for at blive bedre hjælpere.
Denne paradigme indeholder enorme løfter for effektivitet. En banebrydende studie af et system kaldet s3 demonstrerede potentialet for denne tilgang. Det trænede et lille, specialiseret “søger”-værktøj til at støtte en frosset LLM, og opnåede en præstation, der var sammenlignelig med en fuldt genskole agent som Search-R1, men brugte 70 gange færre træningsdata. Intuitionen er, at hvorfor genskole en genial fysiker i, hvordan man bruger en bibliotekskatalog? I stedet træn en bedre bibliotekar, der forstår fysikernes behov.
Men værktøjsmodellen har sin egen begrænsning. Systemets evner er ultimativt begrænset af den frosne LLM’s indre resonemønstre. Du kan give en skarpere skalpel til en kirurg, men du kan ikke gøre en ikke-kirurg udføre hjertekirurgi. Desuden bliver orkestreringen af en voksende samling af adaptive værktøjer en kompleks integrationsudfordring. Værktøj A kan optimere for en metrik, der krænker Værktøj B’s inputkrav. Systemets præstation afhænger derefter af en skrøbelig balance mellem forbundne komponenter.
Co-tilpasningsudfordringen
Dette bringer os til kerneproblemet med tilpasningsdeficit i nuværende agentic AI-paradigmer. Vi tilpasser enten agenten eller værktøjerne, men ikke begge på en synkron og stabil måde. Produktionsmiljøer er ikke statiske. Nye data, nye brugerkrav og nye værktøjer opstår konstant. Et AI-system, der ikke kan udvikle både sin “hjerne” og sine “hænder” smidigt og sikkert, vil uundgåeligt fejle.
Forskere identificerer dette behov for co-tilpasning som den næste front. Men det er en kompleks udfordring. Hvis både agenten og dets værktøjer lærer samtidigt, hvem får kreditten eller skylden for fejl? Hvordan forhindrer man en ustabil feedback-løkke, hvor agenten og værktøjerne jagter hinandens ændringer uden at forbedre den overordnede præstation? Tidlige forsøg på dette, som at behandle agent-værktøjsforholdet som et samarbejdende multi-agent system, afslører sværheden. Uden robuste løsninger for kredittildeling og stabilitet forbliver selv vores mest avancerede agentic AI en samling imponerende, men ikke forbundne evner.
Hukommelse som et førsteklassesystem
En af de mest synlige tegn på tilpasningsdeficitet er statisk hukommelse. Mange implementerede agenter forbedrer sig ikke over tid. De gentager de samme fejl, fordi de ikke kan internalisere erfaring. Hver interaktion behandles, som om det var den første.
Produktionsmiljøer kræver adaptiv hukommelse. Agenter har brug for episodisk genkaldelse til at håndtere lange horizonopgaver, strategisk hukommelse til at forfine planer, og operativ hukommelse til at undgå at gentage fejl. Uden dette føles agenterne skrøbelige og upålidelige.
Hukommelse skal behandles som en justerbar komponent, ikke en passiv log. Systemer, der gennemgår erfaring, lærer af fejl og justerer deres adfærd, er langt mere stabile.
Nye risici fra adaptive systemer
Tilpasning introducerer sine egne risici. Agenter kan lære at optimere målinger i stedet for mål, en fænomen kendt som parasitær tilpasning. De kan synes succesfulde, mens de undergraver det underliggende mål. I multi-agent systemer kan kompromitterede værktøjer manipulere agenter gennem subtile prompt-injektion eller misvisende data. For at mindske disse risici kræver agenter robuste verificeringsmekanismer. Handlinger skal være testbare, omvendelige og auditable. Sikkerhedslag mellem agenter og værktøjer sikrer, at fejl ikke propagerer stille.
Bottom Line
For Agentic AI til at fungere i den virkelige verden, kan det ikke bare være intelligent; det må være i stand til at tilpasse sig. De fleste agenter fejler i dag, fordi de er “frosne” i tid, mens den virkelige verden er kompleks og konstant skiftende. Hvis en AI ikke kan opdatere sin hukommelse og forbedre sig fra fejl, vil den til sidst fejle. Pålidelighed kommer ikke fra en perfekt demo; det kommer fra evnen til at tilpasse sig.












