Künstliche Intelligenz
Warum Agentic AI in der realen Welt noch immer versagt

Seit einigen Jahren beobachten wir, wie Agentic-AI-Systeme beeindruckende Demonstrationen erzeugen. Sie schreiben Code, der Testfälle besteht. Sie durchsuchen das Web und beantworten komplexe Fragen. Sie navigieren durch Software-Oberflächen mit bemerkenswerter Genauigkeit. Jede Konferenzpräsentation, jeder Pressemitteilung, jeder Benchmark-Bericht hebt die Entstehung von Agentic AI hervor.
Es gibt jedoch ein Problem, das sich unter diesen beeindruckenden Demonstrationen verbirgt. Wenn diese Systeme aus kontrollierten Umgebungen in die reale Welt übergehen, versagen sie oft auf eine Weise, die Benchmarks nie vorhergesagt haben. Der Code-Generator, der auf 100 kuratierten Beispielen perfekt funktioniert, beginnt Fehler zu produzieren, wenn er auf Randfälle stößt, die er noch nie gesehen hat. Der Web-Suchagent, der im Labor 85% Genauigkeit erreicht, liefert immer weniger relevante Ergebnisse, wenn sich das Nutzerverhalten ändert. Das Planungssystem, das während des Testens zehn API-Aufrufe fehlerfrei koordiniert, bricht zusammen, wenn es auf ein unerwartetes API-Antwortformat stößt.
Diese Systeme versagen nicht, weil ihnen die Intelligenz fehlt, sondern weil ihnen die Anpassungsfähigkeit fehlt. Das Problem liegt in der Art und Weise, wie AI-Agenten lernen und sich anpassen. Während bahnbrechende Systeme auf massiven Grundmodellen aufbauen, reicht reine Intelligenz allein nicht aus. Um spezielle Aufgaben auszuführen, muss ein Agent in der Lage sein, sich anzupassen. Aktuelle Agentic-AI-Systeme können dies nicht, weil sie strukturelle Einschränkungen in ihrer Konstruktion und Ausbildung haben. In diesem Artikel untersuchen wir diese Einschränkungen und warum sie bestehen.
Die Illusion der Fähigkeit in Demos
Der gefährlichste Ausfallmodus in moderner AI ist die Illusion der Kompetenz. Kurze Demonstrationen verbergen oft die wahre Komplexität. Sie operieren auf sauberen Datensätzen, vorhersehbaren APIs und engen Aufgabenbereichen. Produktionsumgebungen sind das Gegenteil. Datenbanken sind unvollständig, Schemata ändern sich ohne Vorwarnung, Dienste timeouten, Berechtigungen konfliktieren und Benutzer stellen Fragen, die die zugrunde liegenden Annahmen des Systems verletzen.
Dies ist der Punkt, an dem die Produktionskomplexität erheblich zunimmt. Ein einzelner Randfall, der in einer Demo einmal auftritt, kann in der Produktion täglich tausendfach auftreten. Kleine probabilistische Fehler kumulieren. Ein Agent, der “meistens richtig” ist, wird schnell unzuverlässig in realen Operationen.
Im Kern des Problems liegt die Abhängigkeit von festen Grundmodellen. Diese Modelle sind hervorragend darin, Muster zu vervollständigen, aber agentes Verhalten ist sequenziell und zustandsbehaftet. Jede Aktion hängt vom Ergebnis der vorherigen ab. In solchen Umgebungen kumuliert sich die statistische Unsicherheit schnell. Ein kleiner Fehler zu Beginn einer Aufgabe kann sich zu Schleifen, Sackgassen oder destruktiven Aktionen auswachsen. Deshalb verschlechtern sich Agenten, die während der Bewertung fähig erscheinen, oft rapide, sobald sie eingesetzt werden.
Das Problem ist nicht ein fehlendes Feature. Es ist, dass allgemeine Modelle wie Spezialisten behandelt werden, ohne dass sie aus ihrer Umgebung lernen dürfen.
Von allgemeiner Intelligenz zu situativer Kompetenz
Grundmodelle sind von Natur aus Allgemeinmodelle. Sie kodieren breites Wissen und flexible Denkmuster. Produktionsagenten müssen jedoch situativ sein. Sie müssen die spezifischen Regeln, Einschränkungen und Fehlermodi einer bestimmten Organisation und ihrer Werkzeuge verstehen. Ohne dies gleichen sie jemandem, der jedes Handbuch gelesen hat, aber noch nie auf der Arbeit war.
Die Überbrückung dieser Lücke erfordert ein Umdenken in Bezug auf die Anpassung. Aktuelle Methoden fallen in zwei breite, fehlerhafte Lager: die Neuschulung des Kern-AI-Agents selbst oder die Anpassung der externen Werkzeuge, die er verwendet. Jeder Ansatz löst ein Problem, während er andere schafft. Dies lässt uns mit Systemen zurück, die entweder zu starr, zu teuer oder zu instabil für Produktionsumgebungen sind, in denen Konsistenz und Kosten zählen.
Die Falle des monolithischen Agents
Der erste Ansatz, Agenten-Anpassung, versucht, den Kern-LLM intelligenter zu machen, um Werkzeuge zu verwenden. Er unterrichtet im Wesentlichen den AI die spezifischen Fähigkeiten, die er benötigt, um die Werkzeuge zu verwenden. Forscher unterteilen dies weiter in zwei Klassen. Einige Methoden trainieren den Agenten mithilfe direkter Rückmeldung von Werkzeugen, wie einem Code-Compiler oder den Ergebnissen einer Suchmaschine. Andere trainieren ihn auf der Grundlage der Korrektheit der endgültigen Ausgabe, wie einer richtigen oder falschen Antwort.
Systeme wie DeepSeek-R1 und Search-R1 zeigen, dass Agenten komplexe, mehrstufige Strategien für die Werkzeugnutzung lernen können. Dieser Vorteil kommt jedoch mit einem erheblichen Kosten. Das Training von Modellen mit einer Milliarde Parameter ist rechenintensiv. Kritischer ist, dass es eine starre, spröde Intelligenz schafft. Durch die Kombination des Wissens und der Werkzeugregeln des Agents macht dieser Ansatz Updates langsam, riskant und ungeeignet für schnell ändernde Geschäftsanforderungen. Die Anpassung des Agents an eine neue Aufgabe oder ein neues Werkzeug birgt das Risiko des “katastrophalen Vergessens“, bei dem er zuvor erlernte Fähigkeiten verliert. Es ist, als müsste man eine ganze Fabrikproduktionslinie jedes Mal neu aufbauen, wenn man ein neues Produkt hinzufügen möchte.
Das fragile Werkzeug-Problem
Wenn man diese Grenzen erkennt, ist der zweite wichtige Ansatz, Werkzeug-Anpassung, der den Kern-Agenten unverändert lässt und stattdessen die Werkzeuge in seinem Ökosystem optimiert. Dies ist modulare und kosteneffiziente. Einige Werkzeuge werden generisch trainiert, wie ein Standard-Suchabruf, und eingesetzt. Andere werden speziell auf den gefrorenen Agenten abgestimmt und lernen von dessen Ausgaben, um bessere Helfer zu werden.
Dieses Paradigma birgt immense Versprechungen für Effizienz. Eine bahnbrechende Studie eines Systems namens s3 demonstrierte das Potenzial dieses Ansatzes. Es trainierte ein kleines, spezialisiertes “Sucher”-Werkzeug, um einen gefrorenen LLM zu unterstützen, und erreichte eine Leistung, die mit der eines vollständig neu trainierten Agents wie Search-R1 vergleichbar war, aber nur 70-mal weniger Trainingsdaten benötigte. Die Intuition ist, dass man nicht einem genialen Physiker beibringen muss, wie man einen Bibliothekskatalog nutzt. Stattdessen trainiert man einfach einen besseren Bibliothekar, der die Bedürfnisse des Physikers versteht.
Das Werkzeug-Modell hat jedoch seine eigene Einschränkung. Die Fähigkeiten des gesamten Systems sind letztendlich durch die inhärente Argumentation des gefrorenen LLM begrenzt. Man kann einem Chirurgen ein scharfes Skalpell geben, aber man kann keinen Nicht-Chirurgen dazu bringen, eine Herzoperation durchzuführen. Darüber hinaus wird die Orchestrierung einer wachsenden Sammlung von adaptiven Werkzeugen zu einer komplexen Integrationsherausforderung. Werkzeug A kann für eine Metrik optimieren, die die Eingabeanforderungen von Werkzeug B verletzt. Die Leistung des Systems hängt dann von einem fragilen Gleichgewicht zwischen vernetzten Komponenten ab.
Die Herausforderung der Ko-Anpassung
Dies bringt uns zum Kern des Anpassungsdefizits in den aktuellen Agentic-AI-Paradigmen. Wir passen entweder den Agenten oder die Werkzeuge an, aber nicht beides in einer synchronen, stabilen Weise. Produktionsumgebungen sind nicht statisch. Neue Daten, neue Benutzeranforderungen und neue Werkzeuge entstehen ständig. Ein AI-System, das nicht in der Lage ist, sowohl sein “Gehirn” als auch seine “Hände” reibungslos und sicher zu entwickeln, wird unweigerlich versagen.
Forscher identifizieren diese Notwendigkeit der Ko-Anpassung als die nächste Herausforderung. Es ist jedoch eine komplexe Herausforderung. Wenn sowohl der Agent als auch seine Werkzeuge gleichzeitig lernen, wer erhält die Anerkennung oder die Schuld für das Versagen? Wie verhindert man eine instabile Rückkopplungsschleife, in der der Agent und die Werkzeuge einander verfolgen, ohne die Gesamtleistung zu verbessern? Frühe Versuche, dies zu erreichen, wie die Behandlung der Agent-Werkzeug-Beziehung als kooperatives Multi-Agenten-System, zeigen die Schwierigkeit. Ohne robuste Lösungen für die Zuweisung von Anerkennung und Stabilität bleibt selbst unsere fortschrittlichste Agentic-AI eine Sammlung von beeindruckenden, aber voneinander getrennten Fähigkeiten.
Speicher als erstklassiges System
Ein deutliches Zeichen des Anpassungsdefizits ist der statische Speicher. Viele eingesetzte Agenten verbessern sich nicht im Laufe der Zeit. Sie wiederholen dieselben Fehler, weil sie ihre Erfahrungen nicht internalisieren können. Jede Interaktion wird behandelt, als wäre es die erste.
Produktionsumgebungen verlangen adaptive Speicher. Agenten benötigen episodische Erinnerung, um Aufgaben mit langem Horizont zu bewältigen, strategische Speicher, um Pläne zu verfeinern, und operative Speicher, um das Wiederholen von Fehlern zu vermeiden. Ohne dies fühlen sich Agenten zerbrechlich und unzuverlässig an.
Der Speicher sollte als ein einstellbares Komponente behandelt werden, nicht als passiver Log. Systeme, die Erfahrungen überprüfen, aus Fehlern lernen und ihr Verhalten anpassen, sind viel stabiler.
Neue Risiken durch adaptive Systeme
Die Anpassung bringt ihre eigenen Risiken mit sich. Agenten können lernen, Metriken zu optimieren, anstatt Ziele, ein Phänomen, das als parasitäre Anpassung bekannt ist. Sie können erfolgreich erscheinen, während sie das zugrunde liegende Ziel untergraben. In Multi-Agenten-Systemen können kompromittierte Werkzeuge Agenten manipulieren durch subtile Prompt-Injektion oder irreführende Daten. Um diese Risiken zu mindern, benötigen Agenten robuste Überprüfungsmechanismen. Aktionen müssen testbar, rückgängig machbar und überprüfbar sein. Sicherheitsschichten zwischen Agenten und Werkzeugen stellen sicher, dass Fehler nicht stillschweigend verbreitet werden.
Das Fazit
Damit Agentic AI in der realen Welt funktioniert, muss sie nicht nur intelligent sein, sondern auch anpassungsfähig sein. Die meisten Agenten versagen heute, weil sie “eingefroren” sind, während die reale Welt komplex und ständig im Wandel ist. Wenn ein AI-System seine Speicher nicht aktualisieren und aus seinen Fehlern lernen kann, wird es letztendlich versagen. Zuverlässigkeit kommt nicht von einer perfekten Demo, sondern von der Fähigkeit, sich anzupassen.












