KĂĽnstliche Intelligenz
Warum agentenbasierte KI in der realen Welt immer noch versagt

Seit einigen Jahren beobachten wir, wie agentenbasierte KI-Systeme beeindruckende Leistungen erbringen. Sie schreiben Code, der Testfälle besteht. Sie durchsuchen das Web und beantworten komplexe Fragen. Sie navigieren mit bemerkenswerter Genauigkeit durch Software-Oberflächen. Jede Konferenzpräsentation, jede Pressemitteilung, jeder Benchmark-Bericht unterstreicht den Aufstieg agentenbasierter KI.
Doch hinter diesen beeindruckenden Demonstrationen verbirgt sich ein Problem. Wenn dieselben Systeme von kontrollierten Umgebungen in den realen Einsatz überführt werden, … scheitern Auf eine Weise, die Benchmarks nie vorhergesehen haben. Der Codegenerator, der mit 100 ausgewählten Beispielen einwandfrei funktionierte, erzeugt plötzlich Fehler in Randfällen, die ihm völlig unbekannt sind. Der Websuchagent, der im Labor eine Genauigkeit von 85 % erreichte, liefert mit sich änderndem Nutzerverhalten zunehmend irrelevante Ergebnisse. Das Planungssystem, das während der Tests zehn API-Aufrufe fehlerfrei koordinierte, bricht zusammen, sobald es auf ein unerwartetes API-Antwortformat stößt.
Diese Systeme versagen nicht, weil es ihnen an Intelligenz mangelt, sondern weil ihnen etwas fehlt AnpassungDas Problem liegt darin, wie KI-Agenten lernen und sich anpassen. Moderne Systeme basieren zwar auf umfangreichen Modellen, doch reine Intelligenz allein genügt nicht. Um spezialisierte Aufgaben zu erfüllen, muss ein Agent anpassungsfähig sein. Aktuelle agentenbasierte KI-Systeme können dies aufgrund struktureller Einschränkungen in ihrem Design und Training nicht. In diesem Artikel untersuchen wir diese Einschränkungen und ihre Ursachen.
Die Illusion der Leistungsfähigkeit in Demos
Die gefährlichste Fehlerquelle in der modernen KI ist die Illusion von Kompetenz. Kurze Demonstrationen verschleiern oft die tatsächliche Komplexität. Sie basieren auf sauberen Datensätzen, vorhersehbaren APIs und eng begrenzten Aufgabenbereichen. Produktionsumgebungen sind das genaue Gegenteil. Datenbanken sind unvollständig, Schemata ändern sich ohne Vorwarnung, Dienste erreichen keine Dienste mehr, es gibt Berechtigungskonflikte, und Benutzer stellen Fragen, die die grundlegenden Annahmen des Systems verletzen.
Hier steigt die Produktionskomplexität deutlich an. Ein einzelner Sonderfall, der in einer Demo einmal auftritt, kann im Produktivbetrieb tausendfach täglich vorkommen. Kleine, wahrscheinlichkeitsbedingte Fehler häufen sich. Ein Agent, der „größtenteils richtig“ arbeitet, wird im realen Betrieb schnell unzuverlässig.
Das Kernproblem liegt in der Verwendung von Modellen mit statischen Grundlagen. Diese Modelle eignen sich zwar hervorragend zur Mustererkennung, doch das Verhalten von Agenten ist sequenziell und zustandsbehaftet. Jede Aktion hängt vom Ergebnis der vorherigen ab. In solchen Umgebungen summiert sich die statistische Unsicherheit schnell. Ein kleiner Fehler zu Beginn einer Aufgabe kann später zu Endlosschleifen, Sackgassen oder destruktiven Aktionen führen. Deshalb verschlechtern sich Agenten, die während der Evaluierung leistungsfähig erscheinen, nach dem Einsatz oft rapide.
Das Problem ist nicht ein fehlendes Feature. Es ist vielmehr, dass von Allzweckmodellen verlangt wird, sich wie Domänenspezialisten zu verhalten, ohne dass ihnen erlaubt wird, aus ihrer Umgebung zu lernen.
Von allgemeiner Intelligenz zu situativer Kompetenz
Grundlagenmodelle sind von Natur aus Generalisten. Sie kodieren umfassendes Wissen und flexible Denkmuster. Produktionsmitarbeiter hingegen müssen situationsspezifisch agieren. Sie müssen die spezifischen Regeln, Einschränkungen und Fehlermodi einer bestimmten Organisation und ihrer Werkzeuge verstehen. Andernfalls ähneln sie jemandem, der zwar jedes Handbuch gelesen, aber noch nie einen Tag im Unternehmen gearbeitet hat.
Um diese Lücke zu schließen, muss der Anpassungsprozess selbst überdacht werden. Die derzeitigen Methoden lassen sich in zwei große Kategorien einteilen: fehlerhafte LagerDie Möglichkeiten sind beispielsweise das Nachtrainieren des KI-Kernsystems oder die Anpassung der verwendeten externen Tools. Jeder Ansatz löst zwar ein Problem, schafft aber gleichzeitig neue. Das Ergebnis sind Systeme, die entweder zu unflexibel, zu teuer oder zu instabil für Produktionsumgebungen sind, in denen Konsistenz und Kosten entscheidend sind.
Die Falle des monolithischen Agenten
Der erste Ansatz, die Agentenadaption, zielt darauf ab, den Kern des LLM im Umgang mit Werkzeugen zu verbessern. Er vermittelt der KI im Wesentlichen die spezifischen Fähigkeiten, die sie für die Nutzung der Werkzeuge benötigt. Forscher unterteilen dies in zwei Klassen: Einige Methoden trainieren den Agenten anhand direkten Feedbacks von Werkzeugen, beispielsweise dem Erfolg eines Code-Compilers oder den Ergebnissen einer Suchmaschine. Andere trainieren ihn basierend auf der Korrektheit des Endergebnisses, etwa einer richtigen oder falschen Antwort.
Systeme wie DeepSeek-R1 und Suche-R1 Es wird gezeigt, dass Agenten komplexe, mehrstufige Strategien für den Werkzeugeinsatz erlernen können. Diese Fähigkeit hat jedoch ihren Preis. Das Training von Modellen mit Milliarden von Parametern ist rechenintensiv. Noch kritischer ist, dass dadurch eine starre, unflexible Intelligenz entsteht. Durch die Kombination des Wissens des Agenten mit den Werkzeugnutzungsregeln werden Aktualisierungen langsam, riskant und ungeeignet für sich schnell ändernde Geschäftsanforderungen. Die Anpassung des Agenten an eine neue Aufgabe oder ein neues Werkzeug birgt das Risiko, dass…katastrophales VergessenDabei gehen zuvor erlernte Fähigkeiten verloren. Es ist, als müsste man jedes Mal eine komplette Fabrikfertigungslinie neu aufbauen, wenn man ein neues Bauteil hinzufügen möchte.
Das Problem der fragilen Werkzeugkiste
In Anerkennung dieser Grenzen ist der zweite Hauptansatz, WerkzeuganpassungDer Kernagent bleibt unverändert, während die Tools im zugehörigen Ökosystem optimiert werden. Dies ist modularer und kostengünstiger. Einige Tools, wie beispielsweise ein Standard-Suchalgorithmus, werden generisch trainiert und integriert. Andere werden speziell auf einen unveränderten Agenten abgestimmt und lernen aus dessen Ausgaben, um ihn besser zu unterstützen.
Dieses Paradigma birgt immenses Effizienzpotenzial. Eine wegweisende Studie eines Systems namens s3 Das Potenzial dieses Ansatzes wurde demonstriert. Ein kleines, spezialisiertes Suchwerkzeug wurde trainiert, um ein statisches Bibliotheksmodell zu unterstützen. Es erreichte eine mit einem vollständig neu trainierten Agenten wie Search-R1 vergleichbare Leistung, benötigte aber 70-mal weniger Trainingsdaten. Die Idee dahinter ist: Warum sollte man einem genialen Physiker die Nutzung eines Bibliothekskatalogs neu beibringen? Stattdessen sollte man einfach einen besseren Bibliothekar ausbilden, der die Bedürfnisse des Physikers versteht.
Das Toolbox-Modell hat jedoch seine Grenzen. Die Leistungsfähigkeit des Gesamtsystems wird letztlich durch die starre Logik des statischen Modells begrenzt. Man kann einem Chirurgen zwar ein schärferes Skalpell geben, aber man kann einen Laien nicht dazu bringen, eine Herzoperation durchzuführen. Darüber hinaus stellt die Koordination einer wachsenden Anzahl adaptiver Werkzeuge eine komplexe Integrationsherausforderung dar. Werkzeug A optimiert möglicherweise eine Metrik, die die Eingangsanforderungen von Werkzeug B verletzt. Die Systemleistung hängt dann von einem fragilen Gleichgewicht zwischen den miteinander verbundenen Komponenten ab.
Die Herausforderung der gemeinsamen Anpassung
Dies führt uns zum Kern des Anpassungsdefizits der aktuellen agentenbasierten KI-Paradigmen. Wir passen entweder den Agenten oder die Werkzeuge an, aber nicht beides gleichzeitig und stabil. Produktionsumgebungen sind nicht statisch. Ständig entstehen neue Daten, neue Nutzeranforderungen und neue Werkzeuge. Ein KI-System, das sein „Gehirn“ und seine „Hände“ nicht reibungslos und sicher weiterentwickeln kann, wird unweigerlich scheitern.
Forscher identifizieren Die Notwendigkeit der Ko-Adaptation stellt die nächste große Herausforderung dar. Es handelt sich jedoch um eine komplexe Aufgabe. Wenn sowohl der Agent als auch seine Werkzeuge gleichzeitig lernen, wer... bekommt Wer trägt die Verantwortung für das Scheitern – oder wer die Schuld? Wie lässt sich eine instabile Rückkopplungsschleife verhindern, in der Agent und Werkzeuge einander nacheifern, ohne die Gesamtleistung zu verbessern? Frühe Ansätze hierzu, wie die Behandlung der Agent-Werkzeug-Beziehung als kooperatives MultiagentensystemDies verdeutlicht die Schwierigkeit. Ohne robuste Lösungen für die Kreditvergabe und -stabilität bleibt selbst unsere fortschrittlichste agentenbasierte KI eine Reihe beeindruckender, aber unzusammenhängender Fähigkeiten.
Speicher als erstklassiges System
Eines der deutlichsten Anzeichen für das Anpassungsdefizit ist das statische Gedächtnis. Viele eingesetzte Agenten verbessern sich im Laufe der Zeit nicht. Sie wiederholen dieselben Fehler, weil sie keine Erfahrungen verinnerlichen können. Jede Interaktion wird so behandelt, als wäre es die erste.
Produktionsumgebungen erfordern adaptives GedächtnisAgenten benötigen ein episodisches Erinnerungsvermögen, um langfristige Aufgaben zu bewältigen, ein strategisches Gedächtnis, um Pläne zu verfeinern, und ein operatives Gedächtnis, um wiederholte Fehler zu vermeiden. Ohne diese Fähigkeiten fühlen sich Agenten verletzlich und unzuverlässig.
Der Speicher sollte als anpassbare Komponente und nicht als passives Protokoll betrachtet werden. Systeme, die Erfahrungen auswerten, aus Fehlern lernen und ihr Verhalten anpassen, sind deutlich stabiler.
Neue Risiken durch adaptive Systeme
Anpassung birgt eigene Risiken. Agenten können lernen, Kennzahlen anstatt Ziele zu optimieren – ein Phänomen, das als Anpassung bekannt ist. parasitäre AnpassungSie mögen zwar erfolgreich erscheinen, untergraben aber das eigentliche Ziel. In Multiagentensystemen können manipulierte Werkzeuge Agenten manipulieren durch subtile prompte Injektion oder irreführende Daten. Um diese Risiken zu minimieren, benötigen Agenten robuste Verifizierungsmechanismen. Aktionen müssen testbar, reversibel und nachvollziehbar sein. Sicherheitsebenen zwischen Agenten und Tools gewährleisten, dass sich Fehler nicht unbemerkt ausbreiten.
Fazit
Damit agentenbasierte KI in der realen Welt funktioniert, reicht Intelligenz allein nicht aus; sie muss anpassungsfähig sein. Die meisten Agenten scheitern heute, weil sie in ihrer Funktionsweise „eingefroren“ sind, während die reale Welt komplex und ständig im Wandel ist. Kann eine KI ihr Gedächtnis nicht aktualisieren und aus Fehlern lernen, wird sie letztendlich versagen. Zuverlässigkeit entsteht nicht durch eine perfekte Demonstration, sondern durch Anpassungsfähigkeit.












