Connect with us

Autonome Agenten benötigen mehr als nur AI-Beobachtbarkeit

Vordenker

Autonome Agenten benötigen mehr als nur AI-Beobachtbarkeit

mm

Da Unternehmen AI-Agenten verwenden, um zu denken, zu handeln und Workflows auszuführen, ist es wichtig, einen Plan zu entwickeln, um sie zu überwachen und zu verwalten.

Wenn verschiedene Komponenten eines AI-Systems beginnen, eigene Entscheidungen zu treffen, reicht Beobachtbarkeit allein nicht aus, um sicherzustellen, dass die Operationen stabil, sicher oder zuverlässig bleiben.

Um AI-Agenten im gesamten Unternehmen effektiv zu verwalten, müssen Unternehmen die Lücke zwischen Problemerkennung und Handlung schließen. Das geht über die bloße Beobachtung von Problemen hinaus; Unternehmen müssen aktiv präventiv tätig sein.

Die Entstehung autonomer Agenten

Die erste Welle der Unternehmens-AI bestand aus promptbasierten Systemen; ein Benutzer stellte eine Frage, das Modell antwortete und der Austausch endete dort. Obwohl diese frühen Technologien im Wesentlichen reaktiv waren, waren sie nützlich für die Suche, Copiloten, Inhaltserschaffung und Zusammenfassung.

Die nachfolgende Welle ist anders. Autonome AI-Agenten reagieren nicht nur, sondern können auch über Ziele nachdenken, Werkzeuge auswählen, Informationen extrahieren, Aktionen ausführen und Workflows initiieren. Sie arbeiten manchmal mit anderen Agenten oder Systemen zusammen und dienen zunehmend als operative Akteure innerhalb des Unternehmens, anstatt als Schnittstelle für menschliche Anweisungen.

Diese Veränderung ist bedeutend, da sie die operativen Eigenschaften von AI beeinflusst. Teams beobachten nicht mehr nur die Ausgaben von Modellen. Stattdessen verwalten sie dynamische Systeme, die sofort Kunden, Mitarbeiter, Infrastruktur, Geschäftsprozesse und andere Anwendungen beeinflussen können.

Die Fähigkeiten von Agenten heute

Die Fähigkeiten von Agenten entwickeln sich weiter. Agenten können entscheiden, was sie als Nächstes tun, Ziele in Schritte unterteilen und Aktivitäten auf verschiedenen Ebenen ausführen. Durch die Kontaktaufnahme mit APIs, die Abfrage von Datenbanken, die Suche in internen Systemen, die Aktualisierung von Aufzeichnungen und die Initiierung von nachgelagerten Aktionen können sie Workflows koordinieren. Durch die Integration von Prompts, Speicher, Geschäftsregeln, abgerufenen Informationen und Echtzeit-Betriebsignalen können Agenten auch kontextbasierte Urteile fällen.

Komplexere Agenten können erkennen, wenn ein Workflow fehlschlägt, es erneut versuchen, Probleme eskalieren oder Aufträge an einen menschlichen Prüfer weiterleiten. Innerhalb von CRM, Ticketing, Cloud-Infrastruktur, internen Wissensbasen, Beobachtungsplattformen und Geschäftsanwendungen können Agenten unabhängig arbeiten. Wir erwarten, dass diese Fähigkeiten sich schnell weiterentwickeln.

Wie Unternehmen autonome AI-Agenten integrieren

Agenten werden in eine wachsende Anzahl von Unternehmensoperationen integriert und kommen näher an operative Prozesse heran, bei denen Geschwindigkeit, Genauigkeit, Sicherheit und Governance wichtig sind. Einige dieser Operationen umfassen: Kundenbetreuung und Fallbearbeitung, Reaktions- und IT-Betrieb, Workflows für DevOps und Standortzuverlässigkeit, Codekorrektur und Softwareentwicklung, operative und Lieferkettenplanung und mehr.

Aufkommende operative Bedrohungen

Jedoch müssen Unternehmen, da Agenten immer unabhängiger werden, mit einer neuen Art operativer Risiken umgehen.

  • Schlechte Entscheidungen werden nicht nur empfohlen, sondern oft auch umgesetzt
  • Kleine Fehler können sich schnell auf andere verbundene Systeme ausbreiten
  • Echtzeit-Aktionen können durch Halluzinationen ausgelöst werden
  • Agenten können von Geschäftsabsichten, Richtlinien oder Compliance abweichen
  • Interaktionen zwischen mehreren Komponenten können zu Fehlern führen
  • Automatisierte Entscheidungsfindung kann Entscheidungen schneller treffen als menschliche Bewertung

Während Teams möglicherweise Symptome beobachten, müssen sie auch in der Lage sein, die Gründe hinter dem Verhalten des Systems zu verstehen. Unternehmens-AI benötigt Dependenzkontrollen zusätzlich zu Sichtbarkeit.

Die Komplexität von AI-Systemen

Heutige AI-gesteuerte Systeme bestehen selten aus einem einzigen Modell. Sie sind verteilte, geschichtete Systeme, die aus vielen interagierenden Komponenten bestehen, darunter:

  • Grundmodelle (LLMs)
  • Feinabgestimmte oder spezifische kleine Sprachmodelle (SLMs)
  • Einbettungsmodelle
  • Vektordatenbanken
  • Abrufpipelines und RAG-Komponenten
  • Prompt-Vorlagen und Prompt-Orchestrierungsschichten
  • Trainings- und Evaluierungsdatasets
  • Sicherheits- und Richtlinienschichten
  • Agenten und Workflows
  • Werkzeugsysteme
  • Telemetrie (auch Protokolle, Metriken und Spuren)
  • Mensch-im-Schleifensystem-Prüfungspunkte

Ihre Risiken

Jede Komponente fügt einen anderen Ausfallmodus hinzu, und die Art und Weise, wie sie interagieren, fügt weitere Komplexität hinzu. Selbst wenn ein System auf der Infrastrukturebene stark erscheint, kann es immer noch schlechte Entscheidungen treffen und zufriedenstellende Ergebnisse liefern, während es gleichzeitig operatives Risiko unter der Oberfläche aufbaut.

Einige der damit verbundenen Risiken umfassen: die Einführung von schlechten oder korrupten Eingaben durch Datenpipelines, Infrastruktur-Engpässe, die die Zuverlässigkeit verringern, schädliche oder fehlerhafte Ergebnisse und operative Engpässe bei der Reaktion auf menschliche Überprüfung. Darüber hinaus erschweren Systeme mit mehreren Agenten oder Schritten das Erkennen von Fehlern, da sie auf nicht sofort offensichtliche Weise fehlschlagen können.

AI-Beobachtbarkeit

Traditionelle Überwachung ist unzureichend, um das Verhalten von Prompts, die Qualität der Abrufung, das Modell-Drift, die Ausführungskanäle von Agenten oder die Verbindung zwischen AI-Verhalten und nachgelagertem Geschäfts- oder Betriebsauswirkungen zu verstehen.

Dort kommt die AI-Beobachtbarkeit ins Spiel. AI-Beobachtbarkeit ermöglicht es Teams, zu verstehen, wie AI-Systeme in der Produktion funktionieren, indem sie Eingaben und Ausgaben, gewünschtes Verhalten und Entscheidungssignale, die von diesen Systemen generiert werden, sammeln, korrelieren und auswerten. Das ist essentiell, da AI-Systeme verteilt, nicht-deterministisch und extrem kontextsensitiv sind.

AI-Beobachtbarkeit bietet einen umfassenden Einblick in AI-Workflows, sodass Teams, die sie verwenden, verstehen können, wie Prompts, Modelle, Abrufschichten, Werkzeuge und nachgelagerte Systeme während der Ausführung interagieren.

AI-Beobachtbarkeit ermöglicht es, Leistung und Verhalten zu überwachen, einschließlich Latenz, Kosten, Token-Verwendung, Durchsatz, Fehlerraten, Modellverhalten und Qualitätsindikatoren für Ausgaben. Sie verfolgt und analysiert Ausführungspfade in komplexen Agent-Workflows und zeigt, wie Ergebnisse über mehrere Schritte und Abhängigkeiten hinweg erreicht werden.

AI-Beobachtbarkeit findet auch Anomalien über operative und AI-Signale hinweg, indem sie anomales Verhalten in Modellen, Pipelines, Infrastruktur oder benutzerseitigen Ergebnissen aufdeckt, bevor Teams sie manuell entdecken. Sie beschleunigt die Diagnose, wenn etwas schiefgeht, und erleichtert Wurzelermittlungen, indem sie AI-spezifische Operationen in die Systemtelemetrie (Protokolle, Metriken, Spuren und Ereignisse) einbezieht.

Beobachtbarkeit allein reicht nicht aus

Trotz der Tatsache, dass AI-Beobachtbarkeit eine wesentliche Geschäftspraxis ist, hat sie inhärente Einschränkungen.

Beobachtbarkeit ist diagnostisch und nicht präventiv; Teams können herausfinden, was schiefgelaufen ist, aber nicht unbedingt, wie sie es verhindern können. Es ist wichtig zu verstehen, dass die Kenntnis der vergangenen Aktionen eines Agenten nicht automatisch in die Kontrolle über die zukünftigen Aktionen des Agenten übersetzt.

Bei komplexen nicht-deterministischen Systemen kann Beobachtbarkeit Teams oft mit Daten überwältigen, die zu Unsicherheit führen. Anstatt eine operative Antwort zu bieten, endet Beobachtbarkeit häufig bei einer Erklärung. Selbst wenn Teams sich eines Problems bewusst sind, verfügen sie möglicherweise nicht über die Automatisierung, Sicherheitsvorkehrungen und Kontrollschleifen, die erforderlich sind, um korrektive Maßnahmen zu ergreifen.

Dadurch entsteht eine operative Lücke. Unternehmen können möglicherweise Drift, schlechte Ergebnisse, gefährliches Verhalten oder verringerte Produktivität erkennen, aber sie können es möglicherweise nicht verhindern, dass es erneut passiert, die Auswirkungen mildern oder autonome Systeme innerhalb sicherer Betriebsparameter halten.

Das bedeutet, dass Teams weiterhin reaktiv arbeiten. Sie greifen auf manuelle Eingriffe zurück, wenn etwas schiefgeht, untersuchen Vorfälle nachträglich und verlassen sich auf menschliche Arbeitskraft, um Systeme auszugleichen, die immer schneller und autonomer werden.

Überblick über AI-Zuverlässigkeit

AI-Zuverlässigkeit geht über die bloße Beobachtung von Problemen hinaus. Es ist die Disziplin, die sicherstellt, dass AI-Systeme in realen Produktionsumgebungen sicher, konsistent, vorhersehbar und erfolgreich funktionieren. AI-Zuverlässigkeit versteht und verwaltet das gesamte System um AI herum. Sie schließt die Lücke zwischen Erkennung und Handlung.

AI-Zuverlässigkeit konzentriert sich darauf, ob das gesamte AI-gesteuerte System innerhalb vernünftiger operativer Einschränkungen über einen längeren Zeitraum hinweg funktionieren kann, und nicht nur darauf, ob ein Modell eine genaue Antwort geliefert hat. Qualität, Sicherheit, Widerstandsfähigkeit, Erklärbarkeit, Richtlinienkonformität, Kosteneffizienz und Betriebsstabilität sind alle Teil der Gleichung.

Der Übergang von Erkennung zu Prävention

AI-Zuverlässigkeit reduziert die Zeit zwischen der Erkennung eines Problems und der Lösung. Sie verschiebt die Konversation von “Was ist schiefgelaufen?” zu “Wie schnell wird unsere AI verbessert?” Die Verwendung der folgenden Techniken verschiebt die Beobachtbarkeit von passiver Beobachtung zu proaktiver Prävention:

  • Korrelation von Signalen über Modelle, Daten und Infrastruktur, um Probleme zu identifizieren
  • Proaktive Problemerkennung vor dem Eintritt
  • Überprüfung aller Eingaben und Ausgaben in probabilistischen AI-Systemen, um subtile Verhaltensänderungen zu erkennen
  • Erstellung einer Rückkopplungsschleife zwischen der Erkennung unerwünschter Ausgaben in der Produktion und der Verwendung dieser, um Feinabstimmungsdaten zu generieren, die die Genauigkeit der zugrunde liegenden Modelle verbessern
  • Multi-Agent-Workflow-Verfolgung, um sicherzustellen, dass die Punkte zwischen komplexen Aktionen verbunden werden können
  • Definierte mensch-im-Schleifensystem-Workflows für sichere Reaktion und automatisierte Abhilfe

Die Lücke zwischen Kontrolle und Beobachtung schließen

Unternehmen profitieren von Frameworks, die Sichtbarkeit und Kontrolle integrieren und mehr als nur eine Beobachtbarkeitsschicht auf generativer AI erfordern. In deterministischen und nicht-deterministischen Systemen kann eine Zuverlässigkeitsplattform Probleme identifizieren, vorhersagen, erklären und kontrollieren.

Folgendes sollte in einem lebensfähigen Framework für zuverlässige AI-Betriebe enthalten sein:

  • Integrierte Telemetrie für IT-Systeme und AI-Systeme
  • End-to-End-Agent-Workflow- und System-Abhängigkeitsverfolgung
  • AI-spezifische Verhaltens- und Qualitätsverfolgung (Prompts und Evaluierungen)
  • Erweiterte Anomalie-Erkennung, unabhängig von der Quelle
  • Kausales Denken und Wurzelermittlung
  • Alarmierung, die automatisch an die Umgebung angepasst wird und keine manuelle Schwellenwerte erfordert
  • Richtlinien-Durchsetzung und Sicherheitsvorkehrungen
  • Mensch-im-Schleifensystem-Prüfung von heiklen oder bedeutenden Aktionen
  • Automatisierung von Workflows und Koordination von Abhilfemaßnahmen
  • Verwendung von Vorhersageanalysen, um Probleme zu verhindern
  • Rückkopplungsschleifen, die Anomalie-Erkennung mit verbesserter AI-Modellqualität verbinden

Aufgaben von AI-Funktionen

AI-Systeme verlassen sich auf Infrastruktur, Dienste, Datenpipelines und Betriebsabläufe; sie versagen nicht allein. Teams erhalten das gesamte Bild, wenn AI- und IT-Zuverlässigkeit kombiniert werden.

Ein dünner LLM-Wrapper sollte nicht die Grundlage einer vertrauenswürdigen Plattform sein. Um Probleme zu identifizieren und zu beheben, die andere generative AI-Tools übersehen, sollten verschiedene AI-Techniken in Betracht gezogen werden, darunter unsupervised AI, Vorhersage-AI, kausale AI und generative AI. Diese Kombination von Techniken wird häufig als “komposite AI” bezeichnet.

Generative AI ist gut darin, natürliche Sprache zusammenzufassen. Sie eignet sich am besten für Situationen, die das Nachdenken über unstrukturierte Daten oder die Interaktion mit Menschen erfordern. Aber das passt nicht zum Umfang der meisten Zuverlässigkeitsprobleme in der Produktion.

Vorhersage-AI konzentriert sich auf die Erkennung von frühen Signalen, bevor sie zu Ausfällen, schlechten Kundenerfahrungen oder teuren Fehlern werden, indem Anomalie-Erkennungsalgorithmen verwendet werden.

Kausale AI hilft, die wahren Ursachen zu ermitteln, um aufzudecken, ob Abrufqualität, Modellverhalten, Infrastruktur-Verzögerung, Daten-Drift oder nachgelagerte Systemfehler die Ursache für eine Leistungsverschlechterung war.

Unsupervised AI entdeckt autonom verborgene Muster, Strukturen oder Anomalien in Daten ohne menschliche Anleitung. Sie übertrifft generative AI bei der Zuverlässigkeit, da sie sich auf die Entdeckung verborgener Strukturen in komplexen, unklassifizierten Daten konzentriert, um ähnliche Elemente zu gruppieren oder Beziehungen zu finden.

Wenn Risiken, Unsicherheiten oder Geschäftsauswirkungen erheblich sind, müssen operative AI-Agenten in der Lage sein, Reaktionen zu automatisieren und gleichzeitig menschliche Beteiligung für zuverlässige Betriebe zu gewährleisten.

Das Verständnis des AI-Modells für den spezifischen Geschäftskontext kann durch die Verwendung von Verstärkungslernen aus echten Benutzerdaten in der Produktion verbessert werden.

Sogar die fortschrittlichsten Systeme gehen über Alarmierung hinaus; geschlossene Abhilfeschleifen lernen aus jedem Vorfall, automatisieren anerkannte Reaktionen und initiieren sichere Maßnahmen.

Vorbereitung auf autonome AI-Systeme

Unternehmen können sich auf autonome AI-Systeme in verschiedenen Weisen vorbereiten. Zunächst sollten Agenten als operative Systeme und nicht als Produktivitätswerkzeuge betrachtet werden. Sobald ein Agent die Fähigkeit hat, zu handeln, wird er zu einem integralen Teil der Betriebe des Unternehmens und sollte entsprechend reguliert werden.

Teams können Signale von Modellen, Prompts, Werkzeugen, Workflows, Infrastruktur und Benutzerergebnissen direkt aufzeichnen, indem sie Agenten instrumentieren. Diese grundlegende Überwachung kann und sollte nicht bis zum Zeitpunkt verschoben werden, an dem Agenten für das Unternehmen unerlässlich werden.

Die Festlegung von Zuverlässigkeitsstandards vor der weitverbreiteten Bereitstellung von Agenten ist ebenfalls von entscheidender Bedeutung. Anstatt nachträglich eingeführt zu werden, sollten akzeptable Schwellenwerte für Sicherheit, Latenz, Fehlerraten, Halluzinationsrisiko, Richtlinienkonformität und Geschäftsauswirkungen in ihre Konstruktion einbezogen werden.

Die Verbindung von AI-Verhalten mit den zugrunde liegenden Systemen und Prozessen, die es unterstützen, ermöglicht es Unternehmen, AI- und IT-Betriebe zu integrieren. Die Verwendung unterschiedlicher Tools für Infrastruktur und Modellüberwachung schafft Blindstellen.

Plattform-Engineering, SRE, Sicherheit, Daten-Teams, AI-Teams und Geschäftseigentümer müssen zusammenarbeiten, um zuverlässige AI-Betriebe bereitzustellen, und autonome Systeme überschreiten herkömmliche Silos.

Jeder Vorfall, jede Anomalie und jedes Beinahe-Miss wird das System verbessern, indem Feedback-Schleifen in die Betriebe integriert werden, was es Unternehmen ermöglicht, kontinuierlich aus Produktionsverhalten zu lernen.

Schließlich ist es wichtig, Plattformen auszuwählen, die für Kontrolle und nicht nur für Beobachtung konzipiert sind. Unternehmen werden von Systemen profitieren, die Beobachtbarkeit, Vorhersage, Erklärung und Handlung integrieren, wenn AI-Agenten autonomer werden. Organisationen, die erfolgreich von der Erkennung von Problemen zu sicherer Kontrolle von Ergebnissen wechseln, werden die Gewinner sein.

Die Quintessenz

AI in Unternehmen ist jetzt ein operatives System in Unternehmensumgebungen und nicht mehr nur ein Werkzeug. In realen Produktionsumgebungen garantiert die Hinzufügung von Zuverlässigkeit zu AI-Systemen sichere, konsistente, vorhersehbare und effiziente Betriebe. Von der Erkennung von Problemen bis zur sicheren Kontrolle von Ergebnissen werden die Gewinner sein. Die Quintessenz AI in Unternehmen ist jetzt ein operatives System in Unternehmensumgebungen und nicht mehr nur ein Werkzeug. In realen Produktionsumgebungen garantiert die Hinzufügung von Zuverlässigkeit zu AI-Systemen sichere, konsistente, vorhersehbare und effiziente Betriebe.

Helen Gu ist Gründerin von InsightFinder AI, das automatisch AI-Modell-Drift erkennt, tiefe Diagnosen bereitstellt und eine Root-Cause-Analyse in komplexen AI-Systemen durchführt.