Connect with us

Die Zeit für das Agentic NOC ist jetzt

Vordenker

Die Zeit für das Agentic NOC ist jetzt

mm

Das moderne Netzwerk hat wenig Ähnlichkeit mit seinem Gegenstück von vor einigen Jahren, nach dem Übergang zu Remote-Arbeit und einer Ära der schnellen AI- und SaaS-Adoption. Was früher zentralisiert und relativ vorhersehbar war, ist jetzt ein kompliziertes Netz aus Cloud-Plattformen, Edge-Geräten, Zweigstellen, Heim-Internet und On-Premises-Systemen.

Traditionelle Network Operations Centers (NOCs) waren nicht für dies konzipiert. Die meisten Überwachungstools erfordern immer noch manuelle Datenkorrelation über verschiedene Systeme, was die Sichtbarkeit erschwert und Ingenieuren eine endlose Flut von widersprüchlichen Warnungen beschert, wenn sie schnell Entscheidungen treffen und Fehler beheben müssen.

Service-Provider und Enterprise-IT-Teams arbeiten unter ähnlichem Druck. Die Margen sind eng und die Teams sind leaner, aber der Standard für Kundenakquise-Zyklen hat sich nicht geändert. Wenn es acht bis zehn Monate dauert, bis ein Vertrag profitabel wird, sind die Einsätze um Retention und eine hohe Qualität des Kundenerlebnisses hoch.

Insgesamt ist die Bühne perfekt für das Agentic NOC vorbereitet.

Das Agentic NOC aufbauen

Laut Gartner, setzen zwar nur 17% der Organisationen derzeit Agentic-AI ein, aber 60% erwarten, dies innerhalb der nächsten zwei Jahre zu tun. Dies setzt den aggressiven Adoptionsverlauf fort, seit die Technologie an Fahrt gewann, weil sie aktiv über Daten nachdenken kann, anstatt nur passive, definierte Aufgaben zu automatisieren.

Für das NOC ist Agentic-AI der Unterschied zwischen Fragmentierung oder Frustration, schnelleren Lösungszeiten, reduzierten Ausfällen und einem umfassenderen Verständnis der Umgebung. Damit diese Vorteile materialisieren, muss das Agentic NOC jedoch in der Zusammenarbeit zwischen der AI und den menschlichen Operatoren verankert sein. Geschwindigkeit ist nie wichtiger als Genauigkeit und Zuverlässigkeit, also wo die AI die Triage, die Wurzelursachenanalyse und letztendlich die Empfehlung von Aktionen verbessern kann, ist menschliches Urteil immer noch unerlässlich für diese letzte Validierung.

Das Agentic NOC ist auch durch gut strukturierte Daten definiert. Genau inventarisierte Daten, konsistente Bezeichnungen und Benennungskonventionen sowie eine Netzwerk-weite Sichtbarkeit in den Verkehr, die Routing und die Leistung zeichnen ein Bild davon, was derzeit passiert, wie das Netzwerk sich verhalten soll und wie Probleme zuvor gelöst wurden. Ohne diese Sicht ist jede Analyse unvollständig und die Operatoren können nicht automatisieren, was sie nicht sehen oder verstehen können.

Die Erfassung von Tribal-Knowledge fällt auch unter diesen Schirm.

Die größte Ressource, die das NOC hat, sind die Köpfe seiner Ingenieure. Die Kombination aus Erfahrung und Intuition, die aus Jahren des Diagnosierens und Lösen von Netzwerkproblemen resultiert, ist etwas, das selbst das fortschrittlichste AI-Modell nicht ohne Hilfe replizieren kann. Deshalb muss diese Tribal-Knowledge dokumentiert und in ein Format übersetzt werden, das von der AI aufgenommen und wiederverwendet werden kann. Fein abgestimmte Runbooks und zentrale Lernschleifen spielen auch eine Rolle, indem sie eine Grundlage für menschliches und maschinelles Verhalten bieten, um effektiver Bereiche für Verbesserungen zu identifizieren.

Die echten Vorteile

IT- und Netzwerkprobleme standen hinter 23% der Ausfälle im Jahr 2024. Die gleiche Analyse ergab, dass fast 40% der Organisationen in den letzten drei Jahren einen schwerwiegenden Ausfall aufgrund von menschlichem Fehler erlebten. Diese Ausfallrate ist aus keinem Blickwinkel nachhaltig, sei es Geschäft, Ingenieur oder Verbraucher. Sie zeigt jedoch genau, warum das Agentic NOC so entscheidend ist.

Die Verheißung des Agentic NOC ist nicht Autonomie um ihrer selbst willen, sondern schnellere und selbstbewusstere Operationen, die auf einer Grundlage von echter Netzwerk-Sichtbarkeit aufbauen. Wenn ein Problem das Netzwerk trifft, ist die größte Verzögerung oft nicht die Erkennung, sondern das Verständnis, was sich geändert hat, was betroffen ist und was als Nächstes zu tun ist. Agentic-Systeme helfen, diese Zeitspanne zu komprimieren, beginnend mit der beschleunigten Wurzelursachenanalyse.

Der Unterschied zwischen der Identifizierung der Wurzelursache eines Problems in Minuten versus Stunden oder sogar Tagen ist massiv. Die durchschnittlichen Kosten für nur eine Stunde Netzwerk-Ausfall können für mittelgroße bis große Unternehmen über 300.000 Dollar betragen. Tatsächlich berichten 41% über stündliche Ausfallkosten im Bereich von 1 Million bis über 5 Millionen Dollar laut einer aktuellen Studie von ITIC.

Und dennoch ist die Realität oft näher an Letzterem, wenn Operatoren aufgefordert werden, Daten manuell zu durchsuchen. Andererseits können Agentic-AI-Tools potenzielle Ursachen und betroffene Dienste in Sekunden erkennen und empfehlen, was als Nächstes zu tun ist. Wenn die finanziellen Einsätze so hoch sind, sind schnellere Wurzelursachenanalyse und sicherere Behebung zu einem absoluten Muss geworden.

Darüber hinaus dient das Agentic NOC als Vermittler für Wissensaustausch – indem es die Expertise von Ingenieuren aus der ganzen Organisation in eine gemeinsame Ressource kombiniert. Langfristig schafft dieser Prozess eine kontinuierliche Lernschleife, in der die Erfolge und Herausforderungen aus jedem Vorfall dazu beitragen, die Empfehlungen der AI bei neuen Vorfällen zu informieren und zu verfeinern.

Zum Beispiel, wenn ein Unternehmen mit anhaltenden Netzwerk-Leistungsproblemen zu kämpfen hat und beschließt, ein neues Gerät zu implementieren, um die Effizienz zu verbessern, aber die Aktualisierung eine Konfigurationsänderung erfordert. Im Prozess geht etwas schief und es löst einen Ausfall aus. In der Ära des Agentic NOC kann ein AI-System Telemetrie, Topologie, Gerätezustand und kürzliche Änderungen korrelieren und den Operator letztendlich auf die wahrscheinliche Wurzelursache hinweisen, und das in Bruchteilen der Zeit. Der positive Einfluss von Agentic-Systemen auf Netzwerk-Operationen ist klar und die Daten bestätigen dies.

McKinsey fand kürzlich heraus, dass autonome Fehlerbehebung und -reparatur in Netzwerk-Operationen die Gesamtfehlerbehebungs-Tickets um bis zu 70% reduzierten, sowie die operativen Kosten um 55-80%, während sie die Reparaturzeit um 30-40% verbesserten.

Herausforderungen, auf die zu achten ist

Einer der häufigsten Fehler, den Organisationen machen, ist es, sich ohne die notwendige Grundlage auf AI zu stürzen. Die Mehrheit (70%) der Arbeitnehmer ist begierig auf die Vorteile von AI laut KPMG, aber ohne zuverlässige Daten und gut dokumentierte Prozesse leidet der Wert dieser Systeme.

Stattdessen sollte AI schrittweise eingeführt werden. Das Aufbauen eines Agentic NOC ist eine Reise. Schließlich sollten Systeme fortschrittlichere und proaktive Anwendungsfälle übernehmen, wie das Erkennen von Mustern in Temperaturspitzen oder das Identifizieren von Trends in Geräte-Neustarts – beides kann ein Signal für einen bevorstehenden Ausfall sein. Zu Beginn jedoch sollte der Fokus auf kleinere Aufgaben wie die Unterstützung bei der Diagnose liegen, um den Systemen Raum zum Lernen und Verbessern zu geben.

Ein weiterer Fehler ist es, zu denken, dass jede Aktion von der Automatisierung profitieren kann. Ein gutes Faustregel ist, wenn ein Mensch das gleiche Problem wiederholt löst, ist diese Aufgabe ein guter Kandidat für die Automatisierung. Dieser schrittweise Ansatz kann auch dazu beitragen, Vertrauen und Zuversicht aufzubauen.

Seit Februar 2025 ist das Vertrauen in AI unter US-Mitarbeitern um 33% gesunken laut Deloitte, während McKinseys 2026 AI-Vertrauensindex feststellte, dass Ausgabegenauigkeiten immer noch die größte AI-Bedenken für die Mehrheit der US-Unternehmen (74%) sind, gefolgt von Cyber-Sicherheitsproblemen (72%). Denken Sie daran, dass der KPMG-Bericht feststellte, dass US-Arbeitnehmer bereit sind, AI zu akzeptieren? Der Bericht fand auch heraus, dass nur 41% bereit sind, AI zu vertrauen.

Das Vertrauen in AI zu überwinden, kommt auf Governance und Erklärbarkeit an. Klar definierte operative Schutzmechanismen und Prüfungsschleifen geben Ingenieuren klare Einblicke in die Art und Weise, wie ein AI-Agent die endgültige Empfehlung erreicht hat, sowie Mechanismen, um Fehler zu erkennen und zu beheben, bevor sie Schaden anrichten können. Vertrauen, Governance und menschliche Validierung sind das, was nützliche Agentic-Operationen von riskanter Automatisierung trennt, was der Grund ist, warum das Ziel des Agentic NOC nie darin bestehen sollte, menschliche Aufsicht zu entfernen, sondern sie zu verbessern.

Das moderne Netzwerk fordert viel von den heutigen Operatoren. Um Schritt zu halten, muss der menschliche Aufwand von wiederholter Triage hin zu Richtlinien, Validierung, Governance und neuen oder hochriskanten Fällen verschoben werden. Agentic-AI hilft, diesen Schritt möglich zu machen, indem es Probleme früher identifiziert und angeht, Wissen effektiver über Teams teilt und Entscheidungsfindung konsistenter macht. Die kontinuierliche Evolution und Verbesserung der Art und Weise, wie das Netzwerk überwacht und gewartet wird, ist in Agentic-AI verwurzelt.

Alex Cruz Farmer hat fast 20 Jahre Erfahrung darin, SaaS- und Infrastrukturplattformen von der Gründungsphase bis hin zum Börsengang und zur Übernahme aufzubauen und zu skalieren. Er hatte zuvor Produktführungsrollen bei Cloudflare und Cisco ThousandEyes inne, wo er Umsatzwachstum, neue Produkte und künstliche Intelligenz-getriebene Fähigkeiten vorantrieb, und leitet nun das Produkt bei Kentik im Bereich Netzwerkintelligenz und Anbieterlösungen.