Vordenker
Mehr als Auf/Ab: Es gibt eine bessere Möglichkeit, „Normal“ in komplexer Infrastruktur zu definieren

Seit der Überwachung von Betriebszuständen hat sich viel getan. Von der Fabrikhalle bis zur modernen Unternehmensinfrastruktur benötigen IT-Administratoren heute deutlich mehr Informationen als nur eine einfache Überprüfung, ob eine Website oder Anwendung ihren Nutzern den Dienst bereitstellen kann. Natürlich ist es hilfreich, einen einfachen Status „aktiv“ oder „inaktiv“ zu sehen, aber er gibt nicht die vollständige Auskunft darüber, wie die Technologie den erwarteten Geschäftswert liefert. Da IT- und OT-Umgebungen konvergieren und Ökosysteme dynamischer und flüchtiger werden, liefern diese Warnmeldungen keine präzisen Basiswerte.
Normalität zu verstehen, Leistungsmuster zu erkennen und kostspielige Ausfallzeiten zu vermeiden, sind in der heutigen komplexen Infrastruktur unerlässlich. Dies gilt insbesondere, da Bedrohungsakteure immer ausgefeiltere Tools einsetzen, um mit weniger mehr zu erreichen, und moderne, vernetzte Infrastrukturen neue Schwachstellen schaffen.
In dieser Landschaft KI-gesteuerte Überwachung transformiert das Infrastrukturmanagement, indem es Einblicke in normales und unnormales Verhalten bietet und so unzureichende Basiswerte und Alarmmüdigkeit beseitigt. Sehen wir uns an, wie dieser Wechsel von reaktiver Brandbekämpfung zu proaktiver Prävention eine dringend notwendige Weiterentwicklung im Monitoring darstellt.
Die neue Normalität entdecken
Was ist überhaupt normal? Diese Frage stellen sich Infrastrukturteams, die Server, Netzwerkgeräte, Anwendungen und Datenbanken betreuen, seit Jahrzehnten. Warum? Weil die Definition von „normal“ in dynamischen und zunehmend verteilten Umgebungen mit unterschiedlichen zu überwachenden Systemen komplex und fehleranfällig ist. Die Antwort hängt von Ihren spezifischen Geschäftsmustern und Technologien ab. Darüber hinaus hängt sie von Ihrer Überwachungstechnologie und -konfiguration ab, da statische Schwellenwerte viele Probleme nicht erfassen. Sie geben Ihnen zwar einen guten Überblick über erwartete Ereignisse, helfen aber nicht, unerwartete Probleme zu erkennen, was zu Fehlalarmen, Alarmüberlastung und Transparenzlücken führt.
Stellen Sie sich eine Produktionsstätte vor, in der der Datenverkehr an einem Dienstag um 2 Uhr plötzlich sprunghaft ansteigt. Herkömmliche Überwachung könnte einen Alarm auslösen, weil ein voreingestellter Schwellenwert überschritten wird. Aber ist das tatsächlich ein Problem? Ohne umfassendere Daten und Diagnosen lässt sich das nicht sagen. Der Anstieg könnte auf legitime Geschäftsaktivitäten wie einen neuen Schichtplan oder eine erhöhte Produktion zur Einhaltung einer Frist hinweisen. Alternativ könnte er auf eine ernsthafte Sicherheitsbedrohung hinweisen, wie etwa Datenexfiltration oder die Übermittlung von Signalen an Command-and-Control-Server durch ein kompromittiertes System.
Hier kommt KI-gesteuerte Anomalieerkennung Verbessert die Intelligenz der Infrastrukturüberwachung. Diese neue Methode analysiert kontinuierlich historische Daten, um intelligente Baselines zu erstellen, die sich automatisch an veränderte Bedingungen anpassen. Dieser Ansatz ermöglicht proaktivere Warnmeldungen, wodurch IT-Administratoren und DevOps-Teams mehr Zeit haben, einzugreifen und das Problem zu beheben, bevor es zu schwerwiegenden Auswirkungen kommt.
Die Überwachung des Netzwerkverkehrs ist ein gutes Beispiel dafür. Infrastrukturüberwachungssysteme erfassen verschiedene Signale, darunter Protokolle und Metriken. Ein Protokoll ist ein von einem System generiertes Ereignis, während eine Metrik eine Kennzahl ist. Im Laufe der Zeit werden diese Messwerte gesammelt und als Zeitreihe dargestellt, ähnlich wie die Temperaturmessung im Tagesverlauf. Die zur Überwachung des Netzwerkzustands erfassten Daten umfassen Kennzahlen wie die Rate eingehender und ausgehender Broadcast-Pakete, die Anzahl der verworfenen Pakete und Fehler sowie den gesamten Datendurchsatz. Bei Abweichungen von der regulären Leistung kann intelligentes Monitoring sicherstellen, dass die richtigen Alarme ausgelöst und Fehlalarme vermieden werden.
Dadurch können sich Infrastrukturteams auf die Bereitstellung von Geschäftswert konzentrieren, anstatt ständig Warneinstellungen zu optimieren und Probleme zu beheben, die möglicherweise gar nicht existieren.
Vermeidung doppelter Warnmeldungen
Eine Verdoppelung der Überwachung kann zusätzliche Herausforderungen mit sich bringen, da mehr Warnmeldungen entstehen. Die Überwachung kann mit der Zeit unübersichtlich werden, wenn Teams Tracking für neue Projekte hinzufügen oder zusätzliche Überwachungsfunktionen für die Fehlerbehebung oder Tests einrichten. Schon bald kann sich ein scheinbar sauberes und einfaches Überwachungs-Setup in ein überladenes Labyrinth aus unwichtigen oder redundanten Warnmeldungen verwandeln, die Probleme eher verschleiern als aufdecken.
Beispielsweise erhalten IT-Teams manchmal Warnmeldungen über hohe CPU-Auslastung, langsame Anwendungsreaktionszeiten und Netzwerküberlastung vom selben überlasteten Server. Ohne den Zusammenhang zu verstehen, untersuchen die Teams möglicherweise drei separate Probleme, anstatt die einzige Grundursache zu ermitteln.
Moderne KI-Technologien, gekoppelt mit Monitoring, lösen dieses Problem erneut durch die automatische Erkennung ähnlicher Überwachungskonfigurationen. Mithilfe von Techniken wie Fuzzy-Mathematik und Heuristik analysiert dieser Ansatz Verhaltensmuster und deckt Korrelationen zwischen ähnlichen Überwachungen auf, um verborgene Zusammenhänge aufzudecken.
Dies ist aus zwei Hauptgründen wichtig. Erstens reduziert es die Anzahl der Warnmeldungen. Anstatt drei separate Warnmeldungen für ein Problem zu erhalten, erhalten Teams eine einzige Warnmeldung mit einem klaren Verständnis dafür, was Aufmerksamkeit erfordert und warum. Zweitens eliminiert es redundante Überwachung. Dies trägt zu einem übersichtlicheren Setup bei, das Dashboards optimiert und die kognitive Belastung reduziert.
Die Zukunft des intelligenten Monitorings
Auch andere Entwicklungen im Netzwerk- und Cybersicherheitsbereich sprechen für eine verstärkte Überwachung, da die Komplexität exponentiell zunimmt. Ehemals separate, isolierte Industrienetzwerke sind heute mit Unternehmenssystemen vernetzt. Dadurch entstehen hybride Umgebungen, in denen ein Netzwerkproblem sowohl Produktionslinien als auch Geschäftsanwendungen beeinträchtigen kann. Und Wir sehen diese Konvergenz über den modernen Stack hinweg.
Industrielle IoT-Sensoren, Edge-Gateways und OT-Geräte kommunizieren mittlerweile über Standard-IT-Protokolle. Treten bei diesen unterschiedlichen Systemen Probleme auf, benötigen Administratoren ein Monitoring, das die Zusammenhänge im gesamten Ökosystem versteht, anstatt jedes System einzeln zu betrachten. Wachsamkeit ist unerlässlich, da ein erfolgreicher Angriff Produktionslinien lahmlegen, teure Geräte beschädigen und Sicherheitsrisiken bergen kann. Ungeplante Ausfallzeiten kosten jetzt Bei den Fortune Global 500-Unternehmen beträgt der jährliche Umsatz 11 %. Dies unterstreicht, dass die Kosten für intelligentes Monitoring wesentlich geringer sind als die Kosten für manuelle Fehlerbehebung und Produktivitätsverluste.
Gleichzeitig ist es offensichtlich, dass Hacker auf der anderen Seite der Cybersicherheit diese Technologie als Produktivitätssprung für Angriffe im großen Stil nutzen. Kostenlose oder kostengünstige generative KI-Large-Language-Models (LLMs) ermöglichen es Hackern, Angriffe mit minimalem Aufwand zu generieren und zu modifizieren. Und mit der Zeit wird deutlich, dass Kriminelle KI zunehmend als bahnbrechende Neuerung betrachten. Heute 7 aus 10 glauben, dass die Technologie und ihre verschiedenen Tools das Hacken fördern; im Jahr 10 waren es nur zwei von zehn.
Heutige Algorithmen zur Anomalieerkennung basieren auf Mathematik und Statistik, die seit Jahrzehnten etabliert sind. Diese Technologie funktioniert, doch die Einführung und Anwendung von KI und LLMs in der Metriküberwachung wird bahnbrechende Veränderungen mit sich bringen. Wir erleben, wie einige der ersten zeitreihenbasierten LLMs auf den Markt kommen, und wir können davon ausgehen, dass dies die Anomalieerkennung in den nächsten zwei Jahren revolutionieren wird. Einige dieser neuen Modelle zeichnen sich durch hervorragende Genauigkeit und Fortschritte aus.
IT- und Betriebsteams haben nun die Wahl, wie sie ihre Ökosysteme optimal überwachen und Bedrohungen begegnen. Die gute Nachricht: Automatisierte Anomalieerkennung und Basisüberwachung können dazu beitragen, Anlagen besser zu schützen und gleichzeitig zu lernen, anzupassen und zu optimieren. Dies ermöglicht wiederum eine effektivere Kapazitätsplanung und Ressourcenoptimierung. Einfache Up-/Down-Checks sind nach wie vor wertvoll, aber wenn sich ein einzelnes Problem über IT-, OT- und IoT-Systeme ausbreiten kann, benötigen wir zusätzlich einen intelligenten Kontext. Infrastrukturverteidiger können der Situation begegnen, indem sie ihre Transparenz entsprechend erhöhen.