Tankeledere
Beyond Up/Down: Det finnes en bedre måte å definere ‘normalt’ i kompleks infrastruktur

Vi har kommet langt fra up/down-overvåking. Fra fabrikksgulv til moderne bedriftsinfrastruktur, trenger IT-administratorer nå betydelig mer informasjon enn en enkel sjekking for å bestemme om en nettside eller en applikasjon kan betjene brukere. Selvfølgelig er det nyttig å se en grunnleggende “opprett” eller “ned”-status, men dette forteller ikke hele historien om hvordan teknologien leverer den forventede forretningsverdien. Videre, ettersom IT- og OT-miljøer konvergerer og økosystemer blir mer dynamiske og efemére, reflekterer disse varslingene ikke nøyaktig eller etablerer baselinjer.
Å forstå hva som er normalt, å lære om ytelsesmønster og å forebygge dyrekostbar nedtid er viktige funksjoner i dagens komplekse infrastruktur. Dette er særlig sant ettersom trusler bruker stadig mer sofistikerte verktøy for å gjøre mer med mindre, og moderne sammenkoblede infrastruktur skaper nye sårbarheter.
Det er i dette landskapet at AI-drevet overvåking transformerer infrastrukturhåndtering ved å tilby innsikt i hva som er og hva som ikke er normalt atferd, og dermed eliminerer dårlige baselinjer og varslingsutmattelse. La oss utforske hvordan denne skiftet fra reaktiv brannslukking til proaktiv forebygging markerer en nødvendig overvåkingsutvikling.
Oppdage det nye normale
Hva er normalt, hvis ikke? Dette er et spørsmål som infrastrukturteam som overvåker servere, nettverksenheter, applikasjoner og databaser har stilt i årevis. Hvorfor? Fordi å definere ‘normalt’ er komplekst og feilfølsomt over dynamiske og stadig mer distribuerte miljøer med diverse systemer å overvåke. Å finne svaret vil avhenge av dine spesifikke forretningsmønster og teknologier. Dessuten vil det avhenge av din overvåkingsteknologi og konfigurasjon, fordi å sette statiske terskler ikke fanger mange problemer. I stedet vil det gi deg en god idé om når noe skjer som du forventer, men hjelper ikke å fange problemer du ikke forventer, noe som fører til feilpositive, varslingsutmattelse og hull i synlighet.
Tenk på en fabrikk hvor trafikken plutselig øker klokken 14 på en tirsdag. Tradisjonell overvåking kan utløse en varsel fordi den overskrider en forhåndsinnstilt terskel, men er dette virkelig et problem? Det finnes ingen måte å vite uten dyptere data og diagnostikk. Økningen kan indikere legitime forretningsaktiviteter som en ny skiftplan eller økt produksjon for å møte en frist. Alternativt kan det signalisere en alvorlig sikkerhetstrussel, som dataeksfiltrering eller et kompromittert system som sender signaler til kommando- og kontrollservere.
Dette er hvor AI-drevet anomalideteksjon forbedrer intelligensen i infrastruktur-overvåking. Denne nye metoden analyserer kontinuerlig historiske data for å lage intelligente baselinjer som automatisk justerer seg etter endrede forhold. Denne tilnærmingen tillater mer proaktiv varslingsutløsing som gir ekstra tid for IT-administratorer og DevOps-team å gripe inn og mildne problemet før det får store konsekvenser.
Overvåking av nettverkstrafikk er et godt eksempel på dette i praksis. Infrastruktur-overvåkingssystemer samler inn diverse signaler, inkludert logger og målinger. En logg er en hendelse generert av et system, mens en måling er en måling. Over tid samles disse målingene inn og presenteres som en tidsserie, lik temperaturmålinger gjennom dagen. Dataene som samles inn for å overvåke nettforhold inkluderer målinger som innkommende og utgående broadcast-pakkehastigheter, antall forkastninger og feil, og total trafikkgjennomstrømming. Hvis noe er feil i forhold til vanlig ytelse, kan intelligent overvåking sikre at riktige varsler utløses og feilpositive unngås.
Som resultat kan infrastrukturteam fokusere på å levere forretningsverdi i stedet for å stadig finjustere varslingsinnstillinger og slukke problemer som kanskje ikke eksisterer.
Unngå varslingsduplisering
Dobling av overvåking kan introdusere ekstra utfordringer ved å skape flere varsler. Overvåking kan bli overbelastet over tid ettersom team legger til sporing for nye prosjekter eller lager ekstra overvåking når de feilsøker eller tester. Før lenge kan det som en gang var en ren og enkel overvåkingsoppsett bli en overbelastet labyrint av spurious eller redundante varsler som skjuler snarere enn å belyse problemer.
For eksempel kan IT-team motta varsler for høy CPU-bruk, langsom applikasjonsrespons og nettverkskongestjon fra samme overbelastede server. Uten å forstå korrelasjonen, kan teamene etterforske tre separate problemer i stedet for én enkelt rotårsak.
Moderne AI-teknologier, når de kobles med overvåking, transformerer igjen denne problemstillingen gjennom automatisk deteksjon av lignende overvåkingskonfigurasjoner. Ved å bruke teknikker som fuzzy matematikk og heuristikk, analyserer denne tilnærmingen atferdsmønster og avdekker korrelasjoner mellom lignende overvåking for å avsløre skjulte sammenhenger.
Dette er viktig av to hovedgrunner. Først, det reduserer varslingsstøy. I stedet for å motta tre separate varsler fra ett problem, får teamet ett enkelt varsel med en tydelig forståelse av hva som trengs oppmerksomhet og hvorfor. For det andre, det eliminerer redundant overvåking. Dette hjelper til å lage et mer håndterbart oppsett som strømlinjeformer dashboards og reduserer den kognitive belastningen.
Fremtiden for intelligent overvåking
Andre nettverks- og sikkerhetsutviklinger støtter også opp om behovet for økt overvåking ettersom kompleksiteten fortsetter å vokse eksponentielt. Det som en gang var separate, luftgappede industrielle nettverk er nå sammenkoblede med bedriftssystemer, og skaper hybridmiljøer hvor ett nettverksproblem kan påvirke både produksjonslinjer og forretningsapplikasjoner. Og vi ser denne konvergeringen over hele den moderne stakken.
Industrielle IoT-sensorer, edge-gateways og OT-enheter kommuniserer nå sammen med standard IT-protokoller. Når disse diverse systemene opplever problemer, trenger administratorer overvåking som kan forstå relasjoner over hele økosystemet, snarere enn å behandle hver som en separat silo. Vigilans er ikke forhandelbar, ettersom en vellykket brudd kan stoppe produksjonslinjer, skade dyre utstyr og utgjøre sikkerhetsrisiko. I virkeligheten koster uventet nedtid Fortune Global 500-selskaper 11% av deres årlige omsetning, og understreker at kostnadene ved intelligent overvåking er betydelig lavere enn utgiftene til manuell feilsøking og tapt produktivitet.
I mellomtiden er det ingen måte å unngå at hackere på den andre siden av sikkerhetsregnskapet bruker denne teknologien som en produktivitetsgjennombrudd for å angripe i stor skala. Gratis eller billig generativ AI-store språkmodeller (LLM-er) muliggjør at hackere kan generere og modifisere angrep til minimal kostnad. Og med tid, er det klart at dårlige aktører stadig ser AI som en game-changer. I dag 7 av 10 mener at teknologien og dens ulike verktøy forbedrer hacking, opp fra bare to av 10 i 2023.
I dagens anomalideteksjonsalgoritmer er basert på matematikk og statistikk som har vært etablert i årevis. Denne teknologien fungerer, men introduksjonen og anvendelsen av AI og LLM-er til metrikkovervåking er game-changing. Vi ser noen av de første gang-tidsserie-baserte LLM-er komme på markedet, og kan forvente at dette vil transformere anomalideteksjon over de neste to årene. Flere av disse nye modellene viser utmerket nøyaktighet og fremgang.
Valget ligger nå hos IT- og operasjonsteam om hvordan de best kan overvåke sine økosystemer og motstå trusler. Det gode nytt er at automatisk anomalideteksjon og baselinjeovervåking kan hjelpe til å bedre beskytte aktiva samt lære, tilpasse og optimere, noe som igjen muliggjør mer effektiv kapasitetsplanlegging og ressursOptimering. Grunnleggende up/down-sjekking er fortsatt verdifull, men – når ett enkelt problem kan kaskade over IT-, OT- og IoT-systemer – trenger vi intelligent kontekst på toppen av denne grunnleggende funksjonen. Infrastruktur-forsvarere kan møte øyeblikket ved å skalerer opp sin synlighet deretter.












