Leader di pensiero

L’AI sta costringendo un reset nell’osservabilità della rete

mm

Per anni, l’osservabilità della rete è stata una discussione sugli strumenti. Quale piattaforma raccoglie l’insieme più ampio di telemetria? Quale agente copre i miei dispositivi più oscuri? Quale architettura funzionerà meglio in scala? In quali punti della rete dovremmo catturare i pacchetti? Quella conversazione presumeva che la rete fosse relativamente stabile e che i cambiamenti fossero incrementali.

Non lo è più.

I carichi di lavoro guidati da AI stanno aumentando la variabilità del traffico, poiché l’adozione di AI si accelera in tutta l’azienda. Ricerche recenti mostrano che il 88% delle organizzazioni utilizza ora AI in almeno una funzione aziendale. Le architetture ibride si estendono tra cloud, data center, WAN e edge. I segnali di sicurezza e prestazioni si sovrappongono ora in modi che non esistevano cinque anni fa. E l’azienda si aspetta una risoluzione più rapida, meno interruzioni e una chiara responsabilità.

Sotto quella pressione, gli approcci attuali all’osservabilità della rete stanno fallendo. Non perché le squadre manchino di abilità, ma perché l’architettura sottostante all’osservabilità non ha tenuto il passo.

Non si tratta di aggiungere più dashboard o catturare più dati. Si tratta di riconoscere che l’osservabilità deve evolversi da una raccolta di strumenti in una fondazione di dati coerente. Quella fondazione è ciò che consentirà alle squadre di operazioni di rete (NetOps) di sfruttare l’AI per l’osservabilità e l’intelligenza della rete.

Ecco come pensare a dove sei e come andare avanti.

Dove sei sulla curva di maturità?

La ricerca di Enterprise Management Associates (EMA) ha mostrato che solo il 46% dei leader IT credeva di essere completamente soddisfatto degli strumenti di osservabilità della rete. La maggior parte delle lamentele sono ben note, con la dispersione degli strumenti, il rumore degli allarmi e la scarsa qualità dei dati che fanno la lista.

Il rapporto EMA del 2025, Network Observability Maturity Model: come pianificare l’eccellenza NetOps, ha anche identificato cinque stadi distinti di maturità:

  1. Ad Hoc e Reattivo
  2. Fragmentato e Opportunistico
  3. Integrato e Gestito Centralmente
  4. Intelligente e Automatizzato
  5. Ottimizzato e Guidato da AI

Oggi voglio concentrarmi sugli ultimi tre stadi, che è dove si trovano la maggior parte delle organizzazioni, prima di descrivere il percorso per raggiungere lo stadio finale.

Fragmentato e Opportunistico

Hai più strumenti di osservabilità. Spesso tre o quattro. La ricerca di settore riflette lo stesso modello, con l’87% delle squadre NetOps che ora si affidano a più strumenti di osservabilità, eppure solo il 29% degli allarmi che generano sono azionabili. La copertura esiste, ma è irregolare. Gli ingegneri agiscono come strato di integrazione, spostandosi tra le console e correlando mentalmente gli eventi. L’AI può essere presente, ma opera all’interno di silos. Le squadre lavorano sodo in questo stadio, ma l’architettura lavora contro di loro.

Integrato e Gestito Centralmente

Hai raggiunto una forte copertura di monitoraggio su infrastruttura e traffico. C’è una certa integrazione tra i sistemi. Le dashboard sono standardizzate. Puoi avere un’automazione precoce per incidenti comuni.

Ma l’analisi della causa radice dipende ancora dalla cucitura manuale. Le informazioni predittive sono limitate. L’AI accelera l’analisi, ma non cambia fondamentalmente il modo in cui la rete è compresa.

Intelligente e automatizzato

La telemetria è in tempo reale dove conta. I dati di flusso, pacchetto e configurazione sono correlati. Gli allarmi sono contestuali, non guidati da soglie. L’AI supporta la rilevazione delle anomalie, la previsione della capacità e la guida alla correzione. L’automazione è introdotta deliberatamente e all’interno di barriere di guardia. Solo le organizzazioni con risorse adeguate sono a questo stadio.

Un gruppo più piccolo di organizzazioni di classe mondiale ha raggiunto lo stadio finale di maturità, Ottimizzato e Guidato da AI. Gli strumenti soli non ti aiuteranno a evolvere.

Dallo stadio Intelligente e automatizzato a Ottimizzato e Guidato da AI: cosa fare dopo

La modernizzazione dell’osservabilità della rete non richiede di smantellare ciò che hai. Richiede uno spostamento dagli strumenti ai dati.

1. Inizia con la coerenza dei dati, non con più AI

Prima di espandere le iniziative AI, chiediti una domanda: i nostri dati di rete sono puliti, coerenti e connessi tra i domini?

I formati di telemetria incoerenti, i punti ciechi nel cloud o nel SD-WAN, gli spazi IP duplicati e i record di inventario obsoleti minano i risultati dell’AI più di quanto la maggior parte dei dirigenti si renda conto. Se la telemetria non può essere affidabilmente collegata all’identità e al contesto dall’indirizzamento autoritativo, la correlazione rimane probabilistica piuttosto che definitiva.

È qui che contano i servizi di rete fondamentali. DNS, DHCP e gestione degli indirizzi IP (noti insieme come DDI) formano la mappa autoritativa della rete. Ogni dispositivo, carico di lavoro e connessione si interseca con quel livello.

Quando la telemetria di osservabilità è arricchita con l’intelligenza di identità e indirizzamento autoritativo, l’analisi diventa più solida. L’AI può distinguere il comportamento atteso dall’anomalia vera con maggiore fiducia. L’analisi della causa radice avviene più rapidamente. L’automazione diventa più sicura.

2. Riduci la dispersione degli strumenti attraverso un’integrazione profonda

La maggior parte delle aziende continuerà a operare con più sistemi di osservabilità. Quello non è il problema principale. Il problema è l’integrazione superficiale.

Incorporare una dashboard all’interno di un’altra o condividere esportazioni di dati di base non crea coerenza. Gli ambienti maturi integrano al livello dei dati. Coordinano la raccolta della telemetria, correlano gli allarmi tra i domini e abilitano flussi di lavoro che attraversano gli strumenti piuttosto che rimanere intrappolati all’interno.

Quando l’integrazione raggiunge quel livello, la consolidazione diventa razionale invece che politica. I sistemi ridondanti sono più facili da ritirare. La telemetria sovrapposta è più facile da razionalizzare. L’AI opera su un contesto unificato invece che su frammenti cuciti insieme.

3. Modernizza in fasi per evitare la disruzione

La paura di destabilizzare gli ambienti legacy è legittima. Nessuno vuole rompere la produzione mentre persegue la purezza architettonica. Un approccio fase riduce quel rischio.

Fase uno: Sovrapposizione dell’intelligenza

Flusso della telemetria in uno strato di analisi condiviso. Arricchiscilo con il contesto di identità e politica. Utilizza l’AI per la rilevazione e la raccomandazione, non per l’applicazione autonoma.

Fase due: Standardizzazione e razionalizzazione

Mentre la correlazione migliora e il rumore diminuisce, identifica gli strumenti ridondanti e ritira quelli che non possono partecipare all’architettura unificata.

Fase tre: Introduzione dell’automazione con barriere di guardia

Inizia con scenari di automazione a basso rischio. Lascia che l’AI agente suggerisca la correzione prima di consentire l’esecuzione. Espandi gradualmente mentre la fiducia e la governance maturano.

Non si tratta di azionare un interruttore. Si tratta di aumentare la coerenza senza sacrificare la stabilità.

La svolta strategica: passare a Ottimizzato e Guidato da AI

L’osservabilità non è più una raccolta di strumenti di monitoraggio. È un’infrastruttura di base guidata da AI che richiede una nuova base. Quando le organizzazioni ancorano l’osservabilità in un’architettura di dati unificata e in un’intelligenza di rete autoritativa, l’AI diventa anticipatoria.

L’analisi predittiva passa dalla teoria alla pratica. Analizzando la telemetria storica e in tempo reale insieme, l’AI può identificare i primi segnali di carico di capacità, deriva di configurazione o comportamento anomalo prima che si aggravino. Invece di correre a riparare gli outage, le squadre intervengono prima che gli utenti notino il degrado. Ciò è particolarmente significativo perché gli outage IT su larga scala possono costare alle organizzazioni fino a 2 milioni di dollari all’ora.

La pianificazione della capacità diventa dinamica invece che periodica. L’esaurimento delle risorse e la saturazione del servizio possono essere proiettati in anticipo, consentendo un’ottimizzazione proattiva invece di un aumento reattivo.

Questo è ciò che si trova all’orizzonte.

Se i tuoi dati sono frammentati, l’AI li esporrà.

Se la tua fondazione è coerente, l’AI diventa un vantaggio.

La domanda non è se adotterai l’osservabilità e l’intelligenza guidate da AI. La domanda è se la tua architettura è pronta per essa.

Scott Fulton è Chief Product e Technology Officer di BlueCat e un veterano leader tecnologico aziendale con più di 20 anni di esperienza in infrastrutture cloud, DevOps e sicurezza informatica. In precedenza, ha fondato la startup di osservabilità cloud OpsCruise, dove ha guidato lo sviluppo di tecnologie guidate da AI utilizzate da organizzazioni Fortune 500.