Intelligenza artificiale

Anomalie aziendali: prevenire le frodi con la rilevazione delle anomalie

mm

Rilevazione delle anomalie con MIDAS

La rilevazione delle anomalie è diventata uno degli strumenti di apprendimento automatico più utili degli ultimi cinque anni. Può essere utilizzata dalla frode al controllo della qualità. È possibile isolare i truffatori nei siti di recensioni online? È possibile rilevare le transazioni finanziarie fraudolente mentre si verificano? È possibile che i dati dei sensori in tempo reale informino sulle interruzioni della rete elettrica prima che si verifichino?

La rilevazione delle anomalie fornisce risposte a domande come queste. L’identificazione delle anomalie nei dati è un’attività fondamentale per la comprensione dei dati. Esponendo grandi set di dati a strumenti di apprendimento automatico e metodi statistici, è possibile apprendere modelli normali nei dati. Quando si verificano eventi inconsistenti, gli algoritmi di rilevazione delle anomalie possono isolare comportamenti anomali e segnalare qualsiasi evento che non corrisponda ai modelli appresi. Tale funzionalità è cruciale in molti casi d’uso aziendali. La rilevazione delle anomalie consente applicazioni in un gran numero di settori, dalla sicurezza alla finanza e al monitoraggio IoT.

I grafi a scala web sono oggi onnipresenti e sono una rappresentazione comune di strutture di dati di grandi dimensioni. Sono utilizzati sia in applicazioni online che offline. Alcuni esempi online sono grandi reti sociali, motori di raccomandazione di prodotti e grafi di transazioni finanziarie. Offline, le reti stradali, le piattaforme IoT e i sensori di tensione nelle reti elettriche sono tutte fonti di grandi quantità di dati a forma di grafo. Avere i dati rappresentati come grafi presenta sia vantaggi che sfide per i proprietari di tali set di dati. Da un lato, consente di rappresentare i dati e le loro relazioni in uno spazio multidimensionale. Dall’altro lato, sono necessari algoritmi scalabili per l’analisi e l’interpretazione dei dati. Ciò ha portato a un aumento della ricerca sulle metodi come la rilevazione delle anomalie nei dati dei grafi.

Vediamo più da vicino un algoritmo all’avanguardia sviluppato per la rilevazione delle anomalie in dati di grafi dinamici.

MIDAS

Microcluster-Based Detector of Anomalies in Edge Streams (MIDAS) è un algoritmo che affronta la rilevazione delle anomalie in dati di grafi dinamici. È stato sviluppato da ricercatori della National University of Singapore che affermano che il loro metodo supera gli approcci attuali. Il loro metodo allevia il più comune limite delle precedenti implementazioni di rilevazione delle anomalie:

Di seguito è riportata la nuova baseline per la rilevazione delle anomalie sviluppata da Siddarth Bhatia e il suo team all’Università di Singapore

Introducing MIDAS: A New Baseline for Anomaly Detection in Graphs

Introducing MIDAS: A New Baseline for Anomaly Detection in Graphs. Image Source: Blog

La rappresentazione dei dati come un grafo statico

I grafi statici contengono solo informazioni di connettività e ignorano le informazioni temporali. Sono anche noti come istantanee di grafi e possono essere utilizzati solo per rilevare entità di grafo insolite (ad es. nodi, archi o sottografi sospetti). Tuttavia, per molte applicazioni pratiche, l’aspetto temporale è altrettanto importante: è rilevante sapere quando la struttura del grafo è cambiata. Per illustrare, in un grafo statico che rappresenta un flusso di traffico di rete, un arco informa solo che c’è una connessione tra un indirizzo IP di origine e un indirizzo IP di destinazione. Ma la descrizione temporale dell’arco è mancante e quindi il momento in cui i due indirizzi si sono connessi è sconosciuto. Poiché i grafi statici non possono modellare tali informazioni temporali, i metodi di rilevazione delle anomalie costruiti su tali grafi forniscono solo un supporto limitato per le applicazioni del mondo reale.

D’altra parte, MIDAS gestisce i dati archiviati in un grafo dinamico. Ogni elemento del grafo ha un timestamp associato, che rappresenta il momento in cui quell’elemento è stato aggiunto al grafo. Continuando con l’esempio precedente, un grafo di traffico di rete dinamico informerebbe anche sul momento in cui si è verificata una connessione tra due indirizzi IP. Il timestamp cambia ogni volta che un arco o un nodo esistente viene aggiornato o quando nuovi archi vengono aggiunti al grafo. In quanto tale, i grafi dinamici sono una struttura in evoluzione nel tempo che si adatta meglio a molte applicazioni del mondo reale, che sono dinamiche per natura. Consentono di utilizzare sia le informazioni di connettività che quelle temporali per la rilevazione di elementi di grafo sospetti. Sulla base di questa capacità, MIDAS può rilevare anomalie in tempo reale e quindi offre supporto per molti casi d’uso aziendali.

MIDAS è ottimizzato per funzionare su dati di grafi dinamici. Come abbiamo visto sopra, i grafi dinamici consentono di rappresentare dati che variano nel tempo. Tuttavia, ciò significa anche che la struttura del grafo stesso cambia nel tempo. Ciò introduce alcune sfide per gli algoritmi di rilevazione delle anomalie che mirano a utilizzare questi dati in applicazioni in tempo reale. Un esempio è la scalabilità del metodo rispetto alle caratteristiche del grafo che cambiano. Date le grandi quantità di dati corrispondenti ad alcune applicazioni, gli algoritmi devono essere linearmente scalabili rispetto alle dimensioni del grafo. MIDAS funziona in modalità online e elabora ogni arco in tempo costante e memoria costante. Gli autori riportano anche che l’algoritmo funziona “162-633 volte più veloce degli approcci attuali”. Ciò rende l’algoritmo adatto per applicazioni in tempo reale, dove l’elaborazione di flussi di dati ad alto volume è necessaria.

Quali casi d’uso aziendali necessitano di MIDAS?

Per avere un’idea di come la rilevazione delle anomalie sia utilizzata nel mondo aziendale di oggi, abbiamo intervistato il fornitore di criptovalute canadese NDAX. NDAX utilizza la rilevazione delle anomalie in tre aree del loro business. Operazioni aziendali generali, dipartimento marketing e team di conformità. La rilevazione delle anomalie aiuta a identificare i bug, il che consente loro di migliorare le prestazioni del sito web e il processo di onboarding dei clienti. Consente anche di fornire indicazioni ai team di sviluppo software e operazioni back-office su come risolvere tali problemi. Un’altra area che può sfruttare il potere della rilevazione delle anomalie è il traffico del sito web. Comprendere gli outlier nel traffico del sito web fornisce insight e una migliore comprensione al team di marketing, il che consente di identificare se una campagna di marketing funziona o no. Ciò fornisce un’immagine più chiara di quale area è la più importante su cui concentrare gli sforzi. Il nostro ultimo esempio è come l’anomalia di registrazione dei clienti aiuta il team di conformità a identificare potenziali frodi e ridurre il rischio per i clienti.

Nella nostra discussione con il Chief Compliance Officer di NDAX, Julia Baranovskaya, sottolinea come l’importanza della rilevazione delle anomalie sia stata sottolineata durante la pandemia attuale. C’è stato un aumento del 300% delle frodi rilevate negli ultimi mesi. Tempi disperati combinati con un alto traffico online invitano a truffe di tutti i tipi che prendono di mira i disoccupati e gli anziani. Con la rilevazione delle anomalie, siamo ora in grado di trasformare questi outlier in indicatori di frode o tendenze. Il seguente grafico mostra come la frode abbia fluttuato nel primo semestre di quest’anno.

NDAX ha rilevato un aumento delle frodi nel Q2, in particolare truffe che coinvolgono gli anziani e annunci di lavoro falsi.

Come per il tuo business?

Gli algoritmi di rilevazione delle anomalie possono aiutare le aziende a identificare e reagire a punti di dati insoliti in molteplici scenari. Un sistema di sicurezza bancaria può utilizzare la rilevazione delle anomalie per l’identificazione di transazioni fraudolente. Allo stesso modo, i proprietari di impianti di produzione si affidano alla rilevazione delle anomalie per gestire attrezzature difettose e implementare misure di manutenzione predittiva. Nei reti di sensori IoT, la rilevazione delle anomalie viene utilizzata come parte delle soluzioni di monitoraggio delle condizioni e per la prevenzione della distribuzione di malware indesiderati. Il punto fondamentale è chiaro: le aziende che hanno accesso a grandi quantità di dati possono utilizzare MIDAS (e altri algoritmi di rilevazione delle anomalie) per identificare modelli insoliti in tempo reale.

Come sono strutturati i tuoi dati e come possiamo aiutarti a configurare una soluzione di rilevazione delle anomalie moderna? Contattaci e faccelo sapere. Il team di data science di Blue Orange Digital è felice di far funzionare la rilevazione delle anomalie anche per te!

fonte immagine principale: Canva

Josh Miramant è il CEO e fondatore di Blue Orange Digital, un'agenzia di data science e machine learning di alto livello con sedi a New York City e Washington DC. Miramant è un noto relatore, futurista e consulente strategico per aziende e startup. Aiuta le organizzazioni a ottimizzare e automatizzare le loro attività, implementare tecniche analitiche basate sui dati e comprendere le implicazioni di nuove tecnologie come l'intelligenza artificiale, i big data e l'Internet delle Cose.