Kunstig intelligens

Forretningsanomalier: Forebyggelse af svig med afsløring af anomalier

Opdateret on 9. December, 2022

Anomalidetektion med MIDAS

Anomaly Detection er blevet et af de mest nyttige maskinlæringsværktøjer i de sidste fem år. Det kan bruges fra svindel til kvalitetskontrol. Er det muligt at isolere svindlere på online anmeldelseswebsteder? Kan svigagtige finansielle transaktioner opdages, efterhånden som de opstår? Kan live sensordata informere om strømsvigt, før de sker?

Anomalidetektion giver svar på spørgsmål som disse. Identifikation af anomalier i data er en vigtig dataforståelsesopgave. Ved at udsætte store datasæt for maskinlæringsværktøjer og statistiske metoder kan normale mønstre i data læres. Når der opstår inkonsistente hændelser, kan anomalidetektionsalgoritmer isolere unormal adfærd og markere eventuelle hændelser, der ikke svarer til de indlærte mønstre. En sådan funktionalitet er afgørende i mange business use-cases. Anomalidetektion muliggør applikationer i en lang række sektorer, fra sikkerhed til finansiering og IoT overvågning.

Web-skala grafer er i dag allestedsnærværende og er en almindelig repræsentation af big data strukturer. De driver både online og offline applikationer. Et par online eksempler er store sociale netværk, produktanbefalingsmotorer og grafer for finansielle transaktioner. I offline: vejnet, IoT-platforme og spændingssensorer i elnet er alle kilder til store mængder graflignende data. At have data repræsenteret som grafer giver både fordele og udfordringer for ejerne af nævnte datasæt. På den ene side tillader det at repræsentere datapunkter og deres relationer i et multidimensionelt rum. På den anden side er der behov for skalerbare algoritmer til dataanalyse og fortolkning. Dette har ført til en øget forskningsfokus på metoder som f.eks anomalidetektion på grafdata.

Lad os se nærmere på en state-of-the-art algoritme udviklet til registrering af anomalier i dynamiske grafdata.

MIDAS

Mikroklyngebaseret detektor af anomalier i kantstrømme (MIDAS) er en algoritme, der tackler anomalidetektion på dynamisk grafiske data. Den er udviklet af forskere ved National University of Singapore, som hævder, at deres metode overgår de nyeste tilgange. Deres metode afhjælper den mest almindelige mangel ved tidligere implementeringer af anomalidetektion:

Nedenfor er den nye baseline for anomalidetektion udviklet af Siddarth Bhatia og hans team ved University of Singapore

Introduktion af MIDAS: A New Baseline for Anomaly Detection in Graphs. Billedkilde: Blog

Repræsentation af data som en statisk graf

Statiske grafer indeholder kun forbindelsesoplysninger og ignorerer tidsmæssige oplysninger. De er også kendt som grafsnapshots og kan kun bruges til at spotte usædvanlige grafenheder (f.eks. mistænkelige noder, kanter eller subgrafer). For mange praktiske anvendelser er det tidsmæssige aspekt dog lige så vigtigt: det er relevant at vide hvornår grafstrukturen har ændret sig. For at illustrere, i en statisk graf, der repræsenterer netværkstrafikstrøm, informerer en kant kun, at der er en forbindelse mellem en kilde-IP-adresse og en destinations-IP-adresse. Men den tidsmæssige beskrivelse af kanten mangler, og derfor er tidspunktet for, hvornår de to adresser forbundet, ukendt. Da statiske grafer ikke kunne modellere sådanne tidsmæssige oplysninger, giver anomalidetektionsmetoder, der er bygget oven på sådanne grafer, kun begrænset understøttelse af applikationer i den virkelige verden.

På den anden side, MIDAS håndterer data gemt i en dynamisk kurve. Hvert af elementerne i grafen har et tilknyttet tidsstempel, der repræsenterer tidspunktet, hvor dette element blev føjet til grafen. Ved at følge op på eksemplet ovenfor vil en dynamisk netværkstrafikgraf også informere om hvornår der opstod en forbindelse mellem to IP-adresser. Tidsstemplet ændres, når en eksisterende kant eller node opdateres, eller når nye kanter tilføjes til grafen. Som sådan er dynamiske grafer en tidsudviklende struktur, der bedre passer til mange virkelige applikationer, som er dynamiske af natur. De gør det muligt at bruge både tilslutnings- og tidsinformation til detektering af mistænkelige grafelementer. Baseret på den egenskab kan MIDAS detektere uregelmæssigheder i realtid og tilbyder dermed support til mange business use-cases.

MIDAS er optimeret til at arbejde på dynamiske grafdata. Som vi har set ovenfor, gør dynamiske grafer det muligt at repræsentere tidsvarierende data. Det betyder dog også, at selve grafstrukturen også ændrer sig over tid. Dette introducerer visse udfordringer for anomalidetektionsalgoritmerne, der sigter mod at bruge disse data i realtidsapplikationer. Et eksempel er metodens skalerbarhed med hensyn til ændring af grafkarakteristika. I betragtning af de store datamængder, der svarer til nogle applikationer, skal algoritmer være lineært skalerbare til størrelsen af grafen. MIDAS kører på en online måde og behandler hver kant i konstant tid og konstant hukommelse. Forfatterne rapporterer også, at algoritmen kører "162-633 gange hurtigere end state-of-the-art tilgange". Dette gør algoritmen velegnet til realtidsapplikationer, hvor behandling af højvolumen datastrømme er nødvendig.

Hvilke business use-cases har brug for MIDAS?

For at få et lille indblik i afsløring af anomalier, der bruges i dagens forretningsverden, har vi interviewet en Canada-baseret udbyder af kryptovaluta, NDAX. NDAX bruger anomalidetektion inden for tre områder af deres virksomhed. Generel forretningsdrift, marketingafdelingen og compliance-teamet. Anomalidetektion hjælper med at identificere fejl, hvilket giver dem mulighed for at forbedre hjemmesidens ydeevne og klient-onboarding-processen. Det giver dem også mulighed for at give vejledning til softwareudvikling og backoffice-driftsteams om, hvordan de løser disse problemer. Websitetrafik er et andet område, der kan udnytte kraften ved afsløring af anomalier. Forståelse af outliers i websitetrafik giver indsigt og bedre forståelse til markeringsteamet, hvilket giver dem mulighed for at identificere, om en marketingkampagne virker eller ej. På den måde får man et klarere billede af, hvilket område der er det vigtigste for at koncentrere indsatsen. Vores sidste eksempel er, hvordan uregelmæssigheder i klienttilmelding hjælper compliance-teamet med at identificere potentiel svindel og reducere klientrisikoen.

I vores diskussion med NDAX Chief Compliance Officer fremhæver Julia Baranovskaya, hvordan anomalidetektions betydning er blevet understreget under den nuværende pandemi. Der har været en stigning på 300 % i antallet af opdaget svindel i de sidste par måneder. Desperate tider kombineret med høj onlinetrafik inviterer til svindel af alle slags, der er målrettet arbejdsløse og ældre. Med afsløring af anomalier er vi nu i stand til at omdanne disse outliers til indikatorer for svindel eller tendenser. Følgende graf viser, hvordan svindel har svinget i den forreste halvdel af dette år.

NDAX konstaterede en stigning i svindel i 2. kvartal, især svindel, der involverede ældre og falske jobopslag.

Hvad med din virksomhed?

Algoritmer til registrering af anomalier kan hjælpe virksomheder med at identificere og reagere på usædvanlige datapunkter i flere scenarier. Et banksikkerhedssystem kan anvende anomalidetektion til identifikation af svigagtige transaktioner. Ligeledes er produktionsanlægsejere afhængige af afvigelsesdetektion for at håndtere defekt udstyr og implementere forudsigende vedligeholdelsesforanstaltninger. I IoT-sensornetværk, anvendes anomalidetektion som en del af tilstandsovervågningsløsninger og til forebyggelse af uønsket malware-implementering. Bundpunktet er klart: Virksomheder, der har adgang til store mængder data, kan anvende MIDAS (og andre anomalidetektionsalgoritmer) for at identificere usædvanlige mønstre i realtid.

Hvordan er dine data struktureret, og hvordan kan vi hjælpe dig med at opsætte en moderne løsning til registrering af anomalier?

Skriv til os og fortæl os det. Det Blå Orange Digital datavidenskabsteamet er glade for at få anomalidetektion til også at fungere til din fordel!

hovedbilledkilde: Canva

Relaterede emner:afsløring af anomalier kunstig intelligens datalogi bedrageri Maskinelæring regulering sikkerhed

Næste

Robert Weissgraeber, CTO & Managing Director hos AX Semantics – Interview Series

Gå ikke glip af

AI-kontrolleret jetjager besejrer den menneskelige pilot i simuleret kamp

Josh Miramant

Josh Miramant er administrerende direktør og grundlægger af Blå Orange Digital, et toprangeret datavidenskabs- og maskinlæringsbureau med kontorer i New York City og Washington DC. Miramant er en populær foredragsholder, fremtidsforsker og en strategisk forretnings- og teknologirådgiver for virksomhedsvirksomheder og startups. Han hjælper organisationer med at optimere og automatisere deres virksomheder, implementere datadrevne analyseteknikker og forstå implikationerne af nye teknologier såsom kunstig intelligens, big data og Internet of Things.