Kontakt med oss

Kunstig intelligens

Forretningsavvik: Forebygging av svindel med oppdagelse av anomalier

mm
oppdatert on

Anomalideteksjon med MIDAS

Anomaly Detection har blitt et av de mest nyttige maskinlæringsverktøyene de siste fem årene. Det kan brukes fra svindel til kvalitetskontroll. Er det mulig å isolere svindlere på nettsteder for anmeldelser på nettet? Kan uredelige økonomiske transaksjoner oppdages etter hvert som de oppstår? Kan live sensordata informere om strømnettfeil før de skjer?

Anomalideteksjon gir svar på spørsmål som disse. Å identifisere uregelmessigheter i data er en viktig dataforståelsesoppgave. Ved å eksponere store datasett for maskinlæringsverktøy og statistiske metoder, kan normale mønstre i data læres. Når inkonsistente hendelser oppstår, kan algoritmer for avviksdeteksjon isolere unormal oppførsel og flagge eventuelle hendelser som ikke samsvarer med de lærte mønstrene. Slik funksjonalitet er avgjørende i mange forretningsbruk. Anomalideteksjon muliggjør applikasjoner i et stort antall sektorer, fra sikkerhet til finans og IoT-overvåking

Grafer i nettskala er i dag allestedsnærværende og er en vanlig representasjon av store datastrukturer. De driver både online og offline applikasjoner. Noen få netteksempler er store sosiale nettverk, produktanbefalingsmotorer og grafer for økonomiske transaksjoner. I offline: veinettverk, IoT-plattformer og spenningssensorer i elektriske strømnett er alle kilder til store mengder graflignende data. Å ha data representert som grafer gir både fordeler og utfordringer for eierne av nevnte datasett. På den ene siden tillater det å representere datapunkter og deres relasjoner i et flerdimensjonalt rom. På den annen side er det behov for skalerbare algoritmer for dataanalyse og tolkning. Dette har ført til en økt forskningsfokus på metoder som f.eks anomalideteksjon på grafdata.

La oss se nærmere på en toppmoderne algoritme utviklet for avviksdeteksjon i dynamiske grafdata.

MIDAS

Mikroklyngebasert detektor for anomalier i kantstrømmer (MIDAS) er en algoritme som takler anomalideteksjon på dynamisk grafiske data. Den er utviklet av forskere ved National University of Singapore som hevder at metoden deres overgår de nyeste tilnærmingene. Metoden deres lindrer den vanligste mangelen ved tidligere implementeringer av avviksdeteksjon:

Nedenfor er den nye grunnlinjen for anomalideteksjon utviklet av Siddarth Bhatia og teamet hans ved University of Singapore

Vi introduserer MIDAS: A New Baseline for Anomaly Detection in Graphs

Vi introduserer MIDAS: A New Baseline for Anomaly Detection in Graphs. Bildekilde: Blogg

Å representere dataene som en statisk graf

Statiske grafer inneholder bare tilkoblingsinformasjon og ignorerer tidsinformasjon. De er også kjent som grafiske øyeblikksbilder og kan bare brukes til å oppdage uvanlige grafenheter (f.eks. mistenkelige noder, kanter eller subgrafer). Men for mange praktiske anvendelser er det tidsmessige aspektet like viktig: det er relevant å vite når grafstrukturen har endret seg. For å illustrere, i en statisk graf som representerer nettverkstrafikkstrøm, informerer en kant kun om at det er en forbindelse mellom en kilde-IP-adresse og en destinasjons-IP-adresse. Men den tidsmessige beskrivelsen av kanten mangler, og derfor er tidspunktet for de to adressene koblet sammen ukjent. Siden statiske grafer ikke kunne modellere slik tidsinformasjon, gir anomalideteksjonsmetoder bygget på toppen av slike grafer kun begrenset støtte for virkelige applikasjoner.

På den annen side, MIDAS håndterer data som er lagret i en dynamisk kurve. Hvert av elementene i grafen har et tilknyttet tidsstempel, som representerer tidspunktet da elementet ble lagt til grafen. Ved å følge opp eksemplet ovenfor vil en dynamisk nettverkstrafikkgraf også informere om når det oppstod en tilkobling mellom to IP-adresser. Tidsstemplet endres når en eksisterende kant eller node oppdateres, eller når nye kanter legges til grafen. Som sådan er dynamiske grafer en tidsutviklende struktur som bedre passer mange virkelige applikasjoner, som er dynamiske i naturen. De gjør det mulig å bruke både tilkoblings- og tidsinformasjon for å oppdage mistenkelige grafelementer. Basert på denne evnen kan MIDAS oppdage anomalier i sanntid og tilbyr dermed støtte for mange forretningsbruk.

MIDAS er optimalisert for å jobbe med dynamiske grafdata. Som vi har sett ovenfor, gjør dynamiske grafer det mulig å representere tidsvarierende data. Dette betyr imidlertid også at selve grafstrukturen også endres over tid. Dette introduserer visse utfordringer for anomalideteksjonsalgoritmene som tar sikte på å bruke disse dataene i sanntidsapplikasjoner. Et eksempel er skalerbarhet av metoden med hensyn til endring av grafegenskaper. Gitt de store datavolumene som tilsvarer noen applikasjoner, må algoritmer være lineært skalerbare til størrelsen på grafen. MIDAS kjører på en online måte og behandler hver kant i konstant tid og konstant minne. Forfatterne rapporterer også at algoritmen kjører "162-633 ganger raskere enn moderne tilnærminger". Dette gjør algoritmen egnet for sanntidsapplikasjoner, der prosessering av datastrømmer med store volum er nødvendig. 

Hvilke business use-cases trenger MIDAS?

For å få et lite innblikk i deteksjon av anomalier som brukes i dagens forretningsverden, intervjuet vi en Canada-basert kryptovalutaleverandør, NDAX. NDAX bruker anomalideteksjon innenfor tre områder av virksomheten. Generell forretningsdrift, markedsavdelingen og compliance-teamet. Avviksdeteksjon hjelper til med å identifisere feil, noe som lar dem forbedre nettstedets ytelse og klientintroduksjonsprosessen. Det lar dem også gi veiledning til programvareutvikling og backoffice-driftsteam om hvordan de skal løse disse problemene. Nettstedtrafikk er et annet område som kan utnytte kraften til avviksdeteksjon. Å forstå avvikene i nettstedtrafikken gir innsikt og bedre forståelse til markeringsteamet, noe som lar dem identifisere om en markedsføringskampanje fungerer eller ikke. Dette gir et klarere bilde av hvilket område som er viktigst for å konsentrere innsatsen. Vårt siste eksempel er hvordan uregelmessigheter for kunderegistrering hjelper compliance-teamet med å identifisere potensiell svindel og redusere klientrisiko.

I vår diskusjon med NDAX Chief Compliance Officer fremhever Julia Baranovskaya hvordan viktigheten av avviksdeteksjon har blitt understreket under den nåværende pandemien. Det har vært en 300 % økning i svindel oppdaget de siste månedene. Desperate tider kombinert med høy netttrafikk inviterer til svindel av alle slag rettet mot arbeidsledige og eldre. Med oppdagelse av uregelmessigheter er vi nå i stand til å gjøre disse uteliggere til indikatorer på svindel eller trender. Følgende graf viser hvordan svindelen har svingt i løpet av første halvdel av dette året.

NDAX fant en økning i svindel i 2. kvartal, spesielt svindel som involverte eldre og falske stillingsannonser.

Hva med bedriften din?

Algoritmer for oppdagelse av avvik kan hjelpe bedrifter med å identifisere og reagere på uvanlige datapunkter i flere scenarier. Et banksikkerhetssystem kan bruke anomalideteksjon for å identifisere uredelige transaksjoner. På samme måte er eiere av produksjonsanlegg avhengige av avviksdeteksjon for å håndtere feil på utstyr og implementere prediktive vedlikeholdstiltak. I IoT-sensornettverk, brukes avviksdeteksjon som en del av tilstandsovervåkingsløsninger og for å forhindre uønsket distribusjon av skadelig programvare. Poenget er klart: bedrifter som har tilgang til store mengder data kan bruke MIDAS (og andre algoritmer for oppdagelse av anomalier) for å identifisere uvanlige mønstre i sanntid. 


Hvordan er dataene dine strukturert, og hvordan kan vi hjelpe deg med å sette opp en moderne løsning for avviksdeteksjon?

Send oss ​​en linje og gi oss beskjed. De Blå oransje digital datavitenskapsteamet er glade for å få anomalideteksjon til å fungere til din fordel også!

hovedbildekilde: Canva

Josh Miramant er administrerende direktør og grunnlegger av Blå oransje digital, et topprangert datavitenskap og maskinlæringsbyrå med kontorer i New York City og Washington DC. Miramant er en populær foredragsholder, fremtidsforsker og en strategisk forretnings- og teknologirådgiver for bedriftsbedrifter og startups. Han hjelper organisasjoner med å optimalisere og automatisere virksomhetene sine, implementere datadrevne analyseteknikker og forstå implikasjonene av nye teknologier som kunstig intelligens, big data og tingenes internett.