Kunstig intelligens
Forretningsanomalier: Forebyggelse af svindel med afvigelsesdetektion

Afvigelsesdetektion med MIDAS
Afvigelsesdetektion er blevet et af de mest nyttige værktøjer til maskinlæring i de sidste fem år. Det kan bruges til alt fra svindel til kvalitetskontrol. Er det muligt at isolere svindlere på online-anmeldelsessider? Kan svindelagtige finansielle transaktioner opdages, mens de foregår? Kan live-sensordata informere om strømforbindelsesfejl, før de sker?
Afvigelsesdetektion giver svar på spørgsmål som disse. At identificere afvigelser i data er en vital opgave i forståelsen af data. Ved at udsætte store datasæt for maskinlæringsværktøjer og statistiske metoder kan man lære normale mønstre i data. Når inkonsistente begivenheder opstår, kan afvigelsesdetektionsalgoritmer isolere usædvanligt adfærd og flagge begivenheder, der ikke svarer til de lærede mønstre. En sådan funktionalitet er afgørende i mange forretningsrelaterede tilfælde. Afvigelsesdetektion muliggør anvendelser i en lang række sektorer, fra sikkerhed til finans og IoT-overvågning.
Webskala-grafer er i dag almindelige og er en almindelig repræsentation af store datastrukturer. De driver både online- og offline-applikationer. Nogle online-eksempler er store sociale netværk, produktanbefalingsmotorer og finansielle transaktionsgrafer. Offline: vejnetværk, IoT-platforme og spændingsfølere i elektriske kraftnetværk er alle kilder til store mængder af graf-lignende data. At have data repræsenteret som grafer medfører både fordele og udfordringer for ejerne af disse datasæt. På den ene side giver det mulighed for at repræsentere data punkter og deres relationer i et multi-dimensionelt rum. På den anden side er der behov for skalerbare algoritmer til dataanalyse og fortolkning. Dette har ført til en øget fokus på forskning på metoder som afvigelsesdetektion på grafdata.
Lad os kaste et nærmere blik på en state-of-the-art-algoritme udviklet til afvigelsesdetektion i dynamiske grafdata.
MIDAS
Microcluster-baseret detektor af afvigelser i kantstrømme (MIDAS) er en algoritme, der tackler afvigelsesdetektion på dynamiske grafdata. Den er udviklet af forskere ved National University of Singapore, som hævder, at deres metode overgår state-of-the-art-tilgange. Deres metode lettet den mest almindelige svaghed hos tidligere afvigelsesdetektionsimplementeringer:
Her er den nye baseline for afvigelsesdetektion udviklet af Siddarth Bhatia og hans team på University of Singapore

Introducing MIDAS: A New Baseline for Anomaly Detection in Graphs. Image Source: Blog
Repræsentation af data som en statisk graf
Statisk grafer indeholder kun tilknytningsinformation og ignorerer temporal information. De kaldes også for graf-snapshots og kan kun bruges til at spotte usædvanlige graf-enheder (f.eks. mistænkelige noder, kanter eller subgrafer). Men for mange praktiske anvendelser er den tidsmæssige aspekt lige så vigtig: det er relevant at vide hvornår grafstrukturen er ændret. For at illustrere, i en statisk graf, der repræsenterer netværkstrafikstrøm, informerer en kant kun om, at der er en forbindelse mellem en kilde-IP-adresse og en destination-IP-adresse. Men den tidsmæssige beskrivelse af kanten mangler, og derfor er det ukendt, hvornår de to adresser var forbundet. Da statiske grafer ikke kan modellere sådan tidsmæssig information, giver afvigelsesdetektionsmetoder bygget på top af sådanne grafer kun begrænset støtte til virkelige anvendelser.
På den anden side håndterer MIDAS data gemt i en dynamisk graf. Hver af elementerne i grafen har en tilknyttet tidsstempel, der repræsenterer tidspunktet, hvor elementet blev tilføjet til grafen. Følgende op på eksemplet ovenfor, ville en dynamisk netværkstrafikgraf også informere om hvornår en forbindelse mellem to IP-adresser opstod. Tidsstempel ændres, hver gang en eksisterende kant eller node opdateres, eller når nye kanter tilføjes til grafen. Som sådan er dynamiske grafer en tidsudviklende struktur, der bedre passer mange virkelige anvendelser, der er dynamiske af natur. De giver mulighed for at bruge både tilknytnings- og tidsinformation til detektion af mistænkelige graf-elementer. Baseret på denne funktion kan MIDAS detektere afvigelser i realtid og tilbyder dermed støtte til mange forretningsrelaterede tilfælde.
MIDAS er optimeret til at arbejde med dynamiske grafdata. Som vi har set ovenfor, giver dynamiske grafer mulighed for at repræsentere tidsvarierende data. Men dette betyder også, at grafstrukturen selv ændrer sig over tid. Dette introducerer visse udfordringer for afvigelsesdetektionsalgoritmer, der sigter mod at bruge denne data i realtidsapplikationer. Et eksempel er skalbarheden af metoden i forhold til ændrende grafegenskaber. Givet de store datavolumener, der svarer til visse anvendelser, skal algoritmerne være lineært skalerbare i forhold til grafens størrelse. MIDAS kører i en online-funktion og behandler hver kant i konstant tid og konstant hukommelse. Forfatterne rapporterer også, at algoritmen kører “162-633 gange hurtigere end state-of-the-art-tilgange”. Dette gør algoritmen egnet til realtidsapplikationer, hvor behandlingen af store datavolumener er nødvendig.
Hvilke forretningsrelaterede tilfælde har brug for MIDAS?
For at få en lille indsigt i, hvordan afvigelsesdetektion anvendes i dagens forretningsverden, interviewede vi den Canada-baserede kryptocurrency-udbyder, NDAX. NDAX bruger afvigelsesdetektion inden for tre områder af deres forretning. Generelle forretningsoperationer, marketingafdelingen og compliance-holdet. Afvigelsesdetektion hjælper med at identificere fejl, hvilket giver mulighed for at forbedre websidepræstation og kundeonboarding-proces. Det giver også mulighed for at give vejledning til softwareudviklings- og backoffice-driftshold om, hvordan man løser disse problemer. Websitetrafik er endnu et område, der kan udnytte kraften af afvigelsesdetektion. At forstå outlierne i websitetrafik giver indsigt og bedre forståelse til marketingholdet, hvilket giver mulighed for at identificere, om en marketingkampagne fungerer eller ej. Dette giver en klarere billed af, hvilket område der er mest vigtigt at koncentrere sig om. Vores sidste eksempel er, hvordan kundesign-up-afvigelser hjælper compliance-holdet med at identificere potentiel svindel og reducere kunderisiko.
I vores diskussion med NDAX’s Chief Compliance Officer, Julia Baranovskaya, fremhæver, hvordan afvigelsesdetektions betydning er blevet understreget under den nuværende pandemi. Der har været en 300% stigning i detekteret svindel i de sidste få måneder. Desperate tider kombineret med høj online-trafik inviterer til svindel af alle slags, der rammer arbejdsløse og ældre. Med afvigelsesdetektion kan vi nu omdanne disse outlier til indikatorer for svindel eller tendenser. Følgende graf viser, hvordan svindel har fluktueret i løbet af det første halvår.
NDAX fandt en stigning i svindel i Q2, især svindel, der involverede ældre og falske jobannoncer.
Hvad med din forretning?
Afvigelsesdetektionsalgoritmer kan hjælpe forretninger med at identificere og reagere på usædvanlige datapunkter i multiple scenarier. En banksikkerhedssystem kan anvende afvigelsesdetektion til identifikation af svindelagtige transaktioner. Ligeledes kan ejere af fabrikker afhænge af afvigelsesdetektion til at håndtere fejlfungerende udstyr og implementere præventive vedligeholdelsesforanstaltninger. I IoT-sensornetværk, anvendes afvigelsesdetektion som en del af tilstands-overvågningsløsninger og til forebyggelse af uønsket malware-deployment. Det vigtigste punkt er klart: forretninger, der har adgang til store mængder data, kan anvende MIDAS (og andre afvigelsesdetektionsalgoritmer) til at identificere usædvanlige mønstre i realtid.
Hvordan er din data struktureret, og hvordan kan vi hjælpe dig med at opsætte en moderne afvigelsesdetektionsløsning? Send os en besked, og lad os vide. Blue Orange Digitals datavidenskabshold er glade for at gøre afvigelsesdetektion til at fungere for din fordel også!
hovedbillede kilde: Canva












