Artificiell intelligens

Affärsavvikelser: Förhindra bedrägeri med avvikelseidentifiering

mm

Avvikelseidentifiering med MIDAS

Avvikelseidentifiering har blivit ett av de mest användbara maskinlärningsverktygen under de senaste fem åren. Det kan användas från bedrägeri till kvalitetskontroll. Är det möjligt att isolera bedragare på online-recensionswebbplatser? Kan bedrägliga finansiella transaktioner upptäckas när de inträffar? Kan live-sensordata informera om elkraftsförluster innan de händer?

Avvikelseidentifiering ger svar på frågor som dessa. Att identifiera avvikelser i data är en viktig uppgift för dataförståelse. Genom att exponera stora datamängder för maskinlärningsverktyg och statistiska metoder kan man lära sig normala mönster i data. När inkonsekventa händelser inträffar kan avvikelseidentifieringsalgoritmer isolera onormalt beteende och flagga för händelser som inte motsvarar de inlärda mönstren. Sådan funktionalitet är avgörande i många affärsfall. Avvikelseidentifiering möjliggör tillämpningar i ett stort antal sektorer, från säkerhet till finans och IoT-övervakning.

Webskaliga grafer är idag allmänt förekommande och är en vanlig representation av stora datamängder. De driver både online- och offline-applikationer. Några online-exempel är stora sociala nätverk, produktrekommendationsmotorer och finansiella transaktionsgrafer. Offline: vägnät, IoT-plattformar och spänningssensorer i elkraftsnät är alla källor till stora mängder grafliknande data. Att ha data representerad som grafer medför både fördelar och utmaningar för ägarna till dessa datamängder. Å ena sidan möjliggör det att representera data och deras relationer i en multi-dimensionell rum. Å andra sidan behövs skalbara algoritmer för dataanalys och tolkning. Detta har lett till ett ökat forskningsfokus på metoder som avvikelseidentifiering i grafdata.

Låt oss ta en närmare titt på en state-of-the-art-algoritm som utvecklats för avvikelseidentifiering i dynamiska grafdata.

MIDAS

Mikroklusterbaserad identifierare av avvikelser i kantströmmar (MIDAS) är en algoritm som hanterar avvikelseidentifiering på dynamiska grafdata. Den har utvecklats av forskare vid National University of Singapore som hävdar att deras metod överträffar state-of-the-art-ansatser. Deras metod mildrar den vanligaste bristen i tidigare avvikelseidentifieringsimplementeringar:

Nedan är den nya baslinjen för avvikelseidentifiering som utvecklats av Siddarth Bhatia och hans team vid University of Singapore

Introducing MIDAS: A New Baseline for Anomaly Detection in Graphs

Introducing MIDAS: A New Baseline for Anomaly Detection in Graphs. Bildkälla: Blog

Att representera data som en statisk graf

Statiska grafer innehåller endast anslutningsinformation och ignorerar tidsinformation. De kallas också för grafsnappshots och kan endast användas för att upptäcka ovanliga grafentiteter (t.ex. misstänkta noder, kanter eller subgrafer). Men för många praktiska tillämpningar är den tidsmässiga aspekten lika viktig: det är relevant att veta när grafstrukturen har ändrats. För att illustrera, i en statisk graf som representerar nätverkstrafik, informerar en kant endast om att det finns en anslutning mellan en käll-IP-adress och en mål-IP-adress. Men den tidsmässiga beskrivningen av kanten saknas och därmed är tiden när de två adresserna anslöt okänd. Eftersom statiska grafer inte kunde modellera sådan tidsinformation, ger avvikelseidentifieringsmetoder som bygger på sådana grafer endast begränsat stöd för verkliga tillämpningar.

Å andra sidan hanterar MIDAS data som lagras i en dynamisk graf. Var och en av elementen i grafen har en associerad tidsstämpel, som representerar den tidpunkt då elementet lades till i grafen. Följande upp på exemplet ovan, skulle en dynamisk nätverkstrafikgraf också informera om när en anslutning mellan två IP-adresser inträffade. Tidsstämpeln ändras varje gång en befintlig kant eller nod uppdateras, eller när nya kanter läggs till i grafen. Som sådan är dynamiska grafer en tidsutvecklande struktur som bättre passar många verkliga tillämpningar, som är dynamiska i naturen. De gör det möjligt att använda både anslutnings- och tidsinformation för att upptäcka misstänkta grafelement. Baserat på den möjligheten kan MIDAS upptäcka avvikelser i realtid och erbjuder därmed stöd för många affärsfall.

MIDAS är optimerad för att fungera på dynamiska grafdata. Som vi har sett ovan, gör dynamiska grafer det möjligt att representera tidsvarierande data. Men detta innebär också att grafstrukturen i sig ändras över tiden. Detta introducerar vissa utmaningar för avvikelseidentifieringsalgoritmer som syftar till att använda denna data i realtidsapplikationer. Ett exempel är metodens skalbarhet i förhållande till ändrade grafegenskaper. Med tanke på de stora datavolymer som motsvarar vissa tillämpningar, måste algoritmer vara linjärt skalbara i förhållande till grafens storlek. MIDAS körs i en online-funktion och bearbetar varje kant i konstant tid och konstant minne. Författarna rapporterar också att algoritmen körs “162-633 gånger snabbare än state-of-the-art-ansatser”. Detta gör algoritmen lämplig för realtidsapplikationer, där bearbetning av stora datavolymer är nödvändig.

Vilka affärsfall behöver MIDAS?

För att få en liten inblick i avvikelseidentifiering som används i dagens affärsvärld intervjuade vi den Kanada-baserade kryptotjänsteleverantören NDAX. NDAX använder avvikelseidentifiering inom tre områden i sin verksamhet. Allmänna affärsverksamheter, marknadsföringsavdelningen och efterlevnadsteamet. Avvikelseidentifiering hjälper till att identifiera buggar, vilket möjliggör förbättring av webbplatsens prestanda och kundpåverkan. Det möjliggör också att ge vägledning till programvaruutvecklings- och backoffice-operationslag om hur man löser dessa problem. Webbtrafik är ett annat område som kan utnyttja kraften i avvikelseidentifiering. Att förstå avvikelserna i webbtrafiken ger insikt och bättre förståelse för marknadsföringsteamet, vilket möjliggör att identifiera om en marknadsföringskampanj fungerar eller inte. Det ger därmed en tydligare bild av vilket område som är viktigast att koncentrera sig på. Vårt sista exempel är hur kundregistreringsavvikelser hjälper efterlevnadsteamet att identifiera potentiellt bedrägeri och minska kundrisk.

I vår diskussion med NDAX Chief Compliance Officer, Julia Baranovskaya, betonar hon hur avvikelseidentifieringens betydelse har accentuerats under den pågående pandemin. Det har skett en ökning med 300 % i upptäckt bedrägeri under de senaste månaderna. Desperata tider i kombination med hög webbtrafik inbjuder till bedrägerier av alla slag som riktar sig mot arbetslösa och äldre. Med avvikelseidentifiering kan vi nu omvandla dessa avvikelser till indikatorer för bedrägeri eller trender. Följande graf visar hur bedrägeri har fluktuerat under första halvåret i år.

NDAX fann en ökning av bedrägeri under Q2, särskilt bedrägerier som riktade sig mot äldre och falska jobbannonser.

Vad gäller er verksamhet?

Avvikelseidentifieringsalgoritmer kan hjälpa företag att identifiera och reagera på ovanliga datapunkter i flera scenarier. Ett banksäkerhetssystem kan använda avvikelseidentifiering för att identifiera bedrägliga transaktioner. Likaså förlitar sig ägare av tillverkningsanläggningar på avvikelseidentifiering för att hantera felaktig utrustning och genomföra underhållsåtgärder. I IoT-sensornätverk, används avvikelseidentifiering som en del av tillståndsövervakningslösningar och för att förhindra oönskad malware-utplacering. Slutsatsen är tydlig: företag som har tillgång till stora mängder data kan använda MIDAS (och andra avvikelseidentifieringsalgoritmer) för att identifiera ovanliga mönster i realtid.

Hur är er data strukturerad och hur kan vi hjälpa er att konfigurera en modern avvikelseidentifieringslösning? Skicka oss ett meddelande och låt oss veta. Blue Orange Digitals datavetenskapsteam är glada att göra avvikelseidentifiering till en fördel för er också!

huvudbildkälla: Canva

Josh Miramant är VD och grundare av Blue Orange Digital, en topprankad data science- och maskinlärningsbyrå med kontor i New York City och Washington DC. Miramant är en populär talare, futurist och strategisk affärs- och teknisk rådgivare till företagsföretag och start-ups. Han hjälper organisationer att optimera och automatisera sina verksamheter, implementera data-drivna analytiska tekniker och förstå konsekvenserna av nya teknologier som artificiell intelligens, stora data och sakernas internet.