Connect with us

Kunstmatige intelligentie

Bedrijfsanomalieën: fraude voorkomen met anomaliedetectie

mm

Anomaliedetectie met MIDAS

Anomaliedetectie is een van de meest nuttige machine learning-tools van de afgelopen vijf jaar geworden. Het kan worden gebruikt voor fraude tot kwaliteitscontrole. Is het mogelijk om fraudeurs op online review-websites te isoleren? Kunnen frauduleuze financiële transacties worden gedetecteerd terwijl ze plaatsvinden? Kunnen live sensordata informatie geven over stroomnetstoringen voordat ze gebeuren?

Anomaliedetectie biedt antwoorden op vragen zoals deze. Het identificeren van anomalieën in data is een vitale taak voor het begrijpen van data. Door grote datasets bloot te stellen aan machine learning-tools en statistische methoden, kunnen normale patronen in data worden geleerd. Wanneer inconsistentie optreedt, kunnen anomaliedetectie-algoritmen abnormaal gedrag isoleren en vlaggen voor gebeurtenissen die niet overeenkomen met de geleerde patronen. Een dergelijke functionaliteit is cruciaal in veel bedrijfsgevallen. Anomaliedetectie maakt toepassingen mogelijk in een groot aantal sectoren, van beveiliging tot financiën en IoT-bewaking

Webschaalgrafieken zijn tegenwoordig overal aanwezig en zijn een gebruikelijke weergave van big data-structuren. Ze ondersteunen zowel online als offline toepassingen. Enkele online voorbeelden zijn grote sociale netwerken, productaanbevelingsmotoren en financiële transactiegrafieken. Offline: wegennetwerken, IoT-platforms en spanningssensoren in elektriciteitsnetwerken zijn allemaal bronnen van grote hoeveelheden grafiekgegevens. Het hebben van gegevens die als grafieken worden weergegeven, brengt zowel voordelen als uitdagingen met zich mee voor de eigenaren van deze datasets. Enerzijds maakt het het mogelijk om gegevenspunten en hun relaties in een multidimensionale ruimte weer te geven. Anderzijds zijn schaalbare algoritmen voor gegevensanalyse en interpretatie nodig. Dit heeft geleid tot een verhoogde onderzoeksfocus op methoden zoals anomaliedetectie in grafiekgegevens.

Laten we een nadere blik werpen op een state-of-the-art-algoritme dat is ontwikkeld voor anomaliedetectie in dynamische grafiekgegevens.

MIDAS

Microcluster-Based Detector of Anomalies in Edge Streams (MIDAS) is een algoritme dat anomaliedetectie in dynamische grafiekgegevens aanpakt. Het is ontwikkeld door onderzoekers aan de National University of Singapore, die claimen dat hun methode state-of-the-art-benaderingen overtreft. Hun methode verlicht de meest voorkomende tekortkoming van eerdere anomaliedetectie-implementaties:

Onderstaand vindt u de nieuwe baseline voor anomaliedetectie die is ontwikkeld door Siddarth Bhatia en zijn team aan de Universiteit van Singapore

Introducing MIDAS: A New Baseline for Anomaly Detection in Graphs

Introducing MIDAS: A New Baseline for Anomaly Detection in Graphs. Image Source: Blog

De gegevens weergeven als een statische grafiek

Statische grafieken bevatten alleen connectiviteitsinformatie en negeren tijdsinformatie. Ze worden ook wel grafiekmomentopnamen genoemd en kunnen alleen worden gebruikt voor het opsporen van ongebruikelijke grafiekentiteiten (bijv. verdachte knooppunten, randen of subgrafieken). Echter, voor veel praktische toepassingen is het tijdsaspect even belangrijk: het is relevant om te weten wanneer de grafiekstructuur is veranderd. Om dit te verduidelijken, in een statische grafiek die een netwerkverkeersstroom vertegenwoordigt, informeert een rand alleen dat er een verbinding is tussen een bron-IP-adres en een bestemming-IP-adres. Maar de tijdsbeschrijving van de rand ontbreekt en dus is de tijd waarop de twee adressen zijn verbonden onbekend. Aangezien statische grafieken dergelijke tijdsinformatie niet kunnen modelleren, bieden anomaliedetectiemethoden die op dergelijke grafieken zijn gebaseerd alleen beperkte ondersteuning voor praktische toepassingen.

Anderzijds verwerkt MIDAS gegevens die zijn opgeslagen in een dynamische grafiek. Elk van de elementen in de grafiek heeft een bijbehorende tijdstempel, die de tijd vertegenwoordigt waarop dat element aan de grafiek is toegevoegd. Als we doorgaan met het bovenstaande voorbeeld, zou een dynamische netwerkverkeersgrafiek ook informeren over wanneer een verbinding tussen twee IP-adressen heeft plaatsgevonden. De tijdstempel verandert telkens wanneer een bestaande rand of knooppunt wordt bijgewerkt, of wanneer nieuwe randen aan de grafiek worden toegevoegd. Als zodanig zijn dynamische grafieken een tijds-evoluerende structuur die beter past bij veel praktische toepassingen, die van nature dynamisch zijn. Ze maken het mogelijk om zowel connectiviteits- als tijdsinformatie te gebruiken voor het detecteren van verdachte grafiek-elementen. Op basis van deze mogelijkheid kan MIDAS anomalieën in real-time detecteren en biedt daarmee ondersteuning voor veel bedrijfsgevallen.

MIDAS is geoptimaliseerd om te werken met dynamische grafiekgegevens. Zoals we hierboven hebben gezien, maken dynamische grafieken het mogelijk om tijdsvariabele gegevens weer te geven. Echter, dit betekent ook dat de grafiekstructuur zelf ook over tijd verandert. Dit introduceert bepaalde uitdagingen voor de anomaliedetectie-algoritmen die deze gegevens in real-time toepassingen willen gebruiken. Een voorbeeld is de schaalbaarheid van de methode met betrekking tot veranderende grafiekeigenschappen. Gezien de grote hoeveelheden gegevens die overeenkomen met sommige toepassingen, moeten algoritmen lineair schaalbaar zijn tot de grootte van de grafiek. MIDAS werkt online en verwerkt elke rand in constante tijd en constante geheugen. De auteurs melden ook dat het algoritme “162-633 keer sneller is dan state-of-the-art-benaderingen”. Dit maakt het algoritme geschikt voor real-time toepassingen, waarbij de verwerking van grote hoeveelheden gegevensstromen noodzakelijk is. 

Welke bedrijfsgevallen hebben MIDAS nodig?

Om een beetje inzicht te krijgen in anomaliedetectie die in de huidige bedrijfswereld wordt gebruikt, hebben we een Canadese cryptocurrency-aanbieder, NDAX, geïnterviewd. NDAX gebruikt anomaliedetectie binnen drie gebieden van hun bedrijf. Algemene bedrijfsactiviteiten, de marketingafdeling en het compliance-team. Anomaliedetectie helpt bij het identificeren van bugs, waardoor ze de websiteprestaties en het klantinschrijvingsproces kunnen verbeteren. Het stelt hen ook in staat om richtlijnen te geven aan de softwareontwikkelings- en backoffice-operatieteams over hoe deze problemen moeten worden opgelost. Websiteverkeer is een ander gebied dat de kracht van anomaliedetectie kan benutten. Het begrijpen van de uitschieters in websiteverkeer geeft inzicht en een beter begrip van de marketingteam, waardoor ze kunnen bepalen of een marketingcampagne werkt of niet. Dit geeft een duidelijker beeld van welk gebied het meest belangrijk is om hun inspanningen op te richten. Ons laatste voorbeeld is hoe klantinschrijvingsanomalie het compliance-team helpt om potentieel fraude te identificeren en klantrisico’s te verminderen.

In ons gesprek met NDAX Chief Compliance Officer, Julia Baranovskaya, wordt benadrukt hoe belangrijk anomaliedetectie is geworden tijdens de huidige pandemie. Er is een toename van 300% in gedetecteerde fraude in de afgelopen paar maanden. Desperate tijden in combinatie met hoge online verkeer nodigen van allerlei soorten scams uit die de werklozen en ouderen targeten. Met anomaliedetectie kunnen we deze uitschieters nu omzetten in indicatoren van fraude of trends. De volgende grafiek toont hoe fraude is geëvolueerd in de eerste helft van dit jaar.

NDAX vond een toename in fraude in Q2, vooral scams die de ouderen en valse vacatures betroffen.

En uw bedrijf?

Anomaliedetectie-algoritmen kunnen bedrijven helpen om ongebruikelijke gegevenspunten in meerdere scenario’s te identificeren en te reageren. Een bankbeveiligingssysteem kan anomaliedetectie gebruiken voor het identificeren van frauduleuze transacties. Evenzo vertrouwen fabriekseigenaren op anomaliedetectie voor het omgaan met defecte apparatuur en het implementeren van voorspellende onderhoudsmaatregelen. In IoT-sensornetwerken, wordt anomaliedetectie gebruikt als onderdeel van conditiebewakingsoplossingen en voor het voorkomen van ongewenste malware-implementatie. Het belangrijkste punt is duidelijk: bedrijven die toegang hebben tot grote hoeveelheden gegevens, kunnen MIDAS (en andere anomaliedetectie-algoritmen) gebruiken om ongebruikelijke patronen in real-time te identificeren. 

Hoe is uw data gestructureerd en hoe kunnen we u helpen om een moderne anomaliedetectie-oplossing in te stellen? Stuur ons een bericht en laat ons weten. Het Blue Orange Digital data science-team is blij om anomaliedetectie voor uw voordeel te laten werken!

hoofdafbeeldingbron: Canva

Josh Miramant is de CEO en oprichter van Blue Orange Digital, een top-ranked data science en machine learning agency met kantoren in New York City en Washington DC. Miramant is een populaire spreker, futurist en strategisch zaken- en technologieadviseur voor ondernemingen en startups. Hij helpt organisaties hun bedrijven te optimaliseren en te automatiseren, gegevensgedreven analytische technieken te implementeren en de implicaties van nieuwe technologieën zoals kunstmatige intelligentie, big data en het Internet of Things te begrijpen.