Штучний інтелект

Аномалії бізнесу: запобігання шахрайству за допомогою виявлення аномалій

mm

Виявлення аномалій з MIDAS

Виявлення аномалій стало одним із найкорисніших інструментів машинного навчання за останні п’ять років. Його можна використовувати від шахрайства до контролю якості. Чи можна ізолювати шахраїв на сайті онлайн-відгуків? Чи можна виявити шахрайські фінансові транзакції під час їх виконання? Чи може інформація з живих датчиків повідомляти про відмови електричної мережі до того, як вони трапляться?

Виявлення аномалій дає відповіді на такі питання. Ідентифікація аномалій у даних є важливим завданням розуміння даних. Використовуючи великі набори даних та методи машинного навчання та статистичні методи, можна вивчити нормальні закономірності у даних. Коли трапляються невідповідні події, алгоритми виявлення аномалій можуть ізолювати ненормальне поведінку та позначити будь-які події, які не відповідають вивченим закономірностям. Така функціональність є важливою у багатьох бізнес-використаннях. Виявлення аномалій дозволяє застосувати його у великій кількості секторів, від безпеки до фінансів та мониторингу IoT.

Графи великого масштабу зараз універсальні та є загальним представленням великих структур даних. Вони забезпечують як онлайн-, так і офлайн-застосунки. Наприклад, великі соціальні мережі, системи рекомендацій товарів та фінансові транзакційні графи. Офлайн: дорожні мережі, платформи IoT та датчики напруги в електричних мережах є джерелами великих обсягів даних у вигляді графів. Наявність даних у вигляді графів приносить як переваги, так і виклики для власників цих наборів даних. З одного боку, це дозволяє представляти дані та їхні взаємозв’язки у багатовимірному просторі. З іншого боку, потрібні масштабовані алгоритми для аналізу та інтерпретації даних. Це призвело до збільшення дослідницького фокусу на методи, такі як виявлення аномалій у графічних даних.

Давайте ближче розглянемо алгоритм останньої генерації, розроблений для виявлення аномалій у динамічних графічних даних.

MIDAS

Детектор аномалій на основі мікрокластерів у потоці ребер (MIDAS) є алгоритмом, який займається виявленням аномалій у динамічних графічних даних. Його розробили дослідники Національного університету Сінгапуру, які стверджують, що їхній метод перевершує існуючі підходи. Їхній метод усуває найбільш поширений недолік попередніх реалізації виявлення аномалій:

Нижче наведено новий базовий рівень для виявлення аномалій, розроблений Сіддартом Бхатією та його командою в Університеті Сінгапуру

Познайомтеся з MIDAS: новим базовим рівнем для виявлення аномалій у графах

Познайомтеся з MIDAS: новим базовим рівнем для виявлення аномалій у графах. Джерело зображення: Блог

Представлення даних у вигляді статичного графа

Статичні графи містять лише інформацію про зв’язок та ігнорують тимчасову інформацію. їх також називають графічними знімками та можна використовувати лише для виявлення незвичайних графічних об’єктів (наприклад, підозрілих вузлів, ребер або підграфів). Однак для багатьох практичних застосунків тимчасовий аспект є рівнозначним: важливо знати коли структура графа змінилася. Для ілюстрації, у статичному графі, що представляє потік мережевого трафіку, ребро інформує лише про те, що існує зв’язок між джерельним IP-адресою та адресою призначення. Але тимчасове описання ребра відсутнє, тому час, коли ці адреси з’єдналися, невідомий. Оскільки статичні графи не можуть моделювати таку тимчасову інформацію, методи виявлення аномалій, побудовані на основі таких графів, забезпечують лише обмежену підтримку реальних застосунків.

З іншого боку, MIDAS обробляє дані, збережені у динамічному графі. Кожен елемент графа має пов’язаний з ним часовий штамп, який представляє час, коли цей елемент був доданий до графа. Продовжуючи попередній приклад, динамічний граф мережевого трафіку також інформує про коли відбулося з’єднання між двома IP-адресами. Часовий штамп змінюється щоразу, коли оновлюється існуюче ребро або вузол, або коли до графа додаються нові ребра. Таким чином, динамічні графи є структурами, що розвиваються у часі, які краще підходять багатьом реальним застосункам, які є динамічними за своєю природою. Вони дозволяють використовувати як зв’язкову, так і тимчасову інформацію для виявлення підозрілих графічних елементів. На основі цієї можливості MIDAS може виявляти аномалії в реальному часі та тим самим пропонує підтримку багатьох бізнес-використань.

MIDAS оптимізований для роботи з динамічними графічними даними. Як ми бачили вище, динамічні графи дозволяють представляти дані, що змінюються у часі. Однак це також означає, що структура графа сама по собі змінюється у часі. Це вводить певні виклики для алгоритмів виявлення аномалій, які намагаються використовувати ці дані у реальних застосунках. Одним із прикладів є масштабованість методу щодо змінних характеристик графа. Ураховуючи великі об’єми даних, що відповідають деяким застосункам, алгоритми повинні бути лінійно масштабовані щодо розміру графа. MIDAS працює онлайн та обробляє кожне ребро за постійний час та постійну пам’ять. Автори також повідомляють, що алгоритм працює «162-633 рази швидше за сучасні підходи». Це робить алгоритм придатним для застосунків у реальному часі, де обробка високовольтних потоків даних є необхідною.

Які бізнес-використання потребують MIDAS?

Щоб здобути певне уявлення про те, як виявлення аномалій використовується у сучасному бізнес-світі, ми провели інтерв’ю з канадським постачальником криптовалюти NDAX. NDAX використовує виявлення аномалій у трьох галузях своєї діяльності. Загальні бізнес-операції, маркетинговий відділ та команда з дотримання вимог. Виявлення аномалій допомагає ідентифікувати помилки, що дозволяє їм покращити роботу сайту та процес реєстрації клієнтів. Це також дозволяє їм надавати керівництво командам з розробки програмного забезпечення та операцій щодо того, як вирішувати ці питання. Трафік сайту є ще однією областю, яка може використати силу виявлення аномалій. Поняття про аутлієри у трафіку сайту дає уявлення та краще розуміння маркетинговій команді, що дозволяє їм визначити, чи працює маркетингової кампанії чи ні. Таким чином, даючи чітке уявлення про те, на яку область слід зосередити свої зусилля. У нашому розмові з головним офіцером з дотримання вимог NDAX Юлією Баранівською підкреслили, як важливість виявлення аномалій була підкреслена під час поточної пандемії. Було зафіксовано зростання рівня виявлення шахрайства на 300% за останні кілька місяців. Десперативні часи в поєднанні з високим онлайн-трафіком запрошують шахрайства всіх видів, що націлені на безробітних та пенсіонерів. З допомогою виявлення аномалій ми тепер можемо перетворити ці аутлієри на індикатори шахрайства чи тенденцій. Наступний графік показує, як рівень шахрайства коливався протягом першої половини цього року.

NDAX виявила зростання рівня шахрайства у другому кварталі, особливо шахрайства, пов’язаного з пенсіонерами та фальшивими вакансіями.

А як щодо вашого бізнесу?

Алгоритми виявлення аномалій можуть допомогти підприємствам ідентифікувати та реагувати на незвичайні дані у різних сценаріях. Система безпеки банку може використовувати виявлення аномалій для ідентифікації шахрайських транзакцій. Аналогічно, власники заводів покладаються на виявлення аномалій для боротьби з несправними обладнаннями та впровадженням прогнозних заходів з технічного обслуговування. У сетях IoT-сенсорів виявлення аномалій використовується як частина рішень з моніторингу стану та попередження незавідомого розгортання шкідливого ПЗ. Головне зрозуміло: підприємства, які мають доступ до великих обсягів даних, можуть використовувати MIDAS (та інші алгоритми виявлення аномалій) для ідентифікації незвичайних закономірностей у реальному часі.

Як структуровані ваші дані та як ми можемо допомогти вам налаштувати сучасне рішення для виявлення аномалій? Напишіть нам, і ми дізнаємося. Команда з науки про дані Blue Orange Digital щаслива зробити виявлення аномалій працювати на вашу користь!

джерело головного зображення: Canva

Джош Мірамант є CEO та засновником Blue Orange Digital, топ-рейтингового агентства з науки про дані та машинного навчання з офісами в Нью-Йорку та Вашингтоні. Мірамант є популярним спікером, футурологом та стратегічним бізнес- та технологічним радником для підприємств та стартапів. Він допомагає організаціям оптимізувати та автоматизувати свій бізнес, реалізовувати техніки аналізу, засновані на даних, та розуміти наслідки нових технологій, таких як штучний інтелект, великі дані та Інтернет речей.