Connect with us

Виявлення професійних зловмисних онлайн-відгуків за допомогою машинного навчання

Штучний інтелект

Виявлення професійних зловмисних онлайн-відгуків за допомогою машинного навчання

mm

Нове дослідження спільної роботи між Китаєм і США пропонує спосіб виявлення зловмисних відгуків електронної комерції, призначених для підірвання конкурентів або для викупу, шляхом використання підписної поведінки таких відгуків.

Система, названа модель виявлення зловмисних користувачів (MMD), використовує Metric Learning, техніку зазвичай використовується в комп’ютерному зорі та системах рекомендацій, разом з рекурентною нейронною мережею (RNN), для ідентифікації та маркування виводу таких відгуків, які в статті називаються професійними зловмисними користувачами (PMUs).

Відмінно! 1 зірка

Більшість онлайн-відгуків електронної комерції надають два види зворотної зв’язку користувача: рейтинг зірками (або рейтинг з 10) та текстовий відгук, і в типовому випадку ці будуть логічно відповідають один одному (тобто поганий відгук буде супроводжуватися низьким рейтингом).

PMUs, однак, зазвичай порушують цю логіку, залишаючи поганий текстовий відгук з високим рейтингом, або низьким рейтингом, супроводжуваним хорошим відгуком.

Це дозволяє користувачеві завдавати репутаційного збитку без спрацьовування відносно простих фільтрів, розгорнутих сайтами електронної комерції для ідентифікації та вирішення виводу зловмисних негативних відгуків. Якщо фільтр, заснований на обробці природної мови (NLP), визначає інвективу в тексті відгука, цей “прапор” ефективно скасовується високим рейтингом зірок (або десятковим рейтингом), який також призначений PMU, ефективно роблячи зловмисний вміст “нейтральним” з статистичної точки зору.

Приклад того, як зловмисний відгук може бути статистично змішаний з справжніми відгуками, з точки зору системи колаборативного фільтрування, яка намагається ідентифікувати таке поведіння. Джерело: https://arxiv.org/pdf/2205.09673.pdf

Приклад того, як зловмисний відгук може бути статистично змішаний з справжніми відгуками, з точки зору системи колаборативного фільтрування, яка намагається ідентифікувати таке поведіння. Джерело: https://arxiv.org/pdf/2205.09673.pdf

Нова стаття зазначає, що намір PMU часто полягає у викупі грошей у онлайн-рітейлерів в обмін на зміну негативних відгуків, і/або обіцянку не розміщувати подальших негативних відгуків. У деяких випадках акторами є ад хок особи шукають знижки, хоча часто PMU є виплатою конкурентами жертви.

Маскування негативних відгуків

Поточне покоління автоматичних детекторів таких відгуків використовує колаборативне фільтрування або модель, засновану на вмісті, і шукає явні та недвозначні “відхилення” – відгуки, які є однозначно негативними по обидва методи зворотної зв’язку, і які суттєво відрізняються від загальної тенденції настрою відгуків та рейтингу.

Інший класичний підпис, на який ці фільтри звертають увагу, – це висока частота розміщення, тоді як PMU буде розміщувати стратегічно і тільки час від часу (оскільки кожен відгук може представляти індивідуальну комісію або етап у довшій стратегії, призначеної для обфускації метрики “частоти”).

Отже, дослідники нової статті інтегрували дивну полярність професійних зловмисних відгуків у спеціальну систему, що призвело до алгоритму, який майже на рівні з можливістю людини “внюхати щура” у розбіжності між рейтингом і текстовим вмістом відгука.

Концептуальна архітектура MMD, що складається з двох центральних модулів: Профайлінг зловмисних користувачів (MUP) і Метрична навчання з увагою (MLC, сірим).

Концептуальна архітектура MMD, що складається з двох центральних модулів: Профайлінг зловмисних користувачів (MUP) і Метрична навчання з увагою (MLC, сірим).

Порівняння з попередніми підходами

Оскільки MMD, як зазначають автори, є першою системою, яка намагається ідентифікувати PMU на основі їх шизофренічного стилю розміщення, немає прямого попереднього роботи, з якою можна порівняти.

Отже, дослідники протиставили свою систему ряду алгоритмів, на яких традиційні автоматичні фільтри часто залежать, включаючи кластеризацію K-means++; статистичне виявлення відхилень (SOD); Hysad; Semi-sad; CNN-sad; і Систему рекомендацій для виявлення зловмисних користувачів (SDRS).

Тестування проти позначених наборів даних з Amazon і Yelp, MMD може ідентифікувати професійних онлайн-детректорів з найвищим рівнем точності, заявляють автори. Жирний шрифт позначає MMD, тоді як астериск (*) позначає найкращу продуктивність. У цьому випадку MMD був побитий лише у двох завданнях, окремою технологією (MUP), яка вже включена в нього, але яка не призначена за замовчуванням для завдання.

Тестування проти позначених наборів даних з Amazon і Yelp, MMD може ідентифікувати професійних онлайн-детректорів з найвищим рівнем точності, заявляють автори. Жирний шрифт позначає MMD, тоді як астериск (*) позначає найкращу продуктивність. У цьому випадку MMD був побитий лише у двох завданнях, окремою технологією (MUP), яка вже включена в нього, але яка не призначена за замовчуванням для завдання.

У цьому випадку MMD був протиставлений ненаданих наборів даних з Taobao і Jindong, що робить його ефективно nhiệmою навчанням без нагород. Знову ж таки, MMD перевершується лише однією зі своїх власних складових технологій, високої адаптації для завдання для цілей тестування.

У цьому випадку MMD був протиставлений ненаданих наборів даних з Taobao і Jindong, що робить його ефективно nhiệmою навчанням без нагород. Знову ж таки, MMD перевершується лише однією зі своїх власних складових технологій, високої адаптації для завдання для цілей тестування.

Дослідники відзначають:

‘[На] всіх чотирьох наборах даних наш запропонований модель MMD (MLC+MUP) перевершує всі базові рівні за рахунок F-рейтингу. Відзначте, що MMD є комбінацією MLC і MUP, що забезпечує його перевагу над нагородженими та ненагородженими моделями в цілому.’

Стаття також пропонує, що MMD може служити корисним методом попередньої обробки для традиційних автоматичних фільтрів, і надає експериментальні результати щодо ряду наборів даних, включаючи колаборативне фільтрування на основі користувача (UBCF), колаборативне фільтрування на основі предмета (IBCF), факторизацію матриці (MF-eALS), баєсівське персоналізоване ранжування (MF-BPR) і нейронне колаборативне фільтрування (NCF).

За терміни кількості влучень (HR) і нормалізованого дискретного накопичувального зisku (NDCG) у результатах цих тестованих доповнень, автори заявляють:

‘Серед усіх чотирьох наборів даних MMD значно покращує рекомендаційні моделі за рахунок HR і NDCG. Зокрема, MMD може підвищити продуктивність HR у середньому на 28,7% і NDCG у середньому на 17,3%.’

‘Видаливши професійних зловмисних користувачів, MMD може покращити якість наборів даних. Без цих професійних зловмисних користувачів фальшивої [зворотної зв’язку], набір даних стає більш [інтуїтивним].’

Стаття стаття називається Виявлення професійних зловмисних користувачів з метричним навчанням у системах рекомендацій, і походить від дослідників кафедри комп’ютерних наук і технологій університету Цзілінь; ключової лабораторії інтелектуальної обробки інформації Китайської академії наук у Пекіні; і школи бізнесу Рутгерса у Нью-Джерсі.

Дані та підхід

Виявлення PMU – це багатомодальний виклик, оскільки необхідно розглянути два нееквівалентні параметри (числовий рейтинг зірок/десятковий рейтинг і текстовий відгук). Автори нової статті стверджують, що жодна попередня робота не розглядала цей виклик.

MMD використовує ієрархічну двійкову увагу рекурентної нейронної мережі (HDAN) для асиміляції вмісту відгука у бал оцінки настрою.

Проєкція відгука на бал оцінки настрою з HDAN, який сприяє вкладенню слів і вкладенню речень для отримання балу оцінки настрою.

Проєкція відгука на бал оцінки настрою з HDAN, який сприяє вкладенню слів і вкладенню речень для отримання балу оцінки настрою.

HDAN використовує механізми уваги для призначення ваг кожному слову та кожному реченню. На зображенні вище, автори зазначають, слово бідніше повинно бути явно призначено більшою вагою, ніж конкуруючі слова у відгуку.

Для проекту HDAN взяв рейтинги продуктів по чотирьом наборам даних як істину. Набори даних були Amazon.com; Yelp для RecSys (2013); і два “реальні” (а не експериментальні) набори даних, з Taobao і Jindong.

MMD використовує метричне навчання, яке намагається оцінити точну відстань між сутностями для характеристики загальної групи відносин у даних.

MMD починається з однозначного кодування для вибору користувача та предмета через латентну факторну модель (LFM), яка отримує базовий бал рейтингу. Тим часом HDAN проєктує вміст відгука у бал оцінки настрою як допоміжні дані.

Результати потім обробляються у модель профайлінгу зловмисних користувачів (MUP), яка видає вектор розриву настрою – розбіжність між рейтингом і оцінкою настрою текстового вмісту відгука. Таким чином, вперше, PMU можуть бути категоризовані та позначені.

Метричне навчання з увагою для кластеризації.

Метричне навчання з увагою для кластеризації.

Метричне навчання для кластеризації (MLC) використовує ці вивідні мітки для встановлення метрики, проти якої обчислюється ймовірність того, що відгук користувача є зловмисним.

Тести людини

Крім кількісних результатів, деталізованих вище, дослідники провели дослідження користувача, яке доручило 20 студентам ідентифікувати зловмисні відгуки, засновані лише на вмісті та рейтингу зірок. Учасникам було запропоновано оцінити відгуки як 0 (для “нормальних” відгуків) або 1 (для професійного зловмисного користувача).

З 50/50 розділу між нормальними та зловмисними відгуками студенти позначили 24 справжніх позитивних і 24 справжніх негативних користувачів у середньому. Навпаки, MMD міг позначити 23 справжніх позитивних і 24 справжніх негативних користувачів у середньому, діючи майже на рівні з людською дискримінацією, і перевершуючи базові рівні для завдання.

Студенти проти MMD. Астериск (*) позначає найкращі результати, а жирний шрифт позначає результати MMD.

Студенти проти MMD. Астериск (*) позначає найкращі результати, а жирний шрифт позначає результати MMD.


Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]