заглушки Обнаружение «профессиональных» вредоносных онлайн-обзоров с помощью машинного обучения — Unite.AI
Свяжитесь с нами:

Artificial Intelligence

Обнаружение «профессиональных» вредоносных онлайн-обзоров с помощью машинного обучения

mm
обновленный on

Новое исследовательское сотрудничество между Китаем и США предлагает способ обнаружения злонамеренных обзоров электронной коммерции, предназначенных для подрыва конкурентов или облегчения шантажа, путем использования подписного поведения таких рецензентов.

Система под названием модель обнаружения вредоносных пользователей (ММД), использует Метрическое обучение, техника обычно используется в компьютерном зрении и рекомендательные системы, вместе с рекуррентной нейронной сетью (RNN), чтобы идентифицировать и маркировать результаты таких рецензентов, которых в статье называют Профессиональные злоумышленники (ПМУ).

Большой! 1 звезда

Большинство онлайн-обзоров электронной коммерции предоставляют две формы отзывов пользователей: звездный рейтинг (или рейтинг из 10) и текстовый обзор, и в типичном случае они будут соответствовать логически (т. е. плохой отзыв будет сопровождаться низкий рейтинг).

Однако PMU обычно нарушают эту логику, либо оставляя плохой текстовый обзор с высокой оценкой, либо плохую оценку, сопровождаемую хорошей рецензией.

Это позволяет отзыву пользователя нанести ущерб репутации, не вызывая при этом относительно простых фильтров, используемых сайтами электронной коммерции для выявления и устранения результатов злонамеренно негативных рецензентов. Если фильтр, основанный на обработке естественного языка (NLP), обнаруживает оскорбления в тексте обзора, этот «флаг» фактически отменяется высоким звездным (или десятичным) рейтингом, который также присвоил PMU, что фактически делает вредоносный контент «нейтральным». , со статистической точки зрения.

Пример того, как злонамеренный обзор может статистически смешиваться с подлинными обзорами с точки зрения системы совместной фильтрации, которая пытается идентифицировать такое поведение. Источник: https://arxiv.org/pdf/2205.09673.pdf

Пример того, как злонамеренный обзор может статистически смешиваться с подлинными обзорами с точки зрения системы совместной фильтрации, которая пытается идентифицировать такое поведение.  Источник: https://arxiv.org/pdf/2205.09673.pdf

В новом документе отмечается, что намерение PMU часто состоит в том, чтобы вымогать деньги у интернет-магазинов в обмен на исправление негативных отзывов и/или обещание больше не публиковать негативные отзывы. В некоторых случаях актеры специальный лиц поиск скидок, хотя часто PMU случайно нанятый конкурентами жертвы.

Сокрытие негативных отзывов

Нынешнее поколение автоматических детекторов для таких обзоров использует совместную фильтрацию или содержательная модель, и ищут четкие и недвусмысленные «выбросы» — отзывы, которые одинаково негативны для обоих методов обратной связи и которые заметно расходятся с общей тенденцией отзывов и оценок.

Другая классическая сигнатура, на которую влияют такие фильтры, — это высокая частота публикаций, в то время как PMU будет публиковать стратегически и только изредка (поскольку каждый отзыв может представлять собой либо отдельную комиссию, либо этап более длинной стратегии, предназначенной для запутывания метрики «частоты»). ).

Поэтому исследователи новой статьи интегрировали странную полярность профессиональных злонамеренных обзоров в специальную систему, в результате чего алгоритм почти не уступает способности рецензента-человека «почуять неладное» при несоответствии между рейтингом и обзором. текстовое содержание.

Концептуальная архитектура MMD, состоящая из двух центральных модулей: профилирование злонамеренных пользователей (MUP) и обучение метрике внимания (MLC, выделено серым цветом).

Концептуальная архитектура MMD, состоящая из двух центральных модулей: профилирование злонамеренных пользователей (MUP) и обучение метрике внимания (MLC, выделено серым цветом).

Сравнение с предыдущими подходами

Поскольку MMD, как заявляют авторы, является первой системой, пытающейся идентифицировать PMU на основе их шизофренического стиля публикации, нет прямых предшествующих работ, с которыми можно было бы сравнить ее. Поэтому исследователи сравнили свою систему с рядом составных алгоритмов, от которых часто зависят традиционные автоматические фильтры, включая кластеризацию K-средних++; почтенный Обнаружение статистических выбросов (СОД); Хисад; полугрустный; CNN-грустныйи Система рекомендаций по обнаружению клеветнических пользователей (СДРС).

Авторы утверждают, что MMD, протестированный на помеченных наборах данных от Amazon и Yelp, способен идентифицировать профессиональных недоброжелателей в Интернете с высочайшей степенью точности. Жирный шрифт обозначает MMD, а звездочка (*) указывает на лучшую производительность. В приведенном выше случае MMD уступила только в двух задачах автономной технологии (MUP), которая уже встроена в нее, но по умолчанию не предназначена для выполнения поставленной задачи.

Авторы утверждают, что MMD, протестированный на помеченных наборах данных от Amazon и Yelp, способен идентифицировать профессиональных недоброжелателей в Интернете с высочайшей степенью точности. Жирный шрифт обозначает MMD, а звездочка (*) указывает на лучшую производительность. В приведенном выше случае MMD уступила только в двух задачах автономной технологии (MUP), которая уже встроена в нее, но по умолчанию не предназначена для выполнения поставленной задачи.

В этом случае MMD противопоставлялся немаркированным наборам данных с Taobao и Jindong, что фактически превращало его в задачу обучения без учителя. Опять же, MMD совершенствуется только за счет одной из составляющих его технологий, хорошо приспособленной для задачи с целью тестирования.

В этом случае MMD противопоставлялся немаркированным наборам данных с Taobao и Jindong, что фактически превращало его в задачу обучения без учителя. Опять же, MMD совершенствуется только за счет одной из составляющих его технологий, хорошо приспособленной для задачи с целью тестирования.

Исследователи отмечают:

«[На] всех четырех наборах данных предлагаемая нами модель MMD (MLC + MUP) превосходит все базовые уровни с точки зрения F-показателя. Обратите внимание, что MMD представляет собой комбинацию MLC и MUP, что обеспечивает его превосходство над контролируемыми и неконтролируемыми моделями в целом».

В документе также предполагается, что MMD может служить полезным методом предварительной обработки для традиционных автоматизированных систем фильтрации, и приводятся экспериментальные результаты для ряда наборов данных, включая Совместная фильтрация на основе пользователей (УБКФ), Совместная фильтрация на основе элементов (ИБКФ), Факторизация матрицы (МФ-eALS), Байесовское персонализированное ранжирование (MF-BPR) и Нейронная совместная фильтрация (НКФ).

В пересчете на Коэффициент попадания (HR) и Нормализованная дисконтированная совокупная прибыль (NDCG) в результатах этих протестированных аугментаций авторы заявляют:

«Среди всех четырех наборов данных MMD значительно улучшает модели рекомендаций с точки зрения HR и NDCG. В частности, MMD может повысить производительность HR в среднем на 28.7% и HDCG в среднем на 17.3%.

«Удаляя профессиональных злонамеренных пользователей, MMD может улучшить качество наборов данных. Без подделки этих профессиональных злонамеренных пользователей [Обратная связь], набор данных становится более [интуитивный].'

Ассоциация бумаги называется Обнаружение профессионального злонамеренного пользователя с помощью метрического обучения в рекомендательной системеs, исходит от исследователей факультета компьютерных наук и технологий Цзилиньского университета; Ключевая лаборатория интеллектуальной обработки информации Китайской академии наук в Пекине; и Школа бизнеса в Рутгерсе в Нью-Джерси.

Данные и подход

Обнаружение PMU — это комплексная задача, поскольку необходимо учитывать два неэквивалентных параметра (звездочка/десятичный рейтинг с числовым значением и текстовый обзор). Авторы новой статьи утверждают, что ни одна предыдущая работа не решала эту проблему.

В ММД работает Иерархическая рекуррентная нейронная сеть с двойным вниманием (HDAN), чтобы ассимилировать содержание отзыва в оценку тональности.

Проецирование обзора в оценку тональности с помощью HDAN, которая способствует встраиванию слов и внедрению предложений для получения оценки тональности.

Проецирование обзора в оценку тональности с помощью HDAN, которая способствует встраиванию слов и внедрению предложений для получения оценки тональности.

HDAN использует механизмы внимания для присвоения веса каждому слову и каждому предложению. Авторы заявляют, что на изображении выше слово беднее явно следует придавать больший вес, чем конкурирующие слова в обзоре.

Для проекта HDAN взял рейтинги продуктов по четырем наборам данных за истину. Наборы данных были  Amazon.com; Yelp для RecSys (2013); и два набора данных «реального мира» (а не экспериментальных) от Taobao и Jindong.

MMD использует метрическое обучение, которое пытается оценить точное расстояние между объектами, чтобы охарактеризовать общую группу отношений в данных.

ММД начинается с одноразовое кодирование для выбора пользователя и элемента с помощью модели скрытых факторов (LFM), которая получает базовую оценку. Тем временем HDAN проецирует содержимое отзыва в оценку тональности в качестве дополнительных данных.

Затем результаты обрабатываются в модели профилирования злонамеренных пользователей (MUP), которая выводит разрыв настроения вектор – несоответствие между рейтингом и оценочной оценкой тональности текстового содержания отзыва. Таким образом, впервые можно классифицировать и маркировать PMU.

Обучение метрике на основе внимания для кластеризации.

Обучение метрике на основе внимания для кластеризации.

Metric Learning for Clustering (MLC) использует эти выходные метки для установления метрики, по которой рассчитывается вероятность злонамеренного отзыва пользователя.

Человеческие тесты

В дополнение к количественным результатам, описанным выше, исследователи провели исследование пользователей, в ходе которого 20 студентам было поручено выявить вредоносные отзывы, основываясь только на содержании и рейтинге. Участников просили оценить отзывы как 0 (для «обычных» рецензентов) или 1 (для профессионального злонамеренного пользователя).

Из соотношения 50/50 между нормальными и злонамеренными отзывами студенты отметили в среднем 24 истинно положительных и 24 истинно отрицательных пользователя. Для сравнения, MMD смог пометить в среднем 23 истинно положительных и 24 истинно отрицательных пользователя, работая почти на человеческом уровне распознавания и превосходя базовые показатели для задачи.

Студенты против MMD. Звездочка [*] указывает на лучшие результаты, а полужирный шрифт указывает на результаты MMD.

Студенты против MMD. Звездочка [*] указывает на лучшие результаты, а полужирный шрифт указывает на результаты MMD.

Авторы заключают:

«По сути, MMD — это универсальное решение, которое может не только обнаруживать профессиональных злонамеренных пользователей, рассматриваемых в этой статье, но и служить общей основой для обнаружения злонамеренных пользователей. С большим количеством данных, таких как изображение, видео или звук, идея MMD может быть полезной для обнаружения разрыва в тональности между их заголовком и содержанием, у которого есть светлое будущее для противодействия различным стратегиям маскировки в разных приложениях».

 

Впервые опубликовано 20 мая 2022 г.