talon Détecter les avis en ligne malveillants "professionnels" grâce à l'apprentissage automatique - Unite.AI
Suivez nous sur

Intelligence artificielle

Détecter les avis en ligne malveillants "professionnels" grâce à l'apprentissage automatique

mm
Le kit de préparation mis à jour on

Une nouvelle collaboration de recherche entre la Chine et les États-Unis offre un moyen de détecter les critiques de commerce électronique malveillantes conçues pour saper les concurrents ou pour faciliter le chantage, en tirant parti du comportement de signature de ces critiques.

Le système, intitulé modèle de détection des utilisateurs malveillants (MMD), utilise Apprentissage métrique, une technique couramment utilisé en vision par ordinateur et systèmes de recommandation, avec un réseau neuronal récurrent (RNN), pour identifier et étiqueter les résultats de ces évaluateurs, que l'article nomme Utilisateurs professionnels malveillants (PMU).

Super! 1 étoile

La plupart des avis de commerce électronique en ligne fournissent deux formes de commentaires des utilisateurs : une note par étoiles (ou une note sur 10) et un avis textuel, et dans un cas typique, ceux-ci correspondront logiquement (c'est-à-dire qu'un mauvais avis sera accompagné d'un note faible).

Les PMU, cependant, renversent généralement cette logique, soit en laissant une mauvaise critique de texte avec une note élevée, soit une mauvaise note accompagnée d'une bonne critique.

Cela permet à l'avis de l'utilisateur de nuire à la réputation sans déclencher les filtres relativement simples déployés par les sites de commerce électronique pour identifier et traiter les commentaires malveillants négatifs. Si un filtre basé sur le traitement du langage naturel (NLP) identifie des invectives dans le texte d'un avis, ce « drapeau » est effectivement annulé par la note élevée (ou décimale) que le PMU a également attribuée, rendant ainsi le contenu malveillant « neutre ». , d'un point de vue statistique.

Un exemple de la façon dont un avis malveillant peut être mélangé, statistiquement, avec des avis authentiques, du point de vue d'un système de filtrage collaboratif qui tente d'identifier un tel comportement. Source : https://arxiv.org/pdf/2205.09673.pdf

Un exemple de la façon dont un avis malveillant peut être mélangé, statistiquement, avec des avis authentiques, du point de vue d'un système de filtrage collaboratif qui tente d'identifier un tel comportement.  Source : https://arxiv.org/pdf/2205.09673.pdf

Le nouveau document note que l'intention d'un PMU est souvent d'extorquer de l'argent aux détaillants en ligne en échange d'une modification des avis négatifs et/ou d'une promesse de ne plus publier d'avis négatifs. Dans certains cas, les acteurs sont ad hoc individus à la recherche de rabais, bien que fréquemment l'UGP soit employé occasionnellement par les concurrents de la victime.

Dissimulation des avis négatifs

La génération actuelle de détecteurs automatisés pour de tels examens utilise le filtrage collaboratif ou un modèle basé sur le contenu, et recherchent des « valeurs aberrantes » claires et sans ambiguïté – des avis qui sont uniformément négatifs dans les deux méthodes de rétroaction, et qui s'écartent notablement de la tendance générale du sentiment et de la notation des avis.

L'autre signature classique sur laquelle ces filtres s'appuient est une fréquence de publication élevée, alors qu'un PMU publiera de manière stratégique et seulement occasionnellement (puisque chaque avis peut représenter soit une commission individuelle, soit une étape d'une stratégie plus longue conçue pour obscurcir la métrique de « fréquence » ).

Par conséquent, les chercheurs du nouveau document ont intégré l'étrange polarité des critiques malveillantes professionnelles dans un système dédié, ce qui donne un algorithme presque comparable à la capacité d'un critique humain à "sentir un rat" à la disparité entre la note et la critique. contenu du texte.

L'architecture conceptuelle de MMD, composée de deux modules centraux : Malicious User Profiling (MUP) et Attention Metric Learning (MLC, en gris).

L'architecture conceptuelle de MMD, composée de deux modules centraux : Malicious User Profiling (MUP) et Attention Metric Learning (MLC, en gris).

Comparaison avec les approches antérieures

Étant donné que MMD est, selon les auteurs, le premier système à tenter d'identifier les UGP en fonction de leur style de publication schizophrène, il n'y a pas de travaux antérieurs directs auxquels le comparer. Par conséquent, les chercheurs ont opposé leur système à un certain nombre d'algorithmes de composants dont dépendent fréquemment les filtres automatisés traditionnels, notamment le clustering K-means++ ; le vénérable Détection des valeurs aberrantes statistiques (GAZON); Hysad; Semi-triste; CNN-tristeEt Système de recommandation de détection d'utilisateurs calomnieux (SDRS).

Testé par rapport à des ensembles de données étiquetés d'Amazon et de Yelp, MMD est capable d'identifier les détracteurs professionnels en ligne avec le taux de précision le plus élevé, affirment les auteurs. Le gras représente MMD, tandis que l'astérisque (*) indique les meilleures performances. Dans le cas ci-dessus, MMD n'a été battu que dans deux tâches, par une technologie autonome (MUP) qui lui est déjà intégrée, mais qui n'est pas outillée par défaut pour la tâche à accomplir.

Testé par rapport à des ensembles de données étiquetés d'Amazon et de Yelp, MMD est capable d'identifier les détracteurs professionnels en ligne avec le taux de précision le plus élevé, affirment les auteurs. Le gras représente MMD, tandis que l'astérisque (*) indique les meilleures performances. Dans le cas ci-dessus, MMD n'a été battu que dans deux tâches, par une technologie autonome (MUP) qui lui est déjà intégrée, mais qui n'est pas outillée par défaut pour la tâche à accomplir.

Dans ce cas, MMD a été opposé à des ensembles de données non étiquetés de Taobao et Jindong, ce qui en fait une tâche d'apprentissage non supervisée. Encore une fois, MMD n'est amélioré que par l'une de ses propres technologies constitutives, hautement adaptée à la tâche à des fins de test.

Dans ce cas, MMD a été opposé à des ensembles de données non étiquetés de Taobao et Jindong, ce qui en fait une tâche d'apprentissage non supervisée. Encore une fois, MMD n'est amélioré que par l'une de ses propres technologies constitutives, hautement adaptée à la tâche à des fins de test.

Les chercheurs observent :

"[Sur] les quatre ensembles de données, notre modèle proposé MMD (MLC + MUP) surpasse toutes les lignes de base en termes de score F. Notez que MMD est une combinaison de MLC et MUP, ce qui assure sa supériorité sur les modèles supervisés et non supervisés en général.

L'article suggère également que MMD pourrait servir de méthode de prétraitement utile pour les systèmes de filtrage automatisés traditionnels et fournit des résultats expérimentaux sur un certain nombre d'ensembles de données, y compris Filtrage collaboratif basé sur l'utilisateur (UBCF), Filtrage collaboratif basé sur les éléments (IBCF), Factorisation matricielle (MF-eALS), Classement bayésien personnalisé (MF-BPR), et Filtrage collaboratif neuronal (NCF).

Sur le plan de Taux de réussite (RH) et Gain cumulé actualisé normalisé (NDCG) dans les résultats de ces augmentations testées, les auteurs déclarent :

«Parmi les quatre ensembles de données, MMD améliore considérablement les modèles de recommandation en termes de RH et de NDCG. Plus précisément, MMD peut améliorer les performances des RH de 28.7 % en moyenne et HDCG de 17.3 % en moyenne.

« En supprimant les utilisateurs professionnels malveillants, MMD peut améliorer la qualité des ensembles de données. Sans ces faux utilisateurs professionnels malveillants [Rétroaction], le jeu de données devient plus [intuitif].'

Le papier est intitulé Détecter les utilisateurs malveillants professionnels avec l'apprentissage métrique dans le système de recommandations, et vient de chercheurs du Département d'informatique et de technologie de l'Université de Jilin ; le laboratoire clé de traitement intelligent de l'information de l'Académie chinoise des sciences à Pékin ; et la School of Business de Rutgers dans le New Jersey.

Données et approche

La détection des UGP est un défi multimodal, puisque deux paramètres non équivalents (une notation étoile/décimale à valeur numérique et une revue textuelle) doivent être pris en compte. Les auteurs du nouvel article affirment qu'aucun travail antérieur n'a relevé ce défi.

MMD emploie un Réseau de neurones récurrent à double attention hiérarchique (HDAN) pour assimiler le contenu de l'avis à un score de sentiment.

Projeter un avis dans un score de sentiment avec HDAN, qui contribue à l'intégration de mots et à l'intégration de phrases afin d'obtenir un score de sentiment.

Projeter un avis dans un score de sentiment avec HDAN, qui contribue à l'intégration de mots et à l'intégration de phrases afin d'obtenir un score de sentiment.

HDAN utilise des mécanismes d'attention pour attribuer des poids à chaque mot et à chaque phrase. Dans l'image ci-dessus, les auteurs déclarent, le mot pauvres devraient clairement se voir attribuer plus de poids que les mots concurrents dans l'examen.

Pour le projet, HDAN a pris les notes des produits sur quatre ensembles de données comme vérité de terrain. Les ensembles de données étaient  -; Yelp pour RecSys (2013); et deux ensembles de données du «monde réel» (plutôt qu'expérimental), de Taobao et Jindong.

MMD exploite Metric Learning, qui tente d'estimer une distance précise entre les entités afin de caractériser le groupe global de relations dans les données.

MMD commence par un encodage à chaud pour sélectionner l'utilisateur et l'élément, via un modèle de facteurs latents (LFM), qui obtient un score d'évaluation de base. En attendant, HDAN projette le contenu de l'avis dans le score de sentiment en tant que données complémentaires.

Les résultats sont ensuite traités dans un modèle de profilage d'utilisateurs malveillants (MUP), qui produit le vecteur d'écart de sentiment – l'écart entre la note et le score de sentiment estimé du contenu textuel de l'avis. Ainsi, pour la première fois, les UGP peuvent être catégorisées et étiquetées.

Apprentissage métrique basé sur l'attention pour le clustering.

Apprentissage métrique basé sur l'attention pour le clustering.

Metric Learning for Clustering (MLC) utilise ces étiquettes de sortie pour établir une métrique par rapport à laquelle la probabilité qu'un avis d'utilisateur soit malveillant est calculée.

Tests humains

En plus des résultats quantitatifs détaillés ci-dessus, les chercheurs ont mené une étude auprès des utilisateurs qui a chargé 20 étudiants d'identifier les avis malveillants, en se basant uniquement sur le contenu et le nombre d'étoiles. Les participants ont été invités à évaluer les commentaires comme 0 (pour les examinateurs "normaux") ou 1 (pour un utilisateur professionnel malveillant).

Sur une répartition 50/50 entre les critiques normales et malveillantes, les étudiants ont étiqueté en moyenne 24 vrais positifs et 24 vrais négatifs. En comparaison, MMD a pu étiqueter en moyenne 23 vrais utilisateurs positifs et 24 vrais négatifs, opérant presque au niveau de discernement humain et dépassant les lignes de base pour la tâche.

Étudiants contre MMD. L'astérisque [*] indique les meilleurs résultats et le gras indique les résultats de MMD.

Étudiants contre MMD. L'astérisque [*] indique les meilleurs résultats et le gras indique les résultats de MMD.

Les auteurs concluent:

« Essentiellement, MMD est une solution générique, qui peut non seulement détecter les utilisateurs malveillants professionnels qui sont explorés dans ce document, mais aussi servir de base générale pour les détections d'utilisateurs malveillants. Avec plus de données, telles que l'image, la vidéo ou le son, l'idée de MMD peut être instructive pour détecter l'écart de sentiment entre leur titre et leur contenu, qui a un bel avenir pour contrer différentes stratégies de masquage dans différentes applications.

 

Première publication le 20 mai 2022.