Inteligencia Artificial
Detección de reseñas en línea maliciosas 'profesionales' con aprendizaje automático

Una nueva colaboración de investigación entre China y EE. UU. ofrece una forma de detectar revisiones de comercio electrónico maliciosas diseñadas para socavar a los competidores o facilitar el chantaje, al aprovechar el comportamiento característico de dichos revisores.
El sistema, titulado modelo de detección de usuarios maliciosos (MMD), utiliza Aprendizaje métrico, una tecnica comúnmente utilizado en visión artificial y sistemas de recomendación, junto con una red neuronal recurrente (RNN), para identificar y etiquetar los resultados de dichos revisores, que el artículo denomina Usuarios maliciosos profesionales (PMU).
¡Excelente! 1 estrella
La mayoría de las reseñas de comercio electrónico en línea brindan dos formas de retroalimentación del usuario: una calificación de estrellas (o una calificación de 10) y una reseña basada en texto, y en un caso típico, estas se corresponderán lógicamente (es decir, una mala reseña irá acompañada de una calificación baja).
Sin embargo, las PMU suelen subvertir esta lógica, ya sea dejando una mala revisión de texto con una calificación alta o una mala calificación acompañada de una buena revisión.
Esto permite que la reseña del usuario cause daño a la reputación sin activar los filtros relativamente simples implementados por los sitios de comercio electrónico para identificar y abordar los resultados de revisores maliciosamente negativos. Si un filtro basado en el procesamiento del lenguaje natural (NLP, por sus siglas en inglés) identifica invectivas en el texto de una reseña, esta "bandera" se cancela efectivamente mediante la calificación alta de estrellas (o decimal) que también asignó la PMU, lo que efectivamente convierte el contenido malicioso en "neutral". , desde un punto de vista estadístico.

Un ejemplo de cómo una revisión maliciosa puede mezclarse, estadísticamente, con revisiones genuinas, desde el punto de vista de un sistema de filtrado colaborativo que intenta identificar dicho comportamiento. Fuente: https://arxiv.org/pdf/2205.09673.pdf
El nuevo documento señala que la intención de una PMU es a menudo extorsionar a los minoristas en línea a cambio de la modificación de las reseñas negativas y/o la promesa de no publicar más reseñas negativas. En algunos casos, los actores son ad hoc individuos buscando descuentos, aunque con frecuencia la UGP está siendo empleado ocasionalmente por los competidores de la víctima.
Ocultar críticas negativas
La generación actual de detectores automatizados para dichas revisiones utiliza el filtrado colaborativo o un modelo basado en contenido, y están buscando 'valores atípicos' claros e inequívocos: reseñas que son uniformemente negativas en ambos métodos de retroalimentación y que difieren notablemente de la tendencia general del sentimiento y la calificación de las reseñas.
La otra firma clásica que identifican estos filtros es una alta frecuencia de publicación, mientras que una PMU publicará estratégicamente y solo ocasionalmente (ya que cada revisión puede representar una comisión individual o una etapa en una estrategia más larga diseñada para ofuscar la métrica de 'frecuencia' ).
Por lo tanto, los investigadores del nuevo artículo han integrado la extraña polaridad de las revisiones maliciosas profesionales en un sistema dedicado, lo que da como resultado un algoritmo que está casi a la par con la capacidad de un revisor humano para 'olfatear una rata' ante la disparidad entre la calificación y la revisión. contenido del texto.

La arquitectura conceptual de MMD, compuesta por dos módulos centrales: perfiles de usuarios malintencionados (MUP) y aprendizaje de métricas de atención (MLC, en gris).
Comparación con enfoques anteriores
Dado que MMD es, afirman los autores, el primer sistema que intenta identificar PMU en función de su estilo de publicación esquizofrénico, no existen trabajos previos directos con los que compararlo. Por lo tanto, los investigadores compararon su sistema con una serie de algoritmos de componentes de los que suelen depender los filtros automáticos tradicionales, incluido K-means++ Clustering; el venerable Detección de valores atípicos estadísticos (CÉSPED); Hysad; Semi-triste; CNN-triste; y Sistema de recomendación de detección de usuarios difamatorios (SDRS).

Probado contra conjuntos de datos etiquetados de Amazon y Yelp, MMD puede identificar a los detractores profesionales en línea con la mayor tasa de precisión, afirman los autores. La negrita representa MMD, mientras que el asterisco (*) indica el mejor rendimiento. En el caso anterior, MMD fue superado en solo dos tareas, por una tecnología independiente (MUP) que ya está incorporada, pero que no está equipada de forma predeterminada para la tarea en cuestión.

En este caso, MMD se enfrentó a conjuntos de datos no etiquetados de Taobao y Jindong, lo que lo convirtió en una tarea de aprendizaje no supervisada. Nuevamente, MMD solo se mejora con una de sus propias tecnologías constituyentes, altamente adaptadas para la tarea con el propósito de realizar pruebas.
Los investigadores observan:
'[Sobre] los cuatro conjuntos de datos, nuestro modelo propuesto MMD (MLC+MUP) supera todas las líneas de base en términos de puntuación F. Tenga en cuenta que MMD es una combinación de MLC y MUP, lo que garantiza su superioridad sobre los modelos supervisados y no supervisados en general.
El documento también sugiere que MMD podría servir como un método de preprocesamiento útil para los sistemas de filtro automatizados tradicionales y proporciona resultados experimentales en una serie de conjuntos de datos, que incluyen Filtrado colaborativo basado en el usuario (UBCF), Filtrado colaborativo basado en elementos (IBCF), Factorización de matrices (MF-eALS), Clasificación personalizada bayesiana (MF-BPR), y Filtrado colaborativo neuronal (FNC).
En términos de Proporción de aciertos (HR) y Ganancia acumulada descontada normalizada (NDCG) en los resultados de estos aumentos probados, los autores afirman:
'Entre los cuatro conjuntos de datos, MMD mejora significativamente los modelos de recomendación en términos de recursos humanos y NDCG. En concreto, MMD puede mejorar el rendimiento de HR en un 28.7 % de media y HDCG en un 17.3 % de media.
'Al eliminar a los usuarios maliciosos profesionales, MMD puede mejorar la calidad de los conjuntos de datos. Sin la falsificación de estos usuarios maliciosos profesionales [reacción], el conjunto de datos se vuelve más [intuitivo].'
El se titula Detectar usuarios maliciosos profesionales con aprendizaje de métricas en el sistema de recomendacións, y proviene de investigadores del Departamento de Informática y Tecnología de la Universidad de Jilin; el Laboratorio Clave de Procesamiento de Información Inteligente de la Academia de Ciencias de China en Beijing; y la Escuela de Negocios de Rutgers en Nueva Jersey.
Datos y enfoque
La detección de PMU es un desafío multimodal, ya que se deben considerar dos parámetros no equivalentes (una calificación de estrella/decimal de valor numérico y una revisión basada en texto). Los autores del nuevo artículo afirman que ningún trabajo anterior ha abordado este desafío.
MMD emplea un Red neuronal recurrente de atención dual jerárquica (HDAN) para asimilar el contenido de la revisión en una puntuación de opinión.

Proyectar una reseña en una puntuación de opinión con HDAN, que contribuye a la incrustación de palabras y oraciones para obtener una puntuación de opinión.
HDAN utiliza mecanismos de atención para asignar pesos a cada palabra ya cada oración. En la imagen de arriba, los autores afirman, la palabra poorer claramente se le debe asignar mayor peso que las palabras que compiten en la revisión.
Para el proyecto, HDAN tomó las calificaciones de los productos en cuatro conjuntos de datos como datos reales. Los conjuntos de datos fueron Amazon.com; Yelp para RecSys (2013); y dos conjuntos de datos del 'mundo real' (en lugar de experimentales), de Taobao y Jindong.
MMD aprovecha Metric Learning, que intenta estimar una distancia precisa entre entidades para caracterizar el grupo general de relaciones en los datos.
MMD comienza con un codificación one-hot para seleccionar el usuario y el elemento, a través de un modelo de factor latente (LFM), que obtiene una puntuación de calificación base. Mientras tanto, HDAN proyecta el contenido de la reseña en la puntuación de opinión como datos adjuntos.
Luego, los resultados se procesan en un modelo de perfil de usuario malicioso (MUP), que genera el vector de brecha de sentimiento – la disparidad entre la calificación y la puntuación de opinión estimada del contenido de texto de la reseña. De esta forma, por primera vez, las PMU pueden categorizarse y etiquetarse.

Aprendizaje métrico basado en la atención para la agrupación.
Metric Learning for Clustering (MLC) usa estas etiquetas de salida para establecer una métrica contra la cual se calcula la probabilidad de que una revisión de usuario sea maliciosa.
Pruebas en humanos
Además de los resultados cuantitativos detallados anteriormente, los investigadores realizaron un estudio de usuarios que encargó a 20 estudiantes que identificaran reseñas maliciosas, basándose únicamente en el contenido y la calificación de estrellas. Se pidió a los participantes que calificaran las revisiones como 0 (para revisores 'normales') o 1 (para un usuario malicioso profesional).
De una división 50/50 entre revisiones normales y maliciosas, los estudiantes etiquetaron 24 usuarios verdaderos positivos y 24 usuarios verdaderos negativos en promedio. En comparación, MMD pudo etiquetar a 23 usuarios verdaderos positivos y 24 verdaderos negativos en promedio, operando casi al nivel de discernimiento humano y superando las líneas de base para la tarea.
![Estudiantes vs MMD. El asterisco [*] indica los mejores resultados y la negrita indica los resultados de MMD.](https://www.unite.ai/wp-content/uploads/2022/05/student-results-mmd.jpg)
Estudiantes vs MMD. El asterisco [*] indica los mejores resultados y la negrita indica los resultados de MMD.
“En esencia, MMD es una solución genérica, que no solo puede detectar a los usuarios maliciosos profesionales que se analizan en este documento, sino que también sirve como base general para la detección de usuarios maliciosos. Con más datos, como imagen, video o sonido, la idea de MMD puede ser instructiva para detectar la brecha de sentimiento entre su título y contenido, que tiene un futuro brillante para contrarrestar diferentes estrategias de enmascaramiento en diferentes aplicaciones.'
Publicado por primera vez el 20 de mayo de 2022.