mozzicone Rilevamento di recensioni online dannose "professionali" con Machine Learning - Unite.AI
Seguici sui social

Intelligenza Artificiale

Rilevamento di recensioni online dannose "professionali" con il machine learning

mm
aggiornato on

Una nuova collaborazione di ricerca tra Cina e Stati Uniti offre un modo per rilevare recensioni di e-commerce dannose progettate per indebolire i concorrenti o facilitare il ricatto, sfruttando il comportamento della firma di tali revisori.

Il sistema, intitolato modello di rilevamento degli utenti malintenzionati (MMD), utilizza Apprendimento metrico, una tecnica usato comunemente nella visione artificiale e sistemi di raccomandazione, insieme a una rete neurale ricorrente (RNN), per identificare ed etichettare il risultato di tali revisori, che l'articolo nomina Utenti malintenzionati professionisti (PMU).

Grande! 1 stella

La maggior parte delle recensioni di e-commerce online fornisce due forme di feedback degli utenti: una valutazione a stelle (o una valutazione su 10) e una recensione basata su testo e, in un caso tipico, queste corrisponderanno logicamente (ad esempio, una recensione negativa sarà accompagnata da un voto basso).

Le PMU, tuttavia, in genere sovvertono questa logica, lasciando una cattiva recensione del testo con una valutazione alta o una valutazione scarsa accompagnata da una buona recensione.

Ciò consente alla recensione dell'utente di causare danni alla reputazione senza attivare i filtri relativamente semplici implementati dai siti di e-commerce per identificare e affrontare l'output di recensori dannosamente negativi. Se un filtro basato sull'elaborazione del linguaggio naturale (NLP) identifica un'invettiva nel testo di una recensione, questo "flag" viene effettivamente cancellato dalla valutazione in stelle (o decimali) alta assegnata anche dalla PMU, rendendo di fatto "neutro" il contenuto dannoso , da un punto di vista statistico.

Un esempio di come una recensione dannosa possa essere mescolata, statisticamente, con recensioni autentiche, dal punto di vista di un sistema di filtraggio collaborativo che sta cercando di identificare tale comportamento. Fonte: https://arxiv.org/pdf/2205.09673.pdf

Un esempio di come una recensione dannosa possa essere mescolata, statisticamente, con recensioni autentiche, dal punto di vista di un sistema di filtraggio collaborativo che sta cercando di identificare tale comportamento.  Fonte: https://arxiv.org/pdf/2205.09673.pdf

Il nuovo documento rileva che l'intenzione di una PMU è spesso quella di estorcere denaro ai rivenditori online in cambio della modifica delle recensioni negative e/o della promessa di non pubblicare ulteriori recensioni negative. In alcuni casi, gli attori lo sono ad hoc individui ricerca di sconti, anche se spesso la PMU viene impiegato occasionalmente dai concorrenti della vittima.

Oscuramento delle recensioni negative

L'attuale generazione di rilevatori automatizzati per tali revisioni utilizza il filtraggio collaborativo o a modello basato sui contenuti, e sono alla ricerca di "valori anomali" chiari e inequivocabili: recensioni che sono uniformemente negative in entrambi i metodi di feedback e che si discostano notevolmente dalla tendenza generale del sentimento e della valutazione delle recensioni.

L'altra firma classica su cui tali filtri si basano è un'elevata frequenza di pubblicazione, mentre una PMU pubblicherà strategicamente e solo occasionalmente (poiché ogni recensione può rappresentare una commissione individuale o una fase di una strategia più lunga progettata per offuscare la metrica della "frequenza" ).

Pertanto i ricercatori del nuovo articolo hanno integrato la strana polarità delle recensioni malevole professionali in un sistema dedicato, risultando in un algoritmo che è quasi alla pari con la capacità di un revisore umano di "annusare un topo" alla disparità tra la valutazione e la recensione contenuto testuale.

L'architettura concettuale per MMD, composta da due moduli centrali: Malicious User Profiling (MUP) e Attention Metric Learning (MLC, in grigio).

L'architettura concettuale per MMD, composta da due moduli centrali: Malicious User Profiling (MUP) e Attention Metric Learning (MLC, in grigio).

Confronto con approcci precedenti

Poiché MMD è, affermano gli autori, il primo sistema che tenta di identificare le PMU in base al loro stile di pubblicazione schizofrenico, non ci sono lavori precedenti diretti con cui confrontarlo. Pertanto i ricercatori hanno confrontato il loro sistema con una serie di algoritmi di componenti da cui spesso dipendono i tradizionali filtri automatizzati, tra cui K-means++ Clustering; il venerabile Rilevazione statistica anomala (ZOLLA ERBOSA); Isad; Semi-triste; CNN-triste, E Sistema di raccomandazione per il rilevamento di utenti calunniosi (SDRS).

Testato su set di dati etichettati di Amazon e Yelp, MMD è in grado di identificare i detrattori online professionali con il più alto tasso di accuratezza, affermano gli autori. Il grassetto rappresenta MMD, mentre l'asterisco (*) indica la migliore prestazione. Nel caso precedente, MMD è stato battuto solo in due attività, da una tecnologia autonoma (MUP) che è già incorporata in essa, ma che non è attrezzata per impostazione predefinita per l'attività in questione.

Testato su set di dati etichettati di Amazon e Yelp, MMD è in grado di identificare i detrattori online professionali con il più alto tasso di accuratezza, affermano gli autori. Il grassetto rappresenta MMD, mentre l'asterisco (*) indica la migliore prestazione. Nel caso precedente, MMD è stato battuto solo in due attività, da una tecnologia autonoma (MUP) che è già incorporata in essa, ma che non è attrezzata per impostazione predefinita per l'attività in questione.

In questo caso, la MMD è stata contrapposta a set di dati senza etichetta di Taobao e Jindong, rendendola effettivamente un'attività di apprendimento senza supervisione. Ancora una volta, la MMD è migliorata solo da una delle sue tecnologie costituenti, altamente adattata al compito ai fini del test.

In questo caso, la MMD è stata contrapposta a set di dati senza etichetta di Taobao e Jindong, rendendola effettivamente un'attività di apprendimento senza supervisione. Ancora una volta, la MMD è migliorata solo da una delle sue tecnologie costituenti, altamente adattata al compito ai fini del test.

I ricercatori osservano:

'[Su] tutti e quattro i set di dati, il nostro modello MMD proposto (MLC+MUP) supera tutte le linee di base in termini di punteggio F. Si noti che MMD è una combinazione di MLC e MUP, che garantisce la sua superiorità rispetto ai modelli supervisionati e non supervisionati in generale.'

Il documento suggerisce inoltre che la MMD potrebbe servire come utile metodo di pre-elaborazione per i tradizionali sistemi di filtraggio automatizzati e fornisce risultati sperimentali su una serie di set di dati, tra cui Filtraggio collaborativo basato sull'utente (UBCF), Filtraggio collaborativo basato sugli elementi (IBCF), Fattorizzazione della matrice (MF-eALS), Classifica personalizzata bayesiana (MF-BPR), e Filtraggio collaborativo neurale (NCF).

In termini di Percentuale di successi (HR) e Guadagno cumulativo scontato normalizzato (NDCG) nei risultati di questi potenziamenti testati, gli autori affermano:

“Tra tutti e quattro i set di dati, MMD migliora significativamente i modelli di raccomandazione in termini di risorse umane e NDCG. Nello specifico, la MMD può migliorare le prestazioni delle risorse umane in media del 28.7% e l'HDCG in media del 17.3%.

"Eliminando gli utenti malintenzionati professionisti, MMD può migliorare la qualità dei set di dati. Senza il falso di questi utenti malintenzionati professionisti [risposta], il set di dati diventa more [intuitivo].'

Il carta è intitolato Rileva l'utente dannoso professionale con l'apprendimento delle metriche nel sistema di raccomandaziones, e proviene da ricercatori del Dipartimento di Informatica e Tecnologia dell'Università di Jilin; il Key Lab of Intelligent Information Processing dell'Accademia cinese delle scienze a Pechino; e la School of Business di Rutgers nel New Jersey.

Dati e approccio

Il rilevamento delle PMU è una sfida multimodale, poiché devono essere considerati due parametri non equivalenti (una valutazione a stelle/decimali con valore numerico e una revisione basata su testo). Gli autori del nuovo documento affermano che nessun lavoro precedente ha affrontato questa sfida.

MMD impiega a Rete neurale ricorrente a doppia attenzione gerarchica (HDAN) per assimilare il contenuto della recensione in un punteggio di sentiment.

Proiezione di una recensione in un punteggio di sentiment con HDAN, che contribuisce all'incorporamento di parole e frasi per ottenere un punteggio di sentiment.

Proiezione di una recensione in un punteggio di sentiment con HDAN, che contribuisce all'incorporamento di parole e frasi per ottenere un punteggio di sentiment.

HDAN utilizza meccanismi di attenzione per assegnare pesi a ciascuna parola ea ciascuna frase. Nell'immagine sopra, gli autori affermano, la parola più poveri dovrebbe chiaramente avere un peso maggiore rispetto alle parole concorrenti nella recensione.

Per il progetto, HDAN ha preso le valutazioni per i prodotti in quattro set di dati come verità di base. I set di dati erano  Amazon.com; Yelp per RecSys (2013); e due set di dati del "mondo reale" (piuttosto che sperimentali), da Taobao e Jindong.

MMD sfrutta Metric Learning, che tenta di stimare una distanza precisa tra entità al fine di caratterizzare il gruppo complessivo di relazioni nei dati.

MMD inizia con a codifica one-hot per selezionare l'utente e l'elemento, tramite un Latent Factor Model (LFM), che ottiene un punteggio di valutazione di base. Nel frattempo, HDAN proietta il contenuto della recensione nel punteggio del sentiment come dati aggiuntivi.

I risultati vengono quindi elaborati in un modello MUP (Malicious User Profiling), che restituisce il file vettore di gap sentimentale – la disparità tra la valutazione e il punteggio di sentiment stimato del contenuto testuale della recensione. In questo modo, per la prima volta, le PMU possono essere classificate ed etichettate.

Apprendimento della metrica basato sull'attenzione per il clustering.

Apprendimento della metrica basato sull'attenzione per il clustering.

Metric Learning for Clustering (MLC) utilizza queste etichette di output per stabilire una metrica in base alla quale viene calcolata la probabilità che una recensione utente sia dannosa.

Test umani

Oltre ai risultati quantitativi sopra descritti, i ricercatori hanno condotto uno studio sugli utenti che ha incaricato 20 studenti di identificare recensioni dannose, basandosi solo sul contenuto e sulla valutazione a stelle. Ai partecipanti è stato chiesto di valutare le recensioni come 0 (per revisori "normali") o 1 (per un utente malintenzionato professionista).

Su una divisione 50/50 tra recensioni normali e dannose, gli studenti hanno etichettato in media 24 utenti veri positivi e 24 veri negativi. In confronto, MMD è stato in grado di etichettare in media 23 utenti veri positivi e 24 veri negativi, operando quasi a livello di discernimento umano e superando le linee di base per l'attività.

Studenti contro MMD. L'asterisco [*] indica i risultati migliori e il grassetto indica i risultati della MMD.

Studenti contro MMD. L'asterisco [*] indica i risultati migliori e il grassetto indica i risultati della MMD.

Gli autori concludono:

"In sostanza, MMD è una soluzione generica, in grado non solo di rilevare gli utenti malintenzionati professionisti esaminati in questo documento, ma anche di fungere da base generale per il rilevamento di utenti malintenzionati". Con più dati, come immagini, video o suoni, l'idea di MMD può essere istruttiva per rilevare il divario di sentimento tra il titolo e il contenuto, che ha un brillante futuro per contrastare diverse strategie di mascheramento in diverse applicazioni.'

 

Pubblicato per la prima volta il 20 maggio 2022.