Connect with us

Umělá inteligence

Detekce ‘Profesionálních’ Zákeřných Online Recenzí S Použitím Strojového Učení

mm

Nová výzkumná spolupráce mezi Čínou a USA nabízí způsob, jak detekovat zákeřné e-commerce recenze, které jsou navrženy tak, aby podkopaly konkurenty nebo usnadnily vydírání, a to pomocí signální chování takových recenzentů.

Systém, nazvaný model detekce zákeřných uživatelů (MMD), využívá Metric Learning, techniku obvykle používanou v počítačovém vidění a doporučovacích systémech, spolu s Recurrent Neural Network (RNN), k identifikaci a označení výstupu takových recenzentů, které článek nazývá Profesionální Zákeřní Uživatelé (PMUs).

Skvěle! 1 hvězda

Většina online e-commerce recenzí poskytuje dvě formy uživatelské zpětné vazby: hodnocení hvězdičkami (nebo hodnocením z 10) a textovou recenzi, a v typickém případě tyto budou logicky odpovídat (tj. špatná recenze bude doprovázena nízkým hodnocením).

PMUs, však typicky porušují tuto logiku, buď tím, že ponechávají špatnou textovou recenzi s vysokým hodnocením, nebo špatné hodnocení doprovázené dobré recenzi.

To umožňuje uživatelské recenzi způsobit poškození pověsti bez spuštění relativně jednoduchých filtrů nasazených e-commerce weby k identifikaci a řešení výstupu zákeřných negativních recenzentů. Pokud filtr založený na Natural Language Processing (NLP) identifikuje invektivu v textu recenze, tento “flag” je efektivní zrušen vysokým hodnocením hvězdičkami (nebo desetinným), které PMU také přidělilo, efektivní rendering zákeřného obsahu “neutrálního”, z statistického hlediska.

Příklad toho, jak může být zákeřná recenze statisticky promísená s autentickými recenzemi, z pohledu kolaborativního filtrování, které se snaží identifikovat takové chování. Zdroj: https://arxiv.org/pdf/2205.09673.pdf

Příklad toho, jak může být zákeřná recenze statisticky promísená s autentickými recenzemi, z pohledu kolaborativního filtrování, které se snaží identifikovat takové chování. Zdroj: https://arxiv.org/pdf/2205.09673.pdf

Nový článek poznamenává, že záměrem PMU je často vymáhat peníze od online prodejců výměnou za změnu negativních recenzí, a/nebo slib, že nebude zveřejňovat žádné další negativní recenze. V některých případech jsou aktéry ad hoc jednotlivci hledající slevy, i když často je PMU náhodně zaměstnán konkurenty oběti.

<strong Maskování Negativních Recenzí

Současná generace automatizovaných detektorů pro takové recenze používá Collaborative Filtering nebo content-based model, a hledají jasné a neambivalentní “outliery” – recenze, které jsou uniformně negativní napříč oběma způsoby zpětné vazby, a které se výrazně liší od obecného trendu recenzí a hodnocení.

Další klasický signál, na který se tyto filtry zaměřují, je vysoká frekvence zveřejňování, zatímco PMU bude zveřejňovat strategicky a pouze občas (protože každá recenze může představovat buď individuální provizi, nebo fázi v dlouhodobé strategii navržené k zakrytí “frekvence” metriky).

Proto autoři nového článku integrovali divnou polaritu profesionálních zákeřných recenzí do specializovaného systému, což vedlo k algoritmu, který je téměř na úrovni schopnosti lidského recenzenta “vycítit” nesrovnalost mezi hodnocením a textovým obsahem recenze.

Konceptuální architektura pro MMD, skládající se ze dvou centrálních modulů: Profilování Zákeřných Uživatelů (MUP) a Attention Metric Learning (MLC, ve šedi).

Konceptuální architektura pro MMD, skládající se ze dvou centrálních modulů: Profilování Zákeřných Uživatelů (MUP) a Attention Metric Learning (MLC, ve šedi).

Srovnání s Předchozími Přístupy

Jelikož je MMD, podle autorů, prvním systémem, který se pokusil identifikovat PMUs na základě jejich schizofrenního stylu zveřejňování, neexistují žádné přímé předchozí práce, proti kterým by se mohl porovnat. Proto výzkumníci postavili svůj systém proti několika algoritmům, na kterých tradiční automatizované filtry často závisí, včetně K-means++ Clustering; Statistic Outlier Detection (SOD); Hysad; Semi-sad; CNN-sad; a Slanderous user Detection Recommender System (SDRS).

Testováno proti označeným datovým sadám z Amazonu a Yelpu, MMD je schopen identifikovat profesionální online kritiky s nejvyšší mírou přesnosti, tvrdí autoři. Tučné představuje MMD, zatímco hvězdička (*) označuje nejlepší výkon. V tomto případě MMD překonal pouze dvě úkoly, samostatnou technologií (MUP), která je již zahrnuta do něj, ale která není standardně vybavena pro úkol.

Testováno proti označeným datovým sadám z Amazonu a Yelpu, MMD je schopen identifikovat profesionální online kritiky s nejvyšší mírou přesnosti, tvrdí autoři. Tučné představuje MMD, zatímco hvězdička (*) označuje nejlepší výkon. V tomto případě MMD překonal pouze dvě úkoly, samostatnou technologií (MUP), která je již zahrnuta do něj, ale která není standardně vybavena pro úkol.

V tomto případě MMD čelil nelicencovaným datovým sadám z Taobao a Jindong, což z něj dělá efektivní nesupervizovanou úlohu učení. Opět MMD překonal pouze jednu ze svých vlastních technologií, která byla vysoce adaptována pro úkol pro účely testování.

V tomto případě MMD čelil nelicencovaným datovým sadám z Taobao a Jindong, což z něj dělá efektivní nesupervizovanou úlohu učení. Opět MMD překonal pouze jednu ze svých vlastních technologií, která byla vysoce adaptována pro úkol pro účely testování.

Výzkumníci poznamenávají:

‘[Na] všech čtyřech datových sadách, náš navrhovaný model MMD (MLC+MUP) překonal všechny baseline vzhledem k F-skóre. Poznamenáváme, že MMD je kombinací MLC a MUP, což zajišťuje jeho nadřazenost nad supervizovanými a nesupervizovanými modely obecně.’

Článek také naznačuje, že MMD by mohl sloužit jako užitečný předzpracovací metoda pro tradiční automatizované filtry, a poskytuje experimentální výsledky na několika datových sadách, včetně User-based collaborative Filtering (UBCF), Item-based collaborative Filtering (IBCF), Matrix Factorization (MF-eALS), Bayesian personalized ranking (MF-BPR), a Neural Collaborative Filtering (NCF).

Vzhledem k Hit Ratio (HR) a Normalized Discounted Cumulative Gain (NDCG) ve výsledcích těchto testovaných augmentací, autoři uvádějí:

‘Mezi všemi čtyřmi datovými sadami, MMD zlepšuje doporučovací modely významně vzhledem k HR a NDCG. Konkrétně, MMD může zlepšit výkon HR o 28,7% v průměru a NDCG o 17,3% v průměru.

‘Odstraněním profesionálních zákeřných uživatelů, MMD může zlepšit kvalitu datových sad. Bez těchto profesionálních zákeřných uživatelů, falešné [zpětné vazby], datová sada se stává více [intuitivní].’

Článek článek je nazvaný Detect Professional Malicious User with Metric Learning in Recommender Systems, a pochází od výzkumníků z Department of Computer Science and Technology at Jilin University; Key Lab of Intelligent Information Processing of Chinese Academy of Science at Beijing; a School of Business at Rutgers v New Jersey.

Data a Přístup

Detekce PMUs je multimodální výzvou, protože dvě neekvivalentní parametry (numerické hodnocení hvězdičkami nebo hodnocení z 10 a textová recenze) musí být zohledněny. Autoři nového článku tvrdí, že žádná předchozí práce nezpracovala tuto výzvu.

MMD využívá Hierarchical Dual-Attention recurrent Neural network (HDAN) k asimilaci obsahu recenze do sentimentového skóre.

Projekce recenze do sentimentového skóre s HDAN, který přispívá word embedding a sentence embedding, aby získal sentimentové skóre.

Projekce recenze do sentimentového skóre s HDAN, který přispívá word embedding a sentence embedding, aby získal sentimentové skóre.

HDAN používá pozornostní mechanismy k přiřazování vah každému slovu a každé větě. Na obrázku výše, autoři uvádějí, že slovo poorer by mělo být jasně přiřazeno větší váha než soutěžící slova v recenzi.

Pro projekt, HDAN vzal hodnocení produktů napříč čtyřmi datovými sadami jako ground truth. Datové sady byly Amazon.com; Yelp for RecSys (2013); a dvě “reálné” (ne experimentální) datové sady, z Taobao a Jindong.

MMD využívá Metric Learning, který se snaží odhadnout přesnou vzdálenost mezi entitami, aby charakterizoval celkovou skupinu vztahů v datech.

MMD začíná one-hot encoding, aby vybral uživatele a položku, prostřednictvím Latent Factor Model (LFM), který získá základní hodnocení skóre. Mezitím HDAN projekcí obsahu recenze do sentimentového skóre jako pomocných dat.

Výsledky jsou poté zpracovány do modelu Profilování Zákeřných Uživatelů (MUP), který vrací sentiment gap vector – nesrovnalost mezi hodnocením a odhadovaným sentimentovým skóre textového obsahu recenze. Tímto způsobem, poprvé, PMUs mohou být kategorizovány a označeny.

Pozornostní Metric Learning pro clustering.

Pozornostní Metric Learning pro clustering.

Metric Learning for Clustering (MLC) používá tyto výstupní štítky k nastavení metriky, proti které se vypočítá pravděpodobnost, že uživatelova recenze je zákeřná.

Lidské Testy

Kromě kvantitativních výsledků uvedených výše, výzkumníci provedli uživatelskou studii, která zadala 20 studentům identifikovat zákeřné recenze, na základě pouze obsahu a hodnocení hvězdičkami. Účastníci byli požádáni, aby ohodnotili recenze jako 0 (pro “normální” recenzenty) nebo 1 (pro profesionálního zákeřného uživatele).

Z 50/50 rozdělení mezi normálními a zákeřnými recenzemi, studenti označili 24 skutečné pozitivy a 24 skutečné negativy v průměru. V porovnání s tím, MMD byl schopen označit 23 skutečné pozitivy a 24 skutečné negativy v průměru, fungující téměř na úrovni lidského rozlišení, a překonávající baseline pro úkol.

Studenti vs. MMD. Hvězdička [*] označuje nejlepší výsledky, a tučné označuje výsledky MMD.

Studenti vs. MMD. Hvězdička [*] označuje nejlepší výsledky, a tučné označuje výsledky MMD.

Autoři uzavírají:

‘Ve své podstatě, MMD je obecné řešení, které může nejen detekovat profesionální zákeřné uživatele, kteří jsou prozkoumáni v tomto článku, ale také sloužit jako obecný základ pro detekci zákeřných uživatelů. S více daty, jako jsou obrázky, videa nebo zvuky, myšlenka MMD může být instruktivní k detekci nesrovnalosti mezi jejich názvem a obsahem, což má jasnou budoucnost, aby čelila různým maskovacím strategiím v různých aplikacích.’

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai