Umelá inteligencia
Detekcia „profesionálnych“ škodlivých online recenzií pomocou strojového učenia
Nová výskumná spolupráca medzi Čínou a USA ponúka spôsob odhaľovania škodlivých recenzií elektronického obchodu, ktorých cieľom je podkopať konkurentov alebo uľahčiť vydieranie, a to využitím podpisového správania takýchto recenzentov.
Systém s názvom model detekcie škodlivých používateľov (MMD), využíva Metrické učenie, technika bežne používané v počítačovom videní a odporúčacie systémy, spolu s rekurentnou neurónovou sieťou (RNN), na identifikáciu a označenie výstupov takých recenzentov, ktorých článok pomenúva Profesionálni zlomyseľní používatelia (PMU).
Skvelé! 1 hviezdička
Väčšina online recenzií elektronického obchodu poskytuje dve formy spätnej väzby od používateľov: hodnotenie hviezdičkami (alebo hodnotenie z 10) a textovú recenziu, pričom v typickom prípade budú logicky korešpondovať (tj zlá recenzia bude sprevádzaná nízke hodnotenie).
PMU však zvyčajne podvracajú túto logiku tým, že buď zanechajú zlú textovú recenziu s vysokým hodnotením, alebo slabé hodnotenie sprevádzané dobrou recenziou.
To umožňuje, aby recenzia používateľa spôsobila poškodenie reputácie bez spustenia relatívne jednoduchých filtrov nasadených webmi elektronického obchodu na identifikáciu a riešenie výstupov škodlivo negatívnych recenzentov. Ak filter založený na spracovaní prirodzeného jazyka (NLP) identifikuje v texte recenzie invektívu, tento „príznak“ je účinne zrušený vysokým hviezdičkovým (alebo desiatkovým) hodnotením, ktoré tiež pridelil PMU, čím sa škodlivý obsah účinne vykreslí ako „neutrálny“ , zo štatistického hľadiska.
Nový dokument poznamenáva, že zámerom PMU je často vymôcť peniaze od online maloobchodníkov výmenou za zmenu negatívnych recenzií a/alebo prísľub, že nebudú uverejňovať žiadne ďalšie negatívne recenzie. V niektorých prípadoch sú herci ad hoc jednotlivci hľadanie zliav, aj keď často PMU je príležitostne zamestnaný konkurentmi obete.
Maskovanie negatívnych recenzií
Súčasná generácia automatických detektorov pre takéto kontroly využíva Collaborative Filtering alebo a model založený na obsahu, a hľadajú jasné a jednoznačné „odľahlé hodnoty“ – recenzie, ktoré sú rovnomerne negatívne v rámci oboch metód spätnej väzby a ktoré sa výrazne odlišujú od všeobecného trendu hodnotenia a sentimentu.
Ďalším klasickým znakom, ktorý takéto filtre používajú, je vysoká frekvencia uverejňovania, zatiaľ čo PMU uverejňuje strategicky a len príležitostne (keďže každá kontrola môže predstavovať buď individuálnu províziu, alebo fázu dlhšej stratégie, ktorá má zahmlievať metriku „frekvencie“ ).
Preto výskumníci nového článku integrovali zvláštnu polaritu profesionálnych škodlivých recenzií do špeciálneho systému, čo viedlo k algoritmu, ktorý je takmer na rovnakej úrovni so schopnosťou ľudského recenzenta „vycítiť krysu“ pri rozdiele medzi hodnotením a recenziou. textový obsah.
Porovnanie s predchádzajúcimi prístupmi
Keďže MMD je, ako uvádzajú autori, prvým systémom, ktorý sa pokúšal identifikovať PMU na základe ich schizofrenického štýlu vysielania, neexistujú žiadne priame predchádzajúce práce, s ktorými by sa dal porovnať. Preto výskumníci postavili svoj systém proti množstvu komponentných algoritmov, na ktorých často závisia tradičné automatické filtre, vrátane K-means++ Clustering; ctihodný Štatistická detekcia odľahlých hodnôt (SOD); Hysad; Polosmutné; CNN - smutnéA Systém odporúčaní na detekciu ohováračských používateľov (SDRS).
Výskumníci pozorujú:
„[On] všetky štyri súbory údajov, náš navrhovaný model MMD (MLC+MUP) prekonáva všetky základné línie z hľadiska F-skóre. Všimnite si, že MMD je kombináciou MLC a MUP, čo zaisťuje jeho nadradenosť nad modelmi pod dohľadom a bez dozoru vo všeobecnosti.
Dokument tiež naznačuje, že MMD by mohol slúžiť ako užitočná metóda predbežného spracovania pre tradičné automatizované filtračné systémy a poskytuje experimentálne výsledky na množstve súborov údajov, vrátane Kolaboratívne filtrovanie na základe používateľov (UBCF), Kolaboratívne filtrovanie založené na položkách (IBCF), Maticová faktorizácia (MF-eALS), Bayesovský personalizovaný rebríček (MF-BPR) a Neurónové kolaboratívne filtrovanie (NCF).
Pokiaľ ide o Pomer zásahov (HR) a Normalizovaný diskontovaný kumulatívny zisk (NDCG) vo výsledkoch týchto testovaných augmentácií autori uvádzajú:
„Medzi všetkými štyrmi súbormi údajov MMD výrazne zlepšuje modely odporúčaní z hľadiska HR a NDCG. Konkrétne, MMD môže zvýšiť výkon HR v priemere o 28.7 % a HDCG v priemere o 17.3 %.
„Odstránením profesionálnych používateľov so zlými úmyslami môže MMD zlepšiť kvalitu súborov údajov. Bez týchto profesionálnych falošných používateľov so zlými úmyslami [spätná väzba], množina údajov sa stáva viac [intuitívne].'
papier je s názvom Odhaľte profesionálneho škodlivého používateľa pomocou metrického učenia v systéme odporúčanís a pochádza od výskumníkov z Katedry počítačovej vedy a technológie na Univerzite v Jilin; Kľúčové laboratórium inteligentného spracovania informácií Čínskej akadémie vied v Pekingu; a School of Business v Rutgers v New Jersey.
Údaje a prístup
Detekcia PMU je multimodálna výzva, pretože sa musia zvážiť dva neekvivalentné parametre (hodnota hviezdičkou/desatinnou číselnou hodnotou a textová kontrola). Autori nového článku tvrdia, že žiadna predchádzajúca práca sa touto výzvou nezaoberala.
MMD zamestnáva a Hierarchická rekurentná neurónová sieť s dvojitou pozornosťou (HDAN) na prispôsobenie obsahu recenzie do skóre sentimentu.
HDAN používa mechanizmy pozornosti na priraďovanie váh každému slovu a každej vete. Na obrázku vyššie autori uvádzajú slovo chudobnejší by mali mať v recenzii jednoznačne väčšiu váhu ako konkurenčné slová.
Pre tento projekt spoločnosť HDAN považovala hodnotenie produktov v štyroch súboroch údajov za základnú pravdu. Súbory údajov boli Amazon.com; Yelp pre RecSys (2013); a dva súbory údajov „skutočného sveta“ (skôr ako experimentálne) z Taobao a Jindong.
MMD využíva metrické učenie, ktoré sa pokúša odhadnúť presnú vzdialenosť medzi entitami s cieľom charakterizovať celkovú skupinu vzťahov v údajoch.
MMD začína a jednorazové kódovanie na výber používateľa a položky prostredníctvom modelu latentného faktora (LFM), ktorý získa základné hodnotenie. Medzitým HDAN premieta obsah recenzie do skóre sentimentu ako doplnkové údaje.
Výsledky sa potom spracujú do modelu profilovania škodlivého používateľa (MUP), ktorého výstupom je vektor medzery sentimentu – nepomer medzi hodnotením a odhadovaným skóre sentimentu obsahu textu recenzie. Týmto spôsobom je možné po prvýkrát kategorizovať a označovať PMU.
Metric Learning for Clustering (MLC) používa tieto výstupné označenia na vytvorenie metriky, podľa ktorej sa vypočíta pravdepodobnosť, že používateľská recenzia bude škodlivá.
Ľudské testy
Vedci okrem kvantitatívnych výsledkov podrobne popísaných vyššie vykonali používateľskú štúdiu, ktorá zadala 20 študentom úlohu identifikovať škodlivé recenzie len na základe obsahu a hodnotenia hviezdičkami. Účastníci boli požiadaní, aby ohodnotili recenzie ako 0 (pre 'normálnych' recenzentov) resp 1 (pre profesionálneho používateľa so zlými úmyslami).
Z rozdelenia 50/50 medzi normálnymi a zlomyseľnými recenziami študenti v priemere označili 24 skutočne pozitívnych a 24 skutočne negatívnych používateľov. Na porovnanie, MMD dokázalo označiť v priemere 23 skutočne pozitívnych a 24 skutočne negatívnych používateľov, ktorí pracovali takmer na ľudskej úrovni a prekročili základné línie pre túto úlohu.
Autori uzatvárajú:„V podstate je MMD generické riešenie, ktoré dokáže nielen odhaliť profesionálnych používateľov so zlými úmyslami, ktorých skúma tento dokument, ale slúži aj ako všeobecný základ pre detekciu používateľov so zlými úmyslami. S väčším množstvom údajov, ako je obraz, video alebo zvuk, môže byť myšlienka MMD poučná na odhalenie rozdielu medzi ich názvom a obsahom, čo má pred sebou svetlú budúcnosť na boj proti rôznym maskovacím stratégiám v rôznych aplikáciách.
Prvýkrát uverejnené 20. mája 2022.