peň Detekcia „profesionálnych“ škodlivých online recenzií pomocou strojového učenia – Unite.AI
Spojte sa s nami

Umelá inteligencia

Detekcia „profesionálnych“ škodlivých online recenzií pomocou strojového učenia

mm
Aktualizované on

Nová výskumná spolupráca medzi Čínou a USA ponúka spôsob odhaľovania škodlivých recenzií elektronického obchodu, ktorých cieľom je podkopať konkurentov alebo uľahčiť vydieranie, a to využitím podpisového správania takýchto recenzentov.

Systém s názvom model detekcie škodlivých používateľov (MMD), využíva Metrické učenie, technika bežne používané v počítačovom videní a odporúčacie systémy, spolu s rekurentnou neurónovou sieťou (RNN), na identifikáciu a označenie výstupov takých recenzentov, ktorých článok pomenúva Profesionálni zlomyseľní používatelia (PMU).

Skvelé! 1 hviezdička

Väčšina online recenzií elektronického obchodu poskytuje dve formy spätnej väzby od používateľov: hodnotenie hviezdičkami (alebo hodnotenie z 10) a textovú recenziu, pričom v typickom prípade budú logicky korešpondovať (tj zlá recenzia bude sprevádzaná nízke hodnotenie).

PMU však zvyčajne podvracajú túto logiku tým, že buď zanechajú zlú textovú recenziu s vysokým hodnotením, alebo slabé hodnotenie sprevádzané dobrou recenziou.

To umožňuje, aby recenzia používateľa spôsobila poškodenie reputácie bez spustenia relatívne jednoduchých filtrov nasadených webmi elektronického obchodu na identifikáciu a riešenie výstupov škodlivo negatívnych recenzentov. Ak filter založený na spracovaní prirodzeného jazyka (NLP) identifikuje v texte recenzie invektívu, tento „príznak“ je účinne zrušený vysokým hviezdičkovým (alebo desiatkovým) hodnotením, ktoré tiež pridelil PMU, čím sa škodlivý obsah účinne vykreslí ako „neutrálny“ , zo štatistického hľadiska.

Príklad toho, ako možno štatisticky zmiešať škodlivú recenziu so skutočnými recenziami z pohľadu kolaboratívneho filtrovacieho systému, ktorý sa snaží takéto správanie identifikovať. Zdroj: https://arxiv.org/pdf/2205.09673.pdf

Príklad toho, ako možno štatisticky zmiešať škodlivú recenziu so skutočnými recenziami z pohľadu kolaboratívneho filtrovacieho systému, ktorý sa snaží takéto správanie identifikovať.  Zdroj: https://arxiv.org/pdf/2205.09673.pdf

Nový dokument poznamenáva, že zámerom PMU je často vymôcť peniaze od online maloobchodníkov výmenou za zmenu negatívnych recenzií a/alebo prísľub, že nebudú uverejňovať žiadne ďalšie negatívne recenzie. V niektorých prípadoch sú herci ad hoc jednotlivci hľadanie zliav, aj keď často PMU je príležitostne zamestnaný konkurentmi obete.

Maskovanie negatívnych recenzií

Súčasná generácia automatických detektorov pre takéto kontroly využíva Collaborative Filtering alebo a model založený na obsahu, a hľadajú jasné a jednoznačné „odľahlé hodnoty“ – recenzie, ktoré sú rovnomerne negatívne v rámci oboch metód spätnej väzby a ktoré sa výrazne odlišujú od všeobecného trendu hodnotenia a sentimentu.

Ďalším klasickým znakom, ktorý takéto filtre používajú, je vysoká frekvencia uverejňovania, zatiaľ čo PMU uverejňuje strategicky a len príležitostne (keďže každá kontrola môže predstavovať buď individuálnu províziu, alebo fázu dlhšej stratégie, ktorá má zahmlievať metriku „frekvencie“ ).

Preto výskumníci nového článku integrovali zvláštnu polaritu profesionálnych škodlivých recenzií do špeciálneho systému, čo viedlo k algoritmu, ktorý je takmer na rovnakej úrovni so schopnosťou ľudského recenzenta „vycítiť krysu“ pri rozdiele medzi hodnotením a recenziou. textový obsah.

Koncepčná architektúra pre MMD sa skladá z dvoch centrálnych modulov: profilovanie škodlivého používateľa (MUP) a učenie metrík pozornosti (MLC, v sivej farbe).

Koncepčná architektúra pre MMD sa skladá z dvoch centrálnych modulov: profilovanie škodlivého používateľa (MUP) a učenie metrík pozornosti (MLC, v sivej farbe).

Porovnanie s predchádzajúcimi prístupmi

Keďže MMD je, ako uvádzajú autori, prvým systémom, ktorý sa pokúšal identifikovať PMU na základe ich schizofrenického štýlu vysielania, neexistujú žiadne priame predchádzajúce práce, s ktorými by sa dal porovnať. Preto výskumníci postavili svoj systém proti množstvu komponentných algoritmov, na ktorých často závisia tradičné automatické filtre, vrátane K-means++ Clustering; ctihodný Štatistická detekcia odľahlých hodnôt (SOD); Hysad; Polosmutné; CNN - smutnéA Systém odporúčaní na detekciu ohováračských používateľov (SDRS).

Autori tvrdia, že testované proti označeným súborom údajov z Amazonu a Yelpu je MMD schopné identifikovať profesionálnych online kritikov s najvyššou mierou presnosti. Tučné predstavuje MMD, zatiaľ čo hviezdička (*) označuje najlepší výkon. Vo vyššie uvedenom prípade bol MMD porazený iba v dvoch úlohách, a to samostatnou technológiou (MUP), ktorá je už v ňom začlenená, ale ktorá nie je štandardne vybavená pre danú úlohu.

Autori tvrdia, že testované proti označeným súborom údajov z Amazonu a Yelpu je MMD schopné identifikovať profesionálnych online kritikov s najvyššou mierou presnosti. Tučné predstavuje MMD, zatiaľ čo hviezdička (*) označuje najlepší výkon. Vo vyššie uvedenom prípade bol MMD porazený iba v dvoch úlohách, a to samostatnou technológiou (MUP), ktorá je už v ňom začlenená, ale ktorá nie je štandardne vybavená pre danú úlohu.

V tomto prípade bol MMD postavený proti neoznačeným súborom údajov z Taobao a Jindong, čo z neho urobilo efektívne vzdelávaciu úlohu bez dozoru. Opäť platí, že MMD je vylepšený iba jednou z vlastných základných technológií, ktoré sú vysoko prispôsobené úlohe na účely testovania.

V tomto prípade bol MMD postavený proti neoznačeným súborom údajov z Taobao a Jindong, čo z neho urobilo efektívne vzdelávaciu úlohu bez dozoru. Opäť platí, že MMD je vylepšený iba jednou z vlastných základných technológií, ktoré sú vysoko prispôsobené úlohe na účely testovania.

Výskumníci pozorujú:

„[On] všetky štyri súbory údajov, náš navrhovaný model MMD (MLC+MUP) prekonáva všetky základné línie z hľadiska F-skóre. Všimnite si, že MMD je kombináciou MLC a MUP, čo zaisťuje jeho nadradenosť nad modelmi pod dohľadom a bez dozoru vo všeobecnosti.

Dokument tiež naznačuje, že MMD by mohol slúžiť ako užitočná metóda predbežného spracovania pre tradičné automatizované filtračné systémy a poskytuje experimentálne výsledky na množstve súborov údajov, vrátane Kolaboratívne filtrovanie na základe používateľov (UBCF), Kolaboratívne filtrovanie založené na položkách (IBCF), Maticová faktorizácia (MF-eALS), Bayesovský personalizovaný rebríček (MF-BPR) a Neurónové kolaboratívne filtrovanie (NCF).

Pokiaľ ide o Pomer zásahov (HR) a Normalizovaný diskontovaný kumulatívny zisk (NDCG) vo výsledkoch týchto testovaných augmentácií autori uvádzajú:

„Medzi všetkými štyrmi súbormi údajov MMD výrazne zlepšuje modely odporúčaní z hľadiska HR a NDCG. Konkrétne, MMD môže zvýšiť výkon HR v priemere o 28.7 % a HDCG v priemere o 17.3 %.

„Odstránením profesionálnych používateľov so zlými úmyslami môže MMD zlepšiť kvalitu súborov údajov. Bez týchto profesionálnych falošných používateľov so zlými úmyslami [spätná väzba], množina údajov sa stáva viac [intuitívne].'

papier je s názvom Odhaľte profesionálneho škodlivého používateľa pomocou metrického učenia v systéme odporúčanís a pochádza od výskumníkov z Katedry počítačovej vedy a technológie na Univerzite v Jilin; Kľúčové laboratórium inteligentného spracovania informácií Čínskej akadémie vied v Pekingu; a School of Business v Rutgers v New Jersey.

Údaje a prístup

Detekcia PMU je multimodálna výzva, pretože sa musia zvážiť dva neekvivalentné parametre (hodnota hviezdičkou/desatinnou číselnou hodnotou a textová kontrola). Autori nového článku tvrdia, že žiadna predchádzajúca práca sa touto výzvou nezaoberala.

MMD zamestnáva a Hierarchická rekurentná neurónová sieť s dvojitou pozornosťou (HDAN) na prispôsobenie obsahu recenzie do skóre sentimentu.

Premietanie recenzie do skóre sentimentu pomocou HDAN, ktorý prispieva k vkladaniu slov a vkladania viet s cieľom získať skóre sentimentu.

Premietanie recenzie do skóre sentimentu pomocou HDAN, ktorý prispieva k vkladaniu slov a vkladania viet s cieľom získať skóre sentimentu.

HDAN používa mechanizmy pozornosti na priraďovanie váh každému slovu a každej vete. Na obrázku vyššie autori uvádzajú slovo chudobnejší by mali mať v recenzii jednoznačne väčšiu váhu ako konkurenčné slová.

Pre tento projekt spoločnosť HDAN považovala hodnotenie produktov v štyroch súboroch údajov za základnú pravdu. Súbory údajov boli  Amazon.com; Yelp pre RecSys (2013); a dva súbory údajov „skutočného sveta“ (skôr ako experimentálne) z Taobao a Jindong.

MMD využíva metrické učenie, ktoré sa pokúša odhadnúť presnú vzdialenosť medzi entitami s cieľom charakterizovať celkovú skupinu vzťahov v údajoch.

MMD začína a jednorazové kódovanie na výber používateľa a položky prostredníctvom modelu latentného faktora (LFM), ktorý získa základné hodnotenie. Medzitým HDAN premieta obsah recenzie do skóre sentimentu ako doplnkové údaje.

Výsledky sa potom spracujú do modelu profilovania škodlivého používateľa (MUP), ktorého výstupom je vektor medzery sentimentu – nepomer medzi hodnotením a odhadovaným skóre sentimentu obsahu textu recenzie. Týmto spôsobom je možné po prvýkrát kategorizovať a označovať PMU.

Metrické učenie založené na pozornosti pre klastrovanie.

Metrické učenie založené na pozornosti pre klastrovanie.

Metric Learning for Clustering (MLC) používa tieto výstupné označenia na vytvorenie metriky, podľa ktorej sa vypočíta pravdepodobnosť, že používateľská recenzia bude škodlivá.

Ľudské testy

Vedci okrem kvantitatívnych výsledkov podrobne popísaných vyššie vykonali používateľskú štúdiu, ktorá zadala 20 študentom úlohu identifikovať škodlivé recenzie len na základe obsahu a hodnotenia hviezdičkami. Účastníci boli požiadaní, aby ohodnotili recenzie ako 0 (pre 'normálnych' recenzentov) resp 1 (pre profesionálneho používateľa so zlými úmyslami).

Z rozdelenia 50/50 medzi normálnymi a zlomyseľnými recenziami študenti v priemere označili 24 skutočne pozitívnych a 24 skutočne negatívnych používateľov. Na porovnanie, MMD dokázalo označiť v priemere 23 skutočne pozitívnych a 24 skutočne negatívnych používateľov, ktorí pracovali takmer na ľudskej úrovni a prekročili základné línie pre túto úlohu.

Študenti vs. MMD. Hviezdička [*] označuje najlepšie výsledky a tučné písmo označuje výsledky MMD.

Študenti vs. MMD. Hviezdička [*] označuje najlepšie výsledky a tučné písmo označuje výsledky MMD.

Autori uzatvárajú:

„V podstate je MMD generické riešenie, ktoré dokáže nielen odhaliť profesionálnych používateľov so zlými úmyslami, ktorých skúma tento dokument, ale slúži aj ako všeobecný základ pre detekciu používateľov so zlými úmyslami. S väčším množstvom údajov, ako je obraz, video alebo zvuk, môže byť myšlienka MMD poučná na odhalenie rozdielu medzi ich názvom a obsahom, čo má pred sebou svetlú budúcnosť na boj proti rôznym maskovacím stratégiám v rôznych aplikáciách.

 

Prvýkrát uverejnené 20. mája 2022.