कृत्रिम बुद्धिमत्ता

पेशेवर दुर्भावनापूर्ण ऑनलाइन समीक्षाओं का पता लगाना मशीन लर्निंग के साथ

Published May 20, 2022

Updated April 5, 2026

Martin Anderson

चीन और अमेरिका के बीच एक नए अनुसंधान सहयोग से ईकॉमर्स समीक्षाओं का पता लगाने का एक तरीका मिला है जो प्रतियोगियों को कमजोर करने या उत्पीड़न को सुविधाजनक बनाने के लिए डिज़ाइन किया गया है, ऐसे समीक्षकों के हस्ताक्षर व्यवहार का लाभ उठाकर।

इस प्रणाली, जिसे दुर्भावनापूर्ण उपयोगकर्ता पता लगाने का मॉडल (एमएमडी) कहा जाता है, में मेट्रिक लर्निंग का उपयोग किया जाता है, जो एक तकनीक है जो कंप्यूटर विजन और रिकमेंडर सिस्टम में सामान्य रूप से उपयोग की जाती है, साथ ही एक रिकरेंट न्यूरल नेटवर्क (आरएनएन) के साथ, ऐसे समीक्षकों के आउटपुट की पहचान करने और लेबल करने के लिए, जिन्हें पेपर पेशेवर दुर्भावनापूर्ण उपयोगकर्ता (पीएमयू) कहता है।

महान! 1 स्टार

अधिकांश ऑनलाइन ईकॉमर्स समीक्षाएं दो प्रकार की उपयोगकर्ता प्रतिक्रिया प्रदान करती हैं: एक स्टार रेटिंग (या 10 में से एक रेटिंग) और एक पाठ-आधारित समीक्षा, और एक विशिष्ट मामले में, वे तार्किक रूप से संबंधित होंगे (अर्थात, एक खराब समीक्षा एक कम रेटिंग के साथ होगी)।

पीएमयू, हालांकि, इस तर्क को अक्सर उलट देते हैं, या तो एक उच्च रेटिंग के साथ एक खराब पाठ समीक्षा छोड़कर, या एक खराब रेटिंग के साथ एक अच्छी समीक्षा।

यह उपयोगकर्ता की समीक्षा को प्रतिष्ठा की क्षति पहुंचाने की अनुमति देता है बिना ईकॉमर्स साइटों द्वारा तैनात दुर्भावनापूर्ण नकारात्मक समीक्षकों के आउटपुट की पहचान करने और संबोधित करने के लिए तैनात किए गए अपेक्षाकृत सरल फिल्टर को ट्रिगर किए। यदि एक फिल्टर प्राकृतिक भाषा प्रसंस्करण (एनएलपी) का उपयोग करके समीक्षा के पाठ में अपशब्द की पहचान करता है, तो यह ‘फ्लैग’ प्रभावी रूप से पीएमयू द्वारा सौंपी गई उच्च स्टार (या दशमलव) रेटिंग द्वारा रद्द कर दिया जाता है, जो दुर्भावनापूर्ण सामग्री को ‘तटस्थ’ बनाता है, एक सांख्यिकीय दृष्टिकोण से।

एक दुर्भावनापूर्ण समीक्षा का एक उदाहरण कैसे एक सहयोगी फिल्टरिंग प्रणाली के दृष्टिकोण से सांख्यिकीय रूप से वास्तविक समीक्षाओं के साथ मिलाया जा सकता है। स्रोत: https://arxiv.org/pdf/2205.09673.pdf

नई पेपर में उल्लेख किया गया है कि एक पीएमयू का अक्सर उद्देश्य ऑनलाइन खुदरा विक्रेताओं से नकारात्मक समीक्षाओं के संशोधन के लिए पैसे की उगाही करना है, और/या आगे कोई नकारात्मक समीक्षा पोस्ट नहीं करने का वादा करना है। कुछ मामलों में, अभिनेता अद हॉक व्यक्ति हैं जो छूट की मांग कर रहे हैं, हालांकि अक्सर पीएमयू को पीड़ित के प्रतियोगियों द्वारा अनियमित रूप से नियुक्त किया जाता है।

नकारात्मक समीक्षाओं को छिपाना

वर्तमान पीढ़ी के ऐसी समीक्षाओं के लिए स्वचालित डिटेक्टर कॉलेबोरेटिव फिल्टरिंग या एक सामग्री-आधारित मॉडल का उपयोग करते हैं, और वे स्पष्ट और अस्पष्ट ‘आउटलियर’ की तलाश में हैं – जो समीक्षाएं दोनों प्रतिक्रिया विधियों में एकरूप रूप से नकारात्मक होती हैं और जो समीक्षा भावना और रेटिंग के सामान्य रुझान से काफी भिन्न होती हैं।

दूसरा क्लासिक हस्ताक्षर जिस पर ऐसे फिल्टर कुंजी है एक उच्च पोस्टिंग आवृत्ति, जबकि एक पीएमयू रणनीतिक रूप से और केवल कभी-कभी पोस्ट करेगा (क्योंकि प्रत्येक समीक्षा एक व्यक्तिगत कमीशन का प्रतिनिधित्व कर सकती है, या एक लंबी रणनीति का एक चरण जो ‘आवृत्ति’ मेट्रिक को धुंधला करने के लिए डिज़ाइन किया गया है)।

अतः, नए पेपर के शोधकर्ताओं ने पेशेवर दुर्भावनापूर्ण समीक्षाओं की अजीब ध्रुवता को एक समर्पित प्रणाली में एकीकृत किया है, जिसके परिणामस्वरूप एक एल्गोरिदम है जो मानव समीक्षक की क्षमता के लगभग बराबर है जो रेटिंग और समीक्षा पाठ सामग्री के बीच विसंगति को ‘सूंघने’ में सक्षम है।

एमएमडी के लिए अवधारणात्मक वास्तुकला, जो दो केंद्रीय मॉड्यूल से बना है: दुर्भावनापूर्ण उपयोगकर्ता प्रोफाइलिंग (एमयूपी) और ध्यान मेट्रिक लर्निंग (एमएलसी, ग्रे में).

पिछले दृष्टिकोणों की तुलना

चूंकि एमएमडी पहली प्रणाली है जो अपने विचित्र पोस्टिंग शैली के आधार पर पीएमयू की पहचान करने का प्रयास करती है, इसलिए इसकी तुलना करने के लिए कोई प्रत्यक्ष पिछला काम नहीं है। इसलिए, शोधकर्ताओं ने अपनी प्रणाली को कई घटक एल्गोरिदम के खिलाफ पिट किया जिन पर पारंपरिक स्वचालित फिल्टर अक्सर निर्भर करते हैं, जिनमें के-मीन्स++ क्लस्टरिंग; प्रतिष्ठित सांख्यिकीय आउटलियर डिटेक्शन (एसओडी); हिसाद; सेमी-सैड; सीएनएन-सैड; और स्लैंडरस यूजर डिटेक्शन रिकमेंडर सिस्टम (एसडीआरएस)।

अमेज़न और येल्प से लेबल वाले डेटासेट के खिलाफ परीक्षण किया गया, एमएमडी पेशेवर ऑनलाइन विरोधियों की पहचान करने में सबसे उच्च सटीकता दर के साथ सक्षम है, लेखकों का दावा है। बोल्ड एमएमडी का प्रतिनिधित्व करता है, जबकि तारा (*) सर्वश्रेष्ठ प्रदर्शन को इंगित करता है। इस मामले में, एमएमडी को केवल दो कार्यों में एक स्टैंडअलोन प्रौद्योगिकी (एमयूपी) द्वारा हराया गया था, जो पहले से ही इसमें शामिल है, लेकिन जो कार्य के लिए डिफ़ॉल्ट रूप से टूल नहीं है।[/em>

इस मामले में, एमएमडी को ताओबाओ और जिंडोंग से अनलेबल वाले डेटासेट के खिलाफ पिट किया गया, जो इसे एक असुपरवाइज्ड लर्निंग कार्य बनाता है। फिर से, एमएमडी को केवल अपनी स्वयं की एक घटक प्रौद्योगिकी द्वारा बेहतर बनाया जा सकता है, जो कार्य के लिए अत्यधिक अनुकूलित है।[/em>

शोधकर्ता टिप्पणी करते हैं:

‘चार डेटासेट में से, हमारे प्रस्तावित मॉडल एमएमडी (एमएलसी+एमयूपी) सभी बेसलाइन की तुलना में एफ-स्कोर के मामले में बेहतर प्रदर्शन करता है। ध्यान दें कि एमएमडी एमएलसी और एमयूपी का एक संयोजन है, जो इसे पर्यवेक्षित और असुपरवाइज्ड मॉडल दोनों की तुलना में इसकी श्रेष्ठता सुनिश्चित करता है।’

पेपर यह भी सुझाव देता है कि एमएमडी पारंपरिक स्वचालित फिल्टर प्रणालियों के लिए एक उपयोगी प्री-प्रोसेसिंग विधि के रूप में कार्य कर सकता है, और कई डेटासेट पर प्रयोगात्मक परिणाम प्रदान करता है, जिनमें उपयोगकर्ता-आधारित सहयोगी फिल्टरिंग (यूबीसीएफ), आइटम-आधारित सहयोगी फिल्टरिंग (आईबीसीएफ), मैट्रिक्स फैक्टराइजेशन (एमएफ-ईएलएस), बेयसियन व्यक्तिगत रैंकिंग (एमएफ-बीपीआर), और न्यूरल सहयोगी फिल्टरिंग (एनसीएफ) शामिल हैं।

इन परीक्षणों के प्रति हिट अनुपात (एचआर) और सामान्यीकृत छूट संचयी लाभ (एनडीसीजी) में, लेखकों का कहना है:

‘चार डेटासेट में से, एमएमडी एचआर और एनडीसीजी दोनों में सिफारिश मॉडल के प्रदर्शन में काफी सुधार करता है। विशेष रूप से, एमएमडी एचआर के प्रदर्शन में 28.7% की औसत वृद्धि और एनडीसीजी में 17.3% की औसत वृद्धि कर सकता है। ‘

‘पेशेवर दुर्भावनापूर्ण उपयोगकर्ताओं को हटाकर, एमएमडी डेटासेट की गुणवत्ता में सुधार कर सकता है। इन पेशेवर दुर्भावनापूर्ण उपयोगकर्ताओं की नकली प्रतिक्रिया के बिना, डेटासेट अधिक [सहज]हो जाता है।’

पेपर का शीर्षक मेट्रिक लर्निंग के साथ रिकमेंडर सिस्टम में पेशेवर दुर्भावनापूर्ण उपयोगकर्ता का पता लगाना है, और यह जिलिन विश्वविद्यालय के कंप्यूटर विज्ञान और प्रौद्योगिकी विभाग; चीनी अकादमी ऑफ साइंस के बीजिंग में इंटेलिजेंट इंफॉर्मेशन प्रोसेसिंग के की लैब; और न्यू जर्सी में रटगर्स के व्यवसाय स्कूल से शोधकर्ताओं से आया है।

डेटा और दृष्टिकोण

पीएमयू का पता लगाना एक बहुमोडल चुनौती है, क्योंकि दो गैर-तुल्य मापदंडों (एक संख्यात्मक-मूल्य स्टार/दशमलव रेटिंग और एक पाठ-आधारित समीक्षा) को विचार करना होगा। पेपर के लेखकों का दावा है कि कोई पूर्व कार्य इस चुनौती का सामना नहीं करता है।

एमएमडी एक हायरार्किकल डुअल-एटेंशन रिकरेंट न्यूरल नेटवर्क (एचडीएएन) का उपयोग करता है ताकि समीक्षा सामग्री को एक भावना स्कोर में समाहित किया जा सके।

एचडीएएन के साथ एक समीक्षा को एक भावना स्कोर में परियोजना करना, जो शब्द एम्बेडिंग और वाक्य एम्बेडिंग में योगदान देता है ताकि एक भावना स्कोर प्राप्त किया जा सके।[/em>

एचडीएएन शब्द और प्रत्येक वाक्य को वजन सौंपने के लिए ध्यान तंत्र का उपयोग करता है। ऊपर दी गई छवि में, लेखकों का कहना है कि शब्द पुअर को स्पष्ट रूप से समीक्षा में अन्य शब्दों की तुलना में अधिक वजन दिया जाना चाहिए।

परियोजना के लिए, एचडीएएन ने उत्पादों के लिए रेटिंग को चार डेटासेट में आधार सत्य के रूप में लिया। डेटासेट अमेज़न.कॉम; येल्प फॉर रिक्सिस (2013); और दो ‘वास्तविक दुनिया’ (प्रयोगात्मक के बजाय) डेटासेट, ताओबाओ और जिंडोंग से थे।

एमएमडी मेट्रिक लर्निंग का लाभ उठाता है, जो संबंधों के समूह में संस्थाओं के बीच एक सटीक दूरी का अनुमान लगाने का प्रयास करता है ताकि डेटा में संबंधों की समग्र संरचना की विशेषता हो सके।

एमएमडी एक वन-हॉट एन्कोडिंग से शुरू होता है ताकि उपयोगकर्ता और आइटम का चयन एक लैटेंट फैक्टर मॉडल (एलएफएम) के माध्यम से किया जा सके, जो एक आधार रेटिंग स्कोर प्राप्त करता है। इस बीच, एचडीएएन समीक्षा सामग्री को एक भावना स्कोर में परियोजना करता है जो एक सहायक डेटा के रूप में कार्य करता है।

परिणामों को तब एक दुर्भावनापूर्ण उपयोगकर्ता प्रोफाइलिंग (एमयूपी) मॉडल में संसाधित किया जाता है, जो भावना अंतराल वेक्टर का आउटपुट देता है – रेटिंग और समीक्षा पाठ सामग्री के अनुमानित भावना स्कोर के बीच विसंगति। इस प्रकार, पहली बार, पीएमयू को वर्गीकृत और लेबल किया जा सकता है।

क्लस्टरिंग के लिए ध्यान-आधारित मेट्रिक लर्निंग।[/em>

मेट्रिक लर्निंग फॉर क्लस्टरिंग (एमएलसी) इन आउटपुट लेबल का उपयोग एक मेट्रिक स्थापित करने के लिए करता है जिसके खिलाफ एक उपयोगकर्ता समीक्षा के दुर्भावनापूर्ण होने की संभावना की गणना की जाती है।

मानव परीक्षण

परिमाणात्मक परिणामों के अलावा, शोधकर्ताओं ने एक उपयोगकर्ता अध्ययन किया जिसमें 20 छात्रों को केवल सामग्री और स्टार रेटिंग के आधार पर दुर्भावनापूर्ण समीक्षाओं की पहचान करने का कार्य सौंपा गया था। प्रतिभागियों को समीक्षाओं को 0 (सामान्य समीक्षकों के लिए) या 1 (एक पेशेवर दुर्भावनापूर्ण उपयोगकर्ता के लिए) के रूप में रेट करने के लिए कहा गया था।

50/50 विभाजन के बीच सामान्य और दुर्भावनापूर्ण समीक्षाओं में, छात्रों ने औसतन 24 सच्चे सकारात्मक और 24 सच्चे नकारात्मक उपयोगकर्ताओं को लेबल किया। तुलना में, एमएमडी 23 सच्चे सकारात्मक और 24 सच्चे नकारात्मक उपयोगकर्ताओं को लेबल करने में सक्षम था, जो मानव-स्तर की विवेकशीलता के लगभग बराबर था और कार्य के लिए बेसलाइन को पार कर गया था।

छात्र बनाम एमएमडी। तारा (*) सर्वश्रेष्ठ परिणाम को इंगित करता है, और बोल्ड एमएमडी के परिणाम को इंगित करता है।[/em>

लेखक निष्कर्ष निकालते हैं:

‘सार में, एमएमडी एक सामान्य समाधान है, जो न केवल इस पेपर में अन्वेषित पेशेवर दुर्भावनापूर्ण उपयोगकर्ताओं का पता लगा सकता है, बल्कि दुर्भावनापूर्ण उपयोगकर्ता पता लगाने के लिए एक सामान्य आधार के रूप में भी कार्य कर सकता है। अधिक डेटा के साथ, जैसे कि छवि, वीडियो या ध्वनि, एमएमडी का विचार विभिन्न अनुप्रयोगों में विभिन्न मास्किंग रणनीतियों का मुकाबला करने के लिए एक उज्ज्वल भविष्य है।’

20 मई 2022 को पहली बार प्रकाशित।

Unite.AI