рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
рдХреНрдпреЛрдВ рдПрдЖрдИ рдмреЗрд╣рддрд░ рдЙрддреНрдкрд╛рдж рд╕рд┐рдлрд╛рд░рд┐рд╢реЗрдВ рдкреНрд░рджрд╛рди рдирд╣реАрдВ рдХрд░ рд░рд╣рд╛ рд╣реИ

यदि आप अस्पष्ट चीजों में रुचि रखते हैं, तो आपके आइटम और उत्पादों की खोज आपके ‘मुख्यधारा’ सहकर्मियों की तुलना में आपके हितों से कम संबंधित होने की संभावना है; या तो आप एक मुद्रीकरण ‘एज केस’ हैं जिनके हितों को केवल तभी पूरा किया जाएगा जब आप आर्थिक खरीद शक्ति की ऊपरी श्रेणियों में भी हों (उदाहरण के लिए, ‘संपत्ति प्रबंधन’ से संबंधित उत्पाद और सेवाएं); या खोज एल्गोरिदम जिनका आप उपयोग कर रहे हैं वे सहयोगी फिल्टरिंग (सीएफ) का लाभ उठा रहे हैं, जो बहुसंख्यक के हितों को प्राथमिकता देता है।
चूंकि सहयोगी फिल्टरिंग अन्य संभावित रूप से अधिक सक्षम एल्गोरिदम और फ्रेमवर्क की तुलना में सस्ता और अधिक स्थापित है, इसलिए यह संभव है कि दोनों मामले लागू हों।
सीएफ-आधारित खोज परिणाम उन आइटमों को प्राथमिकता देंगे जो ‘आप जैसे लोगों’ के बीच लोकप्रिय माने जाते हैं, जितना कि होस्ट फ्रेमवर्क आपको एक उपभोक्ता के रूप में समझ सकता है।
यदि आप होस्ट सिस्टम को डेटा प्रोफाइलिंग जानकारी प्रदान करने के लिए अनिच्छुक हैं – उदाहरण के लिए, नेटफ्लिक्स और अन्य वीडियो सामग्री सेवाओं में ‘लाइक’ बटन दबाने के लिए – तो आप शायद अपने शुरुआती इंटरैक्शन में बहुत ही सामान्य रूप से वर्गीकृत किए जाएंगे, और आपको जो सिफारिशें मिलेंगी वे सबसे लोकप्रिय रुझानों को दर्शाएंगी।
एक स्ट्रीमिंग प्लेटफ़ॉर्म पर, इसका मतलब यह हो सकता है कि आपको वास्तविकता टीवी और फोरेंसिक हत्या वृत्तांत जैसे वर्तमान में ‘हॉट’ शो और फिल्में सिफारिशें मिलेंगी, चाहे आपको इनमें रुचि हो या नहीं। इसी तरह, पुस्तक सिफारिश मंचों के लिए, जो वर्तमान और हाल के बेस्ट-सेलर को प्रस्तुत करेंगे, जो कि स्पष्ट रूप से मनमाने ढंग से प्रतीत हो सकते हैं।
सिद्धांत रूप में, यहां तक कि डेटा-सावधान उपयोगकर्ताओं को भी ऐसी प्रणालियों से बेहतर परिणाम मिलने चाहिए, क्योंकि अधिकांश खोज फ्रेमवर्क उपयोगकर्ताओं को उनके उपयोग इतिहास को संपादित करने की सीमित क्षमता प्रदान करते हैं।
कोई भी रंग जैसा आप चाहते हैं, जब तक यह काला है
हालांकि, ऑस्ट्रिया से एक नए अध्ययन के अनुसार, सहयोगी फिल्टरिंग का सामग्री-आधारित फिल्टरिंग (जो उत्पादों के बीच संबंधों को परिभाषित करने का प्रयास करता है, न कि केवल समग्र लोकप्रियता को ध्यान में रखता है) और अन्य वैकल्पिक दृष्टिकोणों पर प्रभुत्व, खोज प्रणालियों को लंबे समय तक लोकप्रियता पूर्वाग्रह की ओर ले जाता है, जहां स्पष्ट रूप से लोकप्रिय परिणाम उन अंतिम उपयोगकर्ताओं की ओर धकेले जाते हैं जो उनसे उत्साहित नहीं होने की संभावना है।
इस पत्र में पाया गया है कि जो उपयोगकर्ता लोकप्रिय आइटम में रुचि नहीं रखते हैं उन्हें मध्यम या उच्च लोकप्रियता वाले उपयोगकर्ताओं की तुलना में ‘महत्वपूर्ण रूप से खराब’ सिफारिशें मिलती हैं, और (शायद तautologically) लोकप्रिय आइटम की सिफारिश अक्सर अलोकप्रिय आइटम की तुलना में अधिक बार की जाती है। शोधकर्ता यह निष्कर्ष भी निकालते हैं कि जिन उपयोगकर्ताओं की लोकप्रिय आइटम में रुचि कम है, उनके पास बड़े उपयोगकर्ता प्रोफाइल होते हैं जो सिफारिशकर्ता प्रणालियों को बेहतर बना सकते हैं – यदि केवल प्रणालियां ‘हेर्ड’ मेट्रिक्स की लत को दूर कर सकती हैं।

लोकप्रियता की तुलना उपयोगकर्ता प्रोफाइल की जटिलता से करने से पता चलता है कि ‘मार्जिनल’ उपयोगकर्ता जो मुख्यधारा की सामग्री में रुचि नहीं रखते हैं, उनके पास वास्तव में सिफारिशकर्ता प्रणालियों के लिए अधिक सामग्री है जिसे खनन किया जा सकता है; लेकिन चूंकि ऐसे उपयोगकर्ता रुझानों का पालन नहीं करते हैं, इसलिए यह एक खोया हुआ अवसर प्रतीत होता है। स्रोत: https://arxiv.org/pdf/2203.00376.pdf
इस पत्र का शीर्षक सहयोगी फिल्टरिंग-आधारित मल्टीमीडिया सिफारिशकर्ता प्रणालियों में लोकप्रियता पूर्वाग्रह है, और यह ग्राज़ में अब-सेंटर जीएमबीएच और ग्राज़ यूनिवर्सिटी ऑफ टेक्नोलॉजी के शोधकर्ताओं से है।
कवर किए गए डोमेन
पूर्व के कार्यों के विपरीत जो व्यक्तिगत क्षेत्रों (जैसे पुस्तक सिफारिशें) का अध्ययन करते हैं, नए पत्र में चार डोमेन की जांच की जाती है: डिजिटल पुस्तकें (बुकक्रॉसिंग डेटासेट के माध्यम से); फिल्में (मूवीलेंस के माध्यम से); संगीत (लास्ट.एफएम के माध्यम से); और एनीमे (मायएनीमेलिस्ट के माध्यम से).
अध्ययन ने चार लोकप्रिय मल्टीमीडिया सिफारिशकर्ता प्रणालियों (एमएमआरएस) सहयोगी फिल्टरिंग एल्गोरिदम को डेटासेट विभाजित के खिलाफ लागू किया, जो तीन उपयोगकर्ता समूहों में विभाजित किया गया था, जो ‘लोकप्रिय’ परिणामों के प्रति उनकी प्राप्ति के अनुसार: लो पॉप, मेड पॉप, और हाई पॉप। उपयोगकर्ता समूहों को 1000 समान आकार के समूहों में फिल्टर किया गया था, जो कम से कम, औसत, और सबसे अधिक ‘लोकप्रिय’ परिणामों को पसंद करने के लिए थे।
परिणामों पर टिप्पणी करते हुए, लेखकों ने कहा:
‘[हम] पाते हैं कि एक मल्टीमीडिया आइटम की सिफारिश की संभावना मजबूती से इसकी लोकप्रियता से संबंधित है [और] उपयोगकर्ताओं को जो लोकप्रिय आइटम में रुचि नहीं रखते हैं उन्हें मध्यम या उच्च लोकप्रियता वाले उपयोगकर्ताओं की तुलना में सांख्यिकीय रूप से महत्वपूर्ण रूप से खराब मल्टीमीडिया सिफारिशें मिलती हैं…
‘हमारे परिणाम दिखाते हैं कि हालांकि उपयोगकर्ता जो लोकप्रिय आइटम में रुचि नहीं रखते हैं उन्हें सबसे बड़े उपयोगकर्ता प्रोफाइल होते हैं, वे सिफारिशकर्ता प्रणालियों में सबसे कम सिफारिश सटीकता प्राप्त करते हैं। इसलिए, भविष्य के शोध की आवश्यकता है ताकि एमएमआरएस में लोकप्रियता पूर्वाग्रह को दूर किया जा सके, दोनों आइटम और उपयोगकर्ता स्तर पर।’
मूल्यांकन किए गए एल्गोरिदम में दो के-निकटतम पड़ोसी (केएनएन) वेरिएंट, यूज़रकेएनएन और यूज़रकेएनएनएवजी शामिल थे। पहला एक लक्ष्य उपयोगकर्ता और आइटम के लिए एक औसत रेटिंग नहीं उत्पन्न करता है। एक गैर-नकारात्मक मैट्रिक्स फैक्टरीकरण वेरिएंट (एनएमएफ) भी परीक्षण किया गया था, साथ ही एक को-क्लस्टरिंग एल्गोरिदम।
मूल्यांकन प्रोटोकॉल ने सिफारिश कार्य को एक भविष्यवाणी चुनौती के रूप में माना, जिसे शोधकर्ताओं ने माध्य абсолют त्रुटि (एमएई) के संदर्भ में मापा, एक पांच-गुना क्रॉस-वैलिडेशन प्रोटोकॉल के खिलाफ जो सामान्य 80/20 विभाजन से अधिक है।
परिणाम लोकप्रियता पूर्वाग्रह की लगभग गारंटी को दर्शाते हैं जो सहयोगी फिल्टरिंग के तहत होता है। प्रश्न, तर्कसंगत रूप से, यह है कि क्या यह समस्या के रूप में माना जाता है या नहीं जो वर्तमान में अपने खोज एल्गोरिदम में सीएफ को शामिल करने वाली बहु-अरब डॉलर की कंपनियों द्वारा महसूस की जाती है।

चार डेटासेट का अध्ययन करने वाले चार लोकप्रिक सहयोगी फिल्टरिंग सिफारिशों पर, प्रत्येक परिणाम यह दर्शाता है कि लोकप्रिय मीडिया आइटम अलोकप्रिय पेशकशों की तुलना में अधिक सिफारिशें मिलने की संभावना है।
‘ईज़ी’ तरीका
हालांकि सहयोगी फिल्टरिंग का उपयोग एक व्यापक खोज एल्गोरिदम रणनीति के एक हिस्से के रूप में किया जा रहा है, इसका खोज क्षेत्र में एक मजबूत हिस्सा है, और इसका तर्क और संभावित लाभदायकता समझने में आकर्षक रूप से आसान है।
स्वयं में, सीएफ मूल रूप से सामग्री मूल्य का मूल्यांकन करने का कार्य अंतिम उपयोगकर्ताओं को सौंप देता है, और सामग्री के मूल्य और अन्य ग्राहकों के लिए इसकी संभावित आकर्षण के सूचकांक के रूप में इसका उपयोग करता है। एक तुलना के द्वारा, यह मूल रूप से ‘पानी कूलर बाज़’ का एक मानचित्र है।
सामग्री-आधारित फिल्टरिंग (सीबीएफ) अधिक कठिन है, लेकिन यह संभावित रूप से अधिक प्रासंगिक परिणाम प्रदान कर सकता है। कंप्यूटर विजन क्षेत्र में, वर्तमान में वीडियो सामग्री को वर्गीकृत करने और डोमेन, विशेषताओं और उच्च स्तरीय अवधारणाओं को व्युत्पन्न करने के लिए विश्लेषण के माध्यम से फिल्म और टीवी आउटपुट में ऑडियो और वीडियो का विश्लेषण करने पर एक बढ़ती मात्रा में शोध व्यय किया जा रहा है।

पिछले पांच वर्षों में कई शोध परियोजनाओं में से एक जो फिल्मों की सामग्री से सेमेंटिक विशेषताओं को व्युत्पन्न करने का प्रयास करता है, ताकि अधिक बुद्धिमान ‘सहयोगी’ सिफारिशें उत्पन्न की जा सकें। स्रोत: https://arxiv.org/pdf/1701.00199.pdf
हालांकि, यह एक तुलनात्मक रूप से नवजात पीछा है, और वर्तमान में, अधिक सामान्य संघर्ष में बंधा हुआ है जो उच्च स्तरीय अवधारणाओं और विशेषताओं को डोमेन ज्ञान में मात्रा देने, अलग करने और शोषण करने के लिए है।
कौन सहयोगी फिल्टरिंग का उपयोग करता है?
लेखन के समय, नेटफ्लिक्स का अक्सर आलोचना किया जाने वाला सिफारिश इंजन अभी भी विभिन्न सहयोगी फिल्टरिंग दृष्टिकोणों पर केंद्रित है, जो उपयोगकर्ता-प्रासंगिक सिफारिशें उत्पन्न करने के प्रयासों में विभिन्न सहायक प्रौद्योगिकियों को लागू करता है।
अमेज़ॅन का खोज इंजन विकसित हुआ है अपने शुरुआती उपयोगकर्ता-आधारित सहयोगी फिल्टरिंग से एक आइटम-आइटम सहयोगी फिल्टरिंग विधि में, जो ग्राहक के खरीद इतिहास पर अधिक जोर देता है। प्राकृतिक रूप से, यह विभिन्न प्रकार की असंगति को जन्म दे सकता है, जैसे कि फिल्टर बुलबुले, या दुर्लभ डेटा पर जोर देने के लिए। बाद के मामले में, यदि एक अस्थायी अमेज़ॅन ग्राहक एक ‘असामान्य’ खरीदारी करता है, जैसे कि एक ऑपेरा प्रेमी मित्र के लिए एक सेट ऑफ ऑपेरेटास, तो उनके स्वयं के पसंद को प्रतिबिंबित करने के लिए पर्याप्त वैकल्पिक खरीदारी नहीं हो सकती है जो इस खरीदारी को उनकी सिफारिशों पर प्रभाव डालने से रोक सकती है।
सहयोगी फिल्टरिंग का उपयोग फेसबुक, अन्य दृष्टिकोणों के साथ-साथ, और लिंक्डइन, यूट्यूब, और ट्विटर द्वारा भी किया जाता है।
पहली बार 2 मार्च 2022 को प्रकाशित।












