Connect with us

рдЗрдВрд╕реНрдЯрд╛рдЧреНрд░рд╛рдо рдХреНрд░рд╛рдЙрдбрдЯрд░реНрдлрд░реНрд╕ рдХреА рдкрд╣рдЪрд╛рди рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдХреЗ рд╕рд╛рде

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рдЗрдВрд╕реНрдЯрд╛рдЧреНрд░рд╛рдо рдХреНрд░рд╛рдЙрдбрдЯрд░реНрдлрд░реНрд╕ рдХреА рдкрд╣рдЪрд╛рди рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдХреЗ рд╕рд╛рде

mm

इटली और ईरान के शोधकर्ता दावा करते हैं कि उन्होंने इंस्टाग्राम प्लेटफ़ॉर्म पर मानव (स्वचालित नहीं) प्रभावित करने वाले खातों की ‘क्राउडटर्फिंग’ गतिविधि को पहचानने में सक्षम पहली मशीन लर्निंग प्रणाली का गठन किया है। क्राउडटर्फर्स वास्तविक लोग हैं जो प्लेटफ़ॉर्म पर ‘प्रोफ़ाइल बिल्डिंग’ सेवाएं प्रदान करते हैं जो इस तरह की गतिविधि को थोक में बेचते हैं।

नई विधि 95% के आसपास के सटीकता स्कोर का दावा करती है, और प्राकृतिक भाषा प्रसंस्करण (एनएलपी) प्रणालियों में अर्ध-पर्यवेक्षित शिक्षण का उपयोग करती है।

लेखकों का दावा है कि उनके ज्ञान के अनुसार, उनकी प्रणाली पहली क्राउडटर्फिंग (सीटी) डिटेक्टर प्रणाली का प्रतिनिधित्व करती है जो विश्वसनीय रूप से गैर-бот खातों पर ध्यान केंद्रित कर सकती है जो नकली भुगतान प्रोफ़ाइल और बढ़ावा देने में शामिल हैं।

इसे प्राप्त करने के लिए, लेखकों ने 11 सीटी प्लेटफ़ॉर्म प्रदाताओं से 1293 क्राउडटर्फिंग प्रोफ़ाइल खरीदे ताकि अपने सीटी डिटेक्टर को प्रशिक्षित करने के लिए डेटा प्राप्त किया जा सके। चूंकि इंस्टाग्राम में कई प्रभावी एंटी-बॉट उपाय हैं, इसलिए शोधकर्ताओं का ध्यान है कि जो लोग व्यावसायिक उद्देश्यों के लिए प्लेटफ़ॉर्म के विशाल उपयोगकर्ता आधार का शोषण करना चाहते हैं, उन्होंने वास्तव में प्रभावशाली इंस्टाग्रामर्स को ‘रणनीतिक रूप से जुड़ने’ के लिए भुगतान करना शुरू कर दिया है, ज्यादातर टिप्पणियों को साझा करने या पोस्ट पर टिप्पणियों से संबंधित गतिविधि के माध्यम से।

मॉडल को प्रशिक्षित करने के बाद, लेखकों ने इसे 20 ‘मेगा-प्रभावितों’ के इंगेजमेंट प्रोफाइल का विश्लेषण करने के लिए तैयार किया, प्रत्येक में 1 मिलियन से अधिक अनुयायी हैं, जिसका निष्कर्ष है कि ‘उनकी भागीदारी का 20% से अधिक कृत्रिम था’

पेपर का शीर्षक क्या हम सभी ट्रूमैन शो में हैं? स्व-प्रशिक्षण के माध्यम से इंस्टाग्राम क्राउडटर्फिंग का पता लगाना है, और यह इटली के पादोवा विश्वविद्यालय और ईरान के इमाम रेजा विश्वविद्यालय के पांच शोधकर्ताओं से है।

इंस्टाग्राम टीओएस का उल्लंघन

ट्विटर के विपरीत, जो सामाजिक मीडिया शोधकर्ताओं द्वारा अनुसंधान में सहायता के लिए प्रतिबद्धता के कारण पसंद किया जाता है, इंस्टाग्राम न केवल शोधकर्ताओं की मदद के लिए कोई एपीआई या अद्यतन डेटा डंप प्रदान करता है, बल्कि अपने नियमों और शर्तों में मशीन-चालित ब्राउज़िंग को भी प्रतिबंधित करता है। इसलिए, शोधकर्ताओं का पहला कार्य अपने मार्गदर्शक संस्थागत समीक्षा बोर्ड से छूट प्राप्त करना था, जो पूर्व कार्यों द्वारा उचित था, जिन्होंने ‘भूमिगत गतिविधियों’ की जांच के लिए एक समान दृष्टिकोण का उपयोग किया था।

क्राउडटर्फिंग सेवाएं शोधकर्ताओं द्वारा अपने उद्देश्यों के लिए बनाए गए ताज़ा इंस्टाग्राम खातों के लिए खरीदी गई थीं, जिनमें से सभी प्रयोग के बाद हटा दिए गए थे, जिससे ‘वैध’ उपयोगकर्ताओं की भागीदारी को रोका गया था। न तो अध्ययन किए गए प्रभावित करने वाले खाते और न ही सीटी प्लेटफ़ॉर्म सेवाओं का नाम लिया गया है।

एक और नैतिक बाधा यह थी कि शोधकर्ता हॉथोर्न प्रभाव (यानी, यह प्रभावित करने वालों के व्यवहार को बदल सकता था) के कारण अध्ययन किए जा रहे प्रभावित करने वालों से सहमति नहीं मांग सकते थे, और यह छूट भी आईआरबी द्वारा दी गई थी।

अंत में, चूंकि इंस्टाग्राम ‘मैनुअल संग्रह’ डेटा की अनुमति देता है, शोधकर्ताओं ने अपने टीओएस के उल्लंघन को ‘मानव गति’ पर अपने स्वचालित स्क्रैपिंग टूल को सेट करके समझौता किया, जिसने डेटा संग्रह के चरण को पांच महीने की आवश्यकता थी।

मानव बिक्री के लिए

शोधकर्ताओं ने 11 (अनाम) प्रदाताओं से 100 ‘नकली अनुयायी’ प्रोफाइल खरीदे।

पेपर में कहा गया है*:

‘सभी प्रदाता जिन्हें हमने चुना है, वे लक्ष्य प्रोफाइल पर पसंद और टिप्पणियां करने वाले अनुयायियों को वितरित करने का आश्वासन देते हैं ताकि उनकी भागीदारी दर को बढ़ावा मिल सके। ‘

‘इन सीटी प्रोफाइल को उच्च गुणवत्ता वाले अनुयायियों के रूप में पहचाना जाता है और आमतौर पर “बेस” नकली प्रोफाइल की तुलना में अधिक महंगे होते हैं। इन प्रदाताओं की विश्वसनीयता ट्रस्टपायलट जैसे प्रसिद्ध [समीक्षा] प्लेटफ़ॉर्म द्वारा समर्थित है।’

рдкреЗрдкрд░ рд╕реЗ, (рдЕрдирд╛рдо) рд╕реАрдЯреА рдкреНрд▓реЗрдЯрдлрд╝реЙрд░реНрдо рдкреНрд░рджрд╛рддрд╛рдУрдВ рдХреЗ рдЖрдВрдХрдбрд╝реЗ, рдкреНрд░рддреНрдпреЗрдХ рдПрдХ 'рднреНрд░рд╖реНрдЯ' рд╡рд╛рд╕реНрддрд╡рд┐рдХ рджреБрдирд┐рдпрд╛ рдХреЗ рдкреНрд░рднрд╛рд╡рд┐рдд рдХрд░рдиреЗ рд╡рд╛рд▓реЗ рдЦрд╛рддреЛрдВ рдХреЗ рд▓рд┐рдП рдмрд╛рдЬрд╝рд╛рд░ рд╣реИред рдпрд╣ рддрд╛рд▓рд┐рдХрд╛ рдкреНрд░рджрд╛рддрд╛рдУрдВ рджреНрд╡рд╛рд░рд╛ рд░рд┐рдкреЛрд░реНрдЯ рдХреА рдЧрдИ рдЬрд╛рдирдХрд╛рд░реА рдФрд░ рд╢реЛрдзрдХрд░реНрддрд╛рдУрдВ рджреНрд╡рд╛рд░рд╛ рдкреНрд░рддреНрдпреЗрдХ рд╕реНрд░реЛрдд рд╕реЗ рдЦрд░реАрджреЗ рдЧрдП 100 рдкреНрд░реЛрдлрд╛рдЗрд▓ рдХреЗ рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рдкреНрд░рд╛рдкреНрдд рдХреА рдЧрдИ рдЬрд╛рдирдХрд╛рд░реА рдХрд╛ рд░реВрдкрд░реЗрдЦрд╛ рдХрд░рддреА рд╣реИред рд╕реНрд░реЛрдд: https://arxiv.org/pdf/2206.12904.pdf

पेपर से, (अनाम) सीटी प्लेटफ़ॉर्म प्रदाताओं के आंकड़े, प्रत्येक एक ‘भ्रष्ट’ वास्तविक दुनिया के प्रभावित करने वाले खातों के लिए बाज़ार है। स्रोत: https://arxiv.org/pdf/2206.12904.pdf

पेपर में कहा गया है कि एक इंस्टाग्राम प्रभावित करने वाले को खरीदने की औसत लागत बहुत अधिक नहीं है, जो लगभग 100 ‘उच्च गुणवत्ता वाले’ अनुयायियों के लिए $3 है। लेखकों का उल्लेख है:

‘अधिकांश प्रदाता कुछ घंटों के भीतर अनुयायियों को वितरित करते हैं। वे एक ड्रॉप सुरक्षा प्रदान करते हैं, जिसका अर्थ है कि ग्राहक द्वारा खरीदे गए अनुयायियों की संख्या या तो समय के साथ स्थिर रहेगी या खोए हुए लोगों को पूरा करने के लिए नए अनुयायी वितरित किए जाएंगे।’

शोधकर्ताओं की रिपोर्ट है कि उनके ताज़ा इंस्टाग्राम खातों में से कुछ ने एक महीने के बाद 15-20% सीटी अनुयायियों की हानि का अनुभव किया, लेकिन कुछ मामलों में उन्हें अपेक्षा से अधिक प्राप्त हुआ। सबसे महंगे सीटी प्रदाता (तालिका में सीटी-10) के लिए, केवल तीन अनुयायी एक महीने के बाद खो गए थे।

पेपर में कहा गया है कि अनुयायी/अनुसरण अनुपात जितना अधिक आप सीटी प्रदाता को भुगतान करते हैं, उतना ही अधिक ‘वास्तविक’ हो जाता है, दूसरे सबसे महंगे प्रदाता को एक अनुपात प्रदान करता है जो एक मानक उपयोगकर्ता के बेसलाइन के बहुत करीब है।

एक सीटी इंस्टाग्राम खाते की एक विशेषता यह है कि इसका प्रोफ़ाइल शायद ही कभी ‘निजी’ (एक तथ्य जिसने डेटा को नकली अनुयायियों से प्राप्त करने की अनुमति दी, क्योंकि अधिकांश विश्लेषण प्रोफ़ाइल और संबंधित टिप्पणियों पर केंद्रित थे) होगा, हालांकि इसे इस संबंध में एक विश्वसनीय ‘संकेत’ के रूप में नहीं देखा जाना चाहिए।

‘जो लोग इन प्लेटफ़ॉर्म में शामिल होते हैं वे कम से कम पोस्ट बनाने में रुचि रखते हैं जो उन्हें विश्वसनीय बनाते हैं, कुछ मामलों (सीटी-4, सीटी-10) को छोड़कर। कम गुणवत्ता वाले प्रोफाइल में अनुयायियों और अनुसरण करने वालों में बहुत अधिक असंतुलन है, और पोस्ट की औसत संख्या शून्य के करीब है, सीटी प्रोफाइल से बहुत कम।’

डेटा

शोधकर्ताओं ने ब्राउज़र-ऑटोमेटिंग फ्रेमवर्क सेलेनियम के कार्यान्वयन के माध्यम से डेटा एकत्र किया। परिणामी डेटासेट में 1293 सीटी और 1307 गैर-सीटी उपयोगकर्ताओं की प्रोफ़ाइल जानकारी शामिल है।

यह स्वीकार्य रूप से कम नमूना मात्रा ने इसे एक तर्कसंगत अवधि के दौरान सेलेनियम को मानव गति पर सेट करना संभव बना दिया। इसके अलावा, लेखकों का उल्लेख है कि अर्ध-पर्यवेक्षित शिक्षण तकनीकों की व्याख्यात्मक शक्ति छोटे डेटासेट को बहुत अच्छी तरह से समायोजित करती है। पूरी तरह से पर्यवेक्षित मॉडल के साथ प्रयोग करने के बाद, शोधकर्ताओं का निष्कर्ष है:

‘[परिणाम] अर्ध-पर्यवेक्षित मोड में पूरी तरह से पर्यवेक्षित तरीके से महत्वपूर्ण रूप से भिन्न नहीं हैं। यह सुझाव देता है कि सीटी प्रोफाइल बहुत समान [विशेषताओं] साझा करते हैं, और एल्गोरिदम [एक छोटी मात्रा में] लेबल वाले डेटा के माध्यम से अभिसरण कर सकता है।’

लेखकों ने ‘समर्पित’ उपयोगकर्ताओं की प्रोफ़ाइल पृष्ठों के स्रोत कोड से सभी उपलब्ध डेटा एकत्र किया, जिसमें आमतौर पर प्रस्तुत किए जाने पर धुंधले हुए विवरण शामिल हैं, जैसे कि #वीडियो तत्व।

उन्होंने तब डेटा विशेषताओं को शून्य या निम्न विचरण वाले लोगों को हटाकर प्री-प्रोसेस किया, और अंत में किसी भी श्रेणीबद्ध या गैर-संख्यात्मक डेटा को सख्ती से संख्यात्मक या बूलियन विशेषताओं में परिवर्तित कर दिया।

рдЕрдВрддрд┐рдо рдбреЗрдЯрд╛рд╕реЗрдЯ рдХреА рд╡рд┐рд╢реЗрд╖рддрд╛рдПрдВ.

अंतिम डेटासेट की विशेषताएं.

विधि और अन्वेषण

सेलेनियम के अलावा, प्रयोगों में उपयोग की जाने वाली प्रौद्योगिकियों में शामिल हैं: एक स्पेसी का एक संस्करण जो एक ट्रांसफ़ॉर्मर-आधारित पाइपलाइन के साथ लागू किया गया है; एक स्किट-लर्न स्व-प्रशिक्षण वर्गीकरणकर्ता; और इंस्टालोडर फ्रेमवर्क।

इस नए पेपर में कोई परंपरागत ‘परिणाम’ अनुभाग नहीं है, क्योंकि यह एक उद्देश्य (यानी, स्वचालित रूप से भ्रष्ट इंस्टाग्राम खातों का अनुमान) से संबंधित है जो अब तक के केंद्रीय लोकус ऑफ़ इंटरेस्ट (यानी, इंस्टाग्राम पर स्वचालित बॉट गतिविधि का स्वचालित अनुमान) से विचलित होता है, जिसका अर्थ है कि इसकी तुलना करने के लिए कोई पहले से तुलनीय कार्य नहीं है।

शोधकर्ताओं ने उपलब्ध खरीदे गए उपयोगकर्ताओं पर विभिन्न प्रकार के तरीकों को अपनाया, (जिन्हें वे ‘नकली’ के बजाय ‘गैर-सीटी’ के रूप में वर्णित करने में सहज महसूस करते हैं, क्योंकि वास्तविक खाते गैर-जैविक, भुगतान की जाने वाली भागीदारी गतिविधियों में संलग्न हैं), विभिन्न प्रकार के एनएलपी से संबंधित प्रौद्योगिकियों के माध्यम से।

अध्ययन किए गए पहलुओं में भाषा विश्लेषण (जो सीटी दुनिया में लगभग हमेशा अंग्रेजी में डिफ़ॉल्ट होता है, हालांकि सीटी प्लेटफ़ॉर्म भी जियो-स्थित गैर-अंग्रेजी अनुयायियों की पेशकश करते हैं); टिप्पणी गणना (जहां नकली उपयोगकर्ता वास्तविक उपयोगकर्ताओं की आवृत्ति के बहुत करीब रहते हैं, पता लगाने के डर से); और सामान्य शब्द विश्लेषण:

рдирдХрд▓реА рдФрд░ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛рдУрдВ рд╕реЗ рд╢рдмреНрдж рдмрд╛рджрд▓.

नकली और वास्तविक उपयोगकर्ताओं से शब्द बादल.

पेपर में कहा गया है कि नकली खातों में ‘दोक्टर’ शब्द की प्रचुरता एक विशिष्ट आंतरिक अभियान से संबंधित प्रतीत होती है:

‘“दोक्टर” [1069 अलग-अलग टिप्पणियों में दिखाई दिया। इन टिप्पणियों को बमबारी करने वाले खातों की आगे जांच करने से हमें एक छोटा सा हिस्सा मिला जो एक बोटनेट का लगता है जिसका उद्देश्य “इंस्टाग्राम डॉक्टर” खातों को बमबारी करना है। सभी डॉक्टरों के प्रोफ़ाइल में एक व्हाट्सएप व्यवसाय लिंक है जो एक संदेश के साथ चैट शुरू करता है जिसे पूरा करने के लिए।’

जैसा कि शोधकर्ता निर्धारित कर सकते हैं, यह अजीब कलाकृति एक बड़े बोटनेट का एक अवशेष हो सकता है जिस पर उन्होंने वास्तविक इंस्टाग्राम उपयोगकर्ताओं से गतिविधियों की तलाश करते समय ठोकर खाई थी।

कुल मिलाकर, शोधकर्ताओं ने 248,388 अनोखे इंस्टाग्राम उपयोगकर्ताओं की पोस्ट में 603,007 टिप्पणियां एकत्र कीं, जिनमें से लेखकों का अनुमान है कि 55,719 क्राउडटर्फिंग खाते थे।

पेपर में एकत्र किए गए डेटा में महिला विषयों की प्रमुखता का उल्लेख किया गया है। जीपीयू-पीडीएमएम (एक तकनीक जो ट्विटर पर अनिवार्य रूप से छोटे पोस्ट के लिए विकसित की गई थी) का उपयोग करके 121,822 टिप्पणियों के उपलब्ध कॉर्पस से 12,830 उपयुक्त टिप्पणियां निकालने के बाद, एल्गोरिदम ने पाया कि 12 पुरुषों और 8 महिलाओं की सामग्री पर विचार करते हुए, अधिकांश टिप्पणियां महिला से संबंधित विषयों से संबंधित हैं।

рдПрдХ рдкреНрд░рдпреЛрдЧ рдореЗрдВ рдирдХрд▓реА рдЯрд┐рдкреНрдкрдгрд┐рдпреЛрдВ рд╕реЗ рдирд┐рдХрд╛рд▓реЗ рдЧрдП рд╢реАрд░реНрд╖ 10 рд╡рд┐рд╖рдп.

एक प्रयोग में नकली टिप्पणियों से निकाले गए शीर्ष 10 विषय.

शोधकर्ताओं का निष्कर्ष है:

‘[जबकि] इंस्टाग्राम और अनुसंधान समुदाय ने बॉट और स्वचालित खातों का पता लगाने पर बहुत ध्यान केंद्रित किया है, हम मानते हैं कि सीटी गतिविधियों पर अधिक अध्ययन किए जाने चाहिए, जो प्रभावित करने वाले विपणन, इंस्टाग्राम प्लेटफ़ॉर्म और इसके अधिकांश उपयोगकर्ताओं को नकारात्मक रूप से प्रभावित करते हैं।’

 

* शोधकर्ताओं के उद्धृत ट्रस्टपायलट यूआरएल को छोड़ दिया गया है。

पहली बार 28 जून 2022 को प्रकाशित किया गया था।

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai