कृत्रिम बुद्धिमत्ता

इंस्टाग्राम क्राउडटर्फर्स की पहचान मशीन लर्निंग के साथ

Published June 28, 2022

Updated April 5, 2026

Martin Anderson

इटली और ईरान के शोधकर्ता दावा करते हैं कि उन्होंने इंस्टाग्राम प्लेटफ़ॉर्म पर मानव (स्वचालित नहीं) प्रभावित करने वाले खातों की ‘क्राउडटर्फिंग’ गतिविधि को पहचानने में सक्षम पहली मशीन लर्निंग प्रणाली का गठन किया है। क्राउडटर्फर्स वास्तविक लोग हैं जो प्लेटफ़ॉर्म पर ‘प्रोफ़ाइल बिल्डिंग’ सेवाएं प्रदान करते हैं जो इस तरह की गतिविधि को थोक में बेचते हैं।

नई विधि 95% के आसपास के सटीकता स्कोर का दावा करती है, और प्राकृतिक भाषा प्रसंस्करण (एनएलपी) प्रणालियों में अर्ध-पर्यवेक्षित शिक्षण का उपयोग करती है।

लेखकों का दावा है कि उनके ज्ञान के अनुसार, उनकी प्रणाली पहली क्राउडटर्फिंग (सीटी) डिटेक्टर प्रणाली का प्रतिनिधित्व करती है जो विश्वसनीय रूप से गैर-бот खातों पर ध्यान केंद्रित कर सकती है जो नकली भुगतान प्रोफ़ाइल और बढ़ावा देने में शामिल हैं।

इसे प्राप्त करने के लिए, लेखकों ने 11 सीटी प्लेटफ़ॉर्म प्रदाताओं से 1293 क्राउडटर्फिंग प्रोफ़ाइल खरीदे ताकि अपने सीटी डिटेक्टर को प्रशिक्षित करने के लिए डेटा प्राप्त किया जा सके। चूंकि इंस्टाग्राम में कई प्रभावी एंटी-बॉट उपाय हैं, इसलिए शोधकर्ताओं का ध्यान है कि जो लोग व्यावसायिक उद्देश्यों के लिए प्लेटफ़ॉर्म के विशाल उपयोगकर्ता आधार का शोषण करना चाहते हैं, उन्होंने वास्तव में प्रभावशाली इंस्टाग्रामर्स को ‘रणनीतिक रूप से जुड़ने’ के लिए भुगतान करना शुरू कर दिया है, ज्यादातर टिप्पणियों को साझा करने या पोस्ट पर टिप्पणियों से संबंधित गतिविधि के माध्यम से।

मॉडल को प्रशिक्षित करने के बाद, लेखकों ने इसे 20 ‘मेगा-प्रभावितों’ के इंगेजमेंट प्रोफाइल का विश्लेषण करने के लिए तैयार किया, प्रत्येक में 1 मिलियन से अधिक अनुयायी हैं, जिसका निष्कर्ष है कि ‘उनकी भागीदारी का 20% से अधिक कृत्रिम था’।

पेपर का शीर्षक क्या हम सभी ट्रूमैन शो में हैं? स्व-प्रशिक्षण के माध्यम से इंस्टाग्राम क्राउडटर्फिंग का पता लगाना है, और यह इटली के पादोवा विश्वविद्यालय और ईरान के इमाम रेजा विश्वविद्यालय के पांच शोधकर्ताओं से है।

इंस्टाग्राम टीओएस का उल्लंघन

ट्विटर के विपरीत, जो सामाजिक मीडिया शोधकर्ताओं द्वारा अनुसंधान में सहायता के लिए प्रतिबद्धता के कारण पसंद किया जाता है, इंस्टाग्राम न केवल शोधकर्ताओं की मदद के लिए कोई एपीआई या अद्यतन डेटा डंप प्रदान करता है, बल्कि अपने नियमों और शर्तों में मशीन-चालित ब्राउज़िंग को भी प्रतिबंधित करता है। इसलिए, शोधकर्ताओं का पहला कार्य अपने मार्गदर्शक संस्थागत समीक्षा बोर्ड से छूट प्राप्त करना था, जो पूर्व कार्यों द्वारा उचित था, जिन्होंने ‘भूमिगत गतिविधियों’ की जांच के लिए एक समान दृष्टिकोण का उपयोग किया था।

क्राउडटर्फिंग सेवाएं शोधकर्ताओं द्वारा अपने उद्देश्यों के लिए बनाए गए ताज़ा इंस्टाग्राम खातों के लिए खरीदी गई थीं, जिनमें से सभी प्रयोग के बाद हटा दिए गए थे, जिससे ‘वैध’ उपयोगकर्ताओं की भागीदारी को रोका गया था। न तो अध्ययन किए गए प्रभावित करने वाले खाते और न ही सीटी प्लेटफ़ॉर्म सेवाओं का नाम लिया गया है।

एक और नैतिक बाधा यह थी कि शोधकर्ता हॉथोर्न प्रभाव (यानी, यह प्रभावित करने वालों के व्यवहार को बदल सकता था) के कारण अध्ययन किए जा रहे प्रभावित करने वालों से सहमति नहीं मांग सकते थे, और यह छूट भी आईआरबी द्वारा दी गई थी।

अंत में, चूंकि इंस्टाग्राम ‘मैनुअल संग्रह’ डेटा की अनुमति देता है, शोधकर्ताओं ने अपने टीओएस के उल्लंघन को ‘मानव गति’ पर अपने स्वचालित स्क्रैपिंग टूल को सेट करके समझौता किया, जिसने डेटा संग्रह के चरण को पांच महीने की आवश्यकता थी।

मानव बिक्री के लिए

शोधकर्ताओं ने 11 (अनाम) प्रदाताओं से 100 ‘नकली अनुयायी’ प्रोफाइल खरीदे।

पेपर में कहा गया है*:

‘सभी प्रदाता जिन्हें हमने चुना है, वे लक्ष्य प्रोफाइल पर पसंद और टिप्पणियां करने वाले अनुयायियों को वितरित करने का आश्वासन देते हैं ताकि उनकी भागीदारी दर को बढ़ावा मिल सके। ‘

‘इन सीटी प्रोफाइल को उच्च गुणवत्ता वाले अनुयायियों के रूप में पहचाना जाता है और आमतौर पर “बेस” नकली प्रोफाइल की तुलना में अधिक महंगे होते हैं। इन प्रदाताओं की विश्वसनीयता ट्रस्टपायलट जैसे प्रसिद्ध [समीक्षा] प्लेटफ़ॉर्म द्वारा समर्थित है।’

पेपर से, (अनाम) सीटी प्लेटफ़ॉर्म प्रदाताओं के आंकड़े, प्रत्येक एक 'भ्रष्ट' वास्तविक दुनिया के प्रभावित करने वाले खातों के लिए बाज़ार है। यह तालिका प्रदाताओं द्वारा रिपोर्ट की गई जानकारी और शोधकर्ताओं द्वारा प्रत्येक स्रोत से खरीदे गए 100 प्रोफाइल के विश्लेषण के माध्यम से प्राप्त की गई जानकारी का रूपरेखा करती है। स्रोत: https://arxiv.org/pdf/2206.12904.pdf

पेपर से, (अनाम) सीटी प्लेटफ़ॉर्म प्रदाताओं के आंकड़े, प्रत्येक एक ‘भ्रष्ट’ वास्तविक दुनिया के प्रभावित करने वाले खातों के लिए बाज़ार है। स्रोत: https://arxiv.org/pdf/2206.12904.pdf

पेपर में कहा गया है कि एक इंस्टाग्राम प्रभावित करने वाले को खरीदने की औसत लागत बहुत अधिक नहीं है, जो लगभग 100 ‘उच्च गुणवत्ता वाले’ अनुयायियों के लिए $3 है। लेखकों का उल्लेख है:

‘अधिकांश प्रदाता कुछ घंटों के भीतर अनुयायियों को वितरित करते हैं। वे एक ड्रॉप सुरक्षा प्रदान करते हैं, जिसका अर्थ है कि ग्राहक द्वारा खरीदे गए अनुयायियों की संख्या या तो समय के साथ स्थिर रहेगी या खोए हुए लोगों को पूरा करने के लिए नए अनुयायी वितरित किए जाएंगे।’

शोधकर्ताओं की रिपोर्ट है कि उनके ताज़ा इंस्टाग्राम खातों में से कुछ ने एक महीने के बाद 15-20% सीटी अनुयायियों की हानि का अनुभव किया, लेकिन कुछ मामलों में उन्हें अपेक्षा से अधिक प्राप्त हुआ। सबसे महंगे सीटी प्रदाता (तालिका में सीटी-10) के लिए, केवल तीन अनुयायी एक महीने के बाद खो गए थे।

पेपर में कहा गया है कि अनुयायी/अनुसरण अनुपात जितना अधिक आप सीटी प्रदाता को भुगतान करते हैं, उतना ही अधिक ‘वास्तविक’ हो जाता है, दूसरे सबसे महंगे प्रदाता को एक अनुपात प्रदान करता है जो एक मानक उपयोगकर्ता के बेसलाइन के बहुत करीब है।

एक सीटी इंस्टाग्राम खाते की एक विशेषता यह है कि इसका प्रोफ़ाइल शायद ही कभी ‘निजी’ (एक तथ्य जिसने डेटा को नकली अनुयायियों से प्राप्त करने की अनुमति दी, क्योंकि अधिकांश विश्लेषण प्रोफ़ाइल और संबंधित टिप्पणियों पर केंद्रित थे) होगा, हालांकि इसे इस संबंध में एक विश्वसनीय ‘संकेत’ के रूप में नहीं देखा जाना चाहिए।

‘जो लोग इन प्लेटफ़ॉर्म में शामिल होते हैं वे कम से कम पोस्ट बनाने में रुचि रखते हैं जो उन्हें विश्वसनीय बनाते हैं, कुछ मामलों (सीटी-4, सीटी-10) को छोड़कर। कम गुणवत्ता वाले प्रोफाइल में अनुयायियों और अनुसरण करने वालों में बहुत अधिक असंतुलन है, और पोस्ट की औसत संख्या शून्य के करीब है, सीटी प्रोफाइल से बहुत कम।’

डेटा

शोधकर्ताओं ने ब्राउज़र-ऑटोमेटिंग फ्रेमवर्क सेलेनियम के कार्यान्वयन के माध्यम से डेटा एकत्र किया। परिणामी डेटासेट में 1293 सीटी और 1307 गैर-सीटी उपयोगकर्ताओं की प्रोफ़ाइल जानकारी शामिल है।

यह स्वीकार्य रूप से कम नमूना मात्रा ने इसे एक तर्कसंगत अवधि के दौरान सेलेनियम को मानव गति पर सेट करना संभव बना दिया। इसके अलावा, लेखकों का उल्लेख है कि अर्ध-पर्यवेक्षित शिक्षण तकनीकों की व्याख्यात्मक शक्ति छोटे डेटासेट को बहुत अच्छी तरह से समायोजित करती है। पूरी तरह से पर्यवेक्षित मॉडल के साथ प्रयोग करने के बाद, शोधकर्ताओं का निष्कर्ष है:

‘[परिणाम] अर्ध-पर्यवेक्षित मोड में पूरी तरह से पर्यवेक्षित तरीके से महत्वपूर्ण रूप से भिन्न नहीं हैं। यह सुझाव देता है कि सीटी प्रोफाइल बहुत समान [विशेषताओं] साझा करते हैं, और एल्गोरिदम [एक छोटी मात्रा में] लेबल वाले डेटा के माध्यम से अभिसरण कर सकता है।’

लेखकों ने ‘समर्पित’ उपयोगकर्ताओं की प्रोफ़ाइल पृष्ठों के स्रोत कोड से सभी उपलब्ध डेटा एकत्र किया, जिसमें आमतौर पर प्रस्तुत किए जाने पर धुंधले हुए विवरण शामिल हैं, जैसे कि #वीडियो तत्व।

उन्होंने तब डेटा विशेषताओं को शून्य या निम्न विचरण वाले लोगों को हटाकर प्री-प्रोसेस किया, और अंत में किसी भी श्रेणीबद्ध या गैर-संख्यात्मक डेटा को सख्ती से संख्यात्मक या बूलियन विशेषताओं में परिवर्तित कर दिया।

अंतिम डेटासेट की विशेषताएं.

विधि और अन्वेषण

सेलेनियम के अलावा, प्रयोगों में उपयोग की जाने वाली प्रौद्योगिकियों में शामिल हैं: एक स्पेसी का एक संस्करण जो एक ट्रांसफ़ॉर्मर-आधारित पाइपलाइन के साथ लागू किया गया है; एक स्किट-लर्न स्व-प्रशिक्षण वर्गीकरणकर्ता; और इंस्टालोडर फ्रेमवर्क।

इस नए पेपर में कोई परंपरागत ‘परिणाम’ अनुभाग नहीं है, क्योंकि यह एक उद्देश्य (यानी, स्वचालित रूप से भ्रष्ट इंस्टाग्राम खातों का अनुमान) से संबंधित है जो अब तक के केंद्रीय लोकус ऑफ़ इंटरेस्ट (यानी, इंस्टाग्राम पर स्वचालित बॉट गतिविधि का स्वचालित अनुमान) से विचलित होता है, जिसका अर्थ है कि इसकी तुलना करने के लिए कोई पहले से तुलनीय कार्य नहीं है।

शोधकर्ताओं ने उपलब्ध खरीदे गए उपयोगकर्ताओं पर विभिन्न प्रकार के तरीकों को अपनाया, (जिन्हें वे ‘नकली’ के बजाय ‘गैर-सीटी’ के रूप में वर्णित करने में सहज महसूस करते हैं, क्योंकि वास्तविक खाते गैर-जैविक, भुगतान की जाने वाली भागीदारी गतिविधियों में संलग्न हैं), विभिन्न प्रकार के एनएलपी से संबंधित प्रौद्योगिकियों के माध्यम से।

अध्ययन किए गए पहलुओं में भाषा विश्लेषण (जो सीटी दुनिया में लगभग हमेशा अंग्रेजी में डिफ़ॉल्ट होता है, हालांकि सीटी प्लेटफ़ॉर्म भी जियो-स्थित गैर-अंग्रेजी अनुयायियों की पेशकश करते हैं); टिप्पणी गणना (जहां नकली उपयोगकर्ता वास्तविक उपयोगकर्ताओं की आवृत्ति के बहुत करीब रहते हैं, पता लगाने के डर से); और सामान्य शब्द विश्लेषण:

नकली और वास्तविक उपयोगकर्ताओं से शब्द बादल.

पेपर में कहा गया है कि नकली खातों में ‘दोक्टर’ शब्द की प्रचुरता एक विशिष्ट आंतरिक अभियान से संबंधित प्रतीत होती है:

‘“दोक्टर” [1069 अलग-अलग टिप्पणियों में दिखाई दिया। इन टिप्पणियों को बमबारी करने वाले खातों की आगे जांच करने से हमें एक छोटा सा हिस्सा मिला जो एक बोटनेट का लगता है जिसका उद्देश्य “इंस्टाग्राम डॉक्टर” खातों को बमबारी करना है। सभी डॉक्टरों के प्रोफ़ाइल में एक व्हाट्सएप व्यवसाय लिंक है जो एक संदेश के साथ चैट शुरू करता है जिसे पूरा करने के लिए।’

जैसा कि शोधकर्ता निर्धारित कर सकते हैं, यह अजीब कलाकृति एक बड़े बोटनेट का एक अवशेष हो सकता है जिस पर उन्होंने वास्तविक इंस्टाग्राम उपयोगकर्ताओं से गतिविधियों की तलाश करते समय ठोकर खाई थी।

कुल मिलाकर, शोधकर्ताओं ने 248,388 अनोखे इंस्टाग्राम उपयोगकर्ताओं की पोस्ट में 603,007 टिप्पणियां एकत्र कीं, जिनमें से लेखकों का अनुमान है कि 55,719 क्राउडटर्फिंग खाते थे।

पेपर में एकत्र किए गए डेटा में महिला विषयों की प्रमुखता का उल्लेख किया गया है। जीपीयू-पीडीएमएम (एक तकनीक जो ट्विटर पर अनिवार्य रूप से छोटे पोस्ट के लिए विकसित की गई थी) का उपयोग करके 121,822 टिप्पणियों के उपलब्ध कॉर्पस से 12,830 उपयुक्त टिप्पणियां निकालने के बाद, एल्गोरिदम ने पाया कि 12 पुरुषों और 8 महिलाओं की सामग्री पर विचार करते हुए, अधिकांश टिप्पणियां महिला से संबंधित विषयों से संबंधित हैं।

एक प्रयोग में नकली टिप्पणियों से निकाले गए शीर्ष 10 विषय.

शोधकर्ताओं का निष्कर्ष है:

‘[जबकि] इंस्टाग्राम और अनुसंधान समुदाय ने बॉट और स्वचालित खातों का पता लगाने पर बहुत ध्यान केंद्रित किया है, हम मानते हैं कि सीटी गतिविधियों पर अधिक अध्ययन किए जाने चाहिए, जो प्रभावित करने वाले विपणन, इंस्टाग्राम प्लेटफ़ॉर्म और इसके अधिकांश उपयोगकर्ताओं को नकारात्मक रूप से प्रभावित करते हैं।’

* शोधकर्ताओं के उद्धृत ट्रस्टपायलट यूआरएल को छोड़ दिया गया है。

पहली बार 28 जून 2022 को प्रकाशित किया गया था।

Related Topics:natural language processing nlp research

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai

Unite.AI

इंस्टाग्राम क्राउडटर्फर्स की पहचान मशीन लर्निंग के साथ

इंस्टाग्राम टीओएस का उल्लंघन

मानव बिक्री के लिए

डेटा

विधि और अन्वेषण

You may like