рд╕рд╛рдЗрдмрд░ рд╕реБрд░рдХреНрд╖рд╛

рдПрдХ рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рд╡рд┐рдзрд┐ рдЬреЛ рд╕реНрдерд╛рдиреАрдп рдмреНрд░рд╛рдЙрдЬрд╝рд░ рд╡реНрдпрд╡рд╣рд╛рд░ рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рд╡рд┐рдЬреНрдЮрд╛рдкрдиреЛрдВ рдХреЛ рдмреНрд▓реЙрдХ рдХрд░рддреА рд╣реИ

mm

स्विट्जरलैंड और अमेरिका के शोधकर्ताओं ने वेबसाइट विज्ञापन सामग्री का पता लगाने के लिए एक नए मशीन लर्निंग दृष्टिकोण का आविष्कार किया है, जो ब्राउज़र के साथ इसकी बातचीत के तरीके पर आधारित है, न कि इसकी सामग्री या नेटवर्क व्यवहार का विश्लेषण करके – दो दृष्टिकोण जो लंबे समय में सीएनएएमे क्लोकिंग (नीचे देखें) के सामने अप्रभावी साबित हुए हैं।

इसे वेबग्राफ नाम दिया गया है, यह फ्रेमवर्क विज्ञापनों का पता लगाने के लिए एक ग्राफ-आधारित एआई विज्ञापन-ब्लॉकिंग दृष्टिकोण का उपयोग करता है, जिसमें नेटवर्क विज्ञापन – टेलीमेट्री प्रयासों और स्थानीय ब्राउज़र स्टोरेज सहित – ऐसी आवश्यक गतिविधियों पर ध्यान केंद्रित किया जाता है कि एकमात्र प्रभावी बचाव तकनीक यह होगी कि ये गतिविधियाँ नहीं की जाएँ।

हालांकि पिछले दृष्टिकोणों ने वेबग्राफ की तुलना में थोड़ा उच्च पता लगाने की दर हासिल की है, वे सभी बचाव तकनीकों के लिए अतिसंवेदनशील हैं, जबकि वेबग्राफ विरोधी प्रतिक्रियाओं के सामने 100% अखंडता तक पहुँच सकता है, जिसमें अधिक परिष्कृत अनुमानित प्रतिक्रियाएँ भी शामिल हैं जो इस नए विज्ञापन-ब्लॉकिंग विधि के सामने उत्पन्न हो सकती हैं।

इस पत्र का नेतृत्व स्विस फेडरल इंस्टीट्यूट ऑफ टेक्नोलॉजी के दो शोधकर्ताओं द्वारा किया जाता है, जो कैलिफोर्निया विश्वविद्यालय, डेविस और आयोवा विश्वविद्यालय के शोधकर्ताओं के साथ मिलकर काम करते हैं।

एडग्राफ से परे

यह काम 2020 में ब्रेव ब्राउज़र के साथ एक शोध पहल से विकसित हुआ है, जिसे एडग्राफ कहा जाता है, जिसमें नए पत्र के दो शोधकर्ता शामिल थे।

рдПрдбрдЧреНрд░рд╛рдл рдмрдирд╛рдо рд╡реЗрдмрдЧреНрд░рд╛рдл рдХреА рддреБрд▓рдирд╛, рдЬрд┐рд╕рдореЗрдВ рдкрд┐рдЫрд▓реЗ рджреГрд╖реНрдЯрд┐рдХреЛрдг рдкрд░ рд╡рд╛рд╕реНрддреБрдХрд▓рд╛ рдирд╡рд╛рдЪрд╛рд░реЛрдВ рдХреЛ рджрд░реНрд╢рд╛рдиреЗ рд╡рд╛рд▓реА рдмрд┐рдВрджреАрджрд╛рд░ рд░реЗрдЦрд╛рдПрдБ рд╣реИрдВред рд╕реНрд░реЛрдд: https://arxiv.org/pdf/2107.11309.pdf

एडग्राफ बनाम वेबग्राफ की तुलना, जिसमें पिछले दृष्टिकोण पर वास्तुकला नवाचारों को दर्शाने वाली बिंदीदार रेखाएँ हैं। स्रोत: https://arxiv.org/pdf/2107.11309.pdf

एडग्राफ (विज्ञापन) सामग्री की विशेषताओं पर निर्भर करता है, जो यूआरएल के विश्लेषण से प्राप्त होती हैं, व्यावसायिक सामग्री का पता लगाने के लिए एक प्रमुख के रूप में। हालांकि, ये विशेषताएँ उन विरोधियों के लिए एक संभावित बिंदु हैं जो विज्ञापन-पता लगाने वाली प्रणालियों की उपस्थिति का पता लगाने की कोशिश कर रहे हैं, और उन्हें रोकने के तरीके बना रहे हैं। सामग्री गुणों पर यह निर्भरता एडग्राफ को मूल रूप से मैन्युअल रूप से क्यूरेटेड फिल्टर सूची-आधारित दृष्टिकोणों का एक यांत्रिक संस्करण बनाती है, जो उनकी कमजोरियों को साझा करता है।

सीएनएएमे क्लोकिंग

एक वेबसाइट के अपने डोमेन से उत्पन्न सामग्री एक ‘विश्वसनीय’ श्रेणी में आती है, जितना कि डोमेन स्वयं विश्वसनीय है। एक उच्च प्राधिकरण वेबसाइट के लिए, अपने आप में होस्ट की गई विज्ञापन सामग्री वाले विज्ञापन अभियान चलाने में एक मूल्य का प्रीमियम है, क्योंकि ऐसे विज्ञापन फिल्टर-आधारित विज्ञापन-ब्लॉकिंग सूचियों के लिए प्रतिरोधी हैं, और यहां तक कि 2020 के एडग्राफ दृष्टिकोण के लिए भी。

हालांकि, कस्टम अभियानों को नेगोशिएट करना मुश्किल है, लागू करने में महंगा है, और पिछले 25 वर्षों में विकसित नेटवर्क विज्ञापन मॉडल के मूल सिद्धांतों के विपरीत है, जहां एक तीसरे पक्ष का प्लेटफ़ॉर्म होस्ट साइट में सीधे कोड डालता है, आमतौर पर कीवर्ड की वांछनीयता और विभिन्न अन्य कारकों के आधार पर माइक्रोसेकंड में विज्ञापन स्लॉट की नीलामी करता है।

चूंकि लगभग सभी विज्ञापन-ब्लॉकिंग सिस्टम वेब पेजों में तीसरे पक्ष की सामग्री (अर्थात् ‘विदेशी’ डोमेन पर होस्ट किए गए तत्वों) पर निर्भर करते हैं, विज्ञापनदाताओं ने पिछले पांच वर्षों में सीएनएएमे क्लोकिंग तकनीकों के साथ वापस लड़ाई लड़ी है। सीएनएएमे क्लोकिंग ट्रैकर्स को यह विश्वास दिलाती है कि होस्ट साइट (जैसे कि जानकारी।example.com के बजाय example.com) का एक उपडोमेन वास्तव में साइट का एक वास्तविक पूरक है, जब वास्तव में यह एक प्रॉक्सी विज्ञापन-सेवा तंत्र है जो तीसरे पक्ष के विज्ञापन प्रदाताओं के साथ व्यवस्थित किया गया है।

मार्च 2021 में, एक अध्ययन प्रकट हुआ कि सीएनएएमे क्लोकिंग की घटनाएं 2018 और 2020 के बीच 22% बढ़ीं, और अक्टूबर 2020 तक ट्रैंको की शीर्ष 10,000 वेबसाइटों में से लगभग 10% ने कम से कम एक सीएनएएमे आधारित ट्रैकर का उपयोग किया।

यूआरएल में विश्वास को नकारना

सीएनएएमे धोखाधड़ी तकनीकों में विज्ञापन-सेवा प्रक्रिया में शामिल यूआरएल के हेरफेर शामिल हैं। कोई भी विज्ञापन-ब्लॉकिंग सिस्टम जो यूआरएल श्रृंखला पर विश्वास करता है, उसे हेरफेर और बचाव के लिए प्रतिबंधित किया जा सकता है। इसलिए, वेबग्राफ एक प्रक्रिया में आपूर्ति किए गए यूआरएल को यादृच्छिक रूप से बदलता है (जिसमें प्रश्न स्ट्रिंग, पैरामीटर की संख्या और पैरामीटर नाम शामिल हैं), विशिष्ट प्रतिबंधित या स्वीकृत यूआरएल के बजाय उपयोग के पैटर्न की तलाश करता है।

सिस्टम को विज्ञापन-सेवा वास्तुकला में दो सामान्य कॉन्फ़िगरेशन पर विचार करना होगा: एक, जहां होस्ट सीधे विज्ञापनदाता के साथ मिलकर काम करता है; और दूसरा (अधिक सामान्य) दृश्य जहां विज्ञापनदाता सीमित सहयोग प्रदान करता है क्योंकि अपने ग्राहकों द्वारा हेरफेर से खुद को बचाने की आवश्यकता है।

सूची-आधारित दृष्टिकोणों में, जिसमें एडग्राफ भी शामिल है, विज्ञापन-सेवा प्रणाली द्वारा यूआरएल का सफल हेरफेर लगभग पूरी जीत है, विज्ञापन को ‘स्थानीय’ प्रोवेनेंस असाइन करता है, और इसलिए व्यवस्थित रूप से विज्ञापन सामग्री को ब्लॉक करने के लगभग सभी प्रयासों से बचता है।

क्या बचा है? वेबग्राफ के बजाय विज्ञापन प्रणालियों को विभिन्न अर्ध-गुप्त तरीकों से जानकारी साझा करने की आवश्यकता पर ध्यान केंद्रित करता है, जैसे कि वेब ट्रैकर, आइफ्रेम और वेब ‘श्रोताओं’ के बीच संचार, जो लगातार होस्ट पेज की लाइव स्थिति के लिए गतिविधि की तलाश करते हैं जो वेब-मेट्रिक्स के संदर्भ में विज्ञापन के लिए अर्थपूर्ण है। ऐसी गतिविधि में कुकीज़ या एचटीएमएल 5-आधारित स्थानीय स्टोरेज में वेरिएबल्स को स्टोर करना शामिल है।

वेबग्राफ मोज़िला के वेब प्राइवेसी मेज़रमेंट (ओपनडब्ल्यूपीएम फ्रेमवर्क) का उपयोग करता है ताकि फ़ायरफ़ॉक्स में ऐसी गतिविधि को ट्रैक किया जा सके। यह जावास्क्रिप्ट परत पर सभी गतिविधि को कैप्चर करता है, और नेटवर्क परत पर सभी आउटगोइंग नेटवर्क अनुरोधों और उनके उत्तरों को कैप्चर करता है।

इस अतिरिक्त जांच से ग्राफ नेटवर्क में नए ‘जानकारी प्रवाह’ किनारे पेश किए जाते हैं जो एडग्राफ द्वारा पहले प्रस्तावित किए गए थे, जो वेबग्राफ को मूल और गंतव्य यूआरएल की परवाह किए बिना स्थानीय गतिविधि के आधार पर जानकारी साझा करने के पैटर्न को स्पष्ट रूप से रिकॉर्ड और माप करने की अनुमति देता है, या विज्ञापन-सेवा प्रणालियों में टेलीमेट्री या अन्य प्रकार के अंतर-विज्ञापन संचार के लिए।

परिणाम

शोधकर्ताओं ने ओपनडब्ल्यूपीएम का एक विस्तारित संस्करण का उपयोग करके 10,000 वेबसाइटों को व्यवस्थित रूप से क्रॉल किया, जो एलेक्सा की शीर्ष 100,000 साइटों से ली गई थीं, और 1k-100k रैंक वाली 9,000 साइटों का एक यादृच्छिक नमूना, उनके ग्राफ प्रतिनिधित्व को संग्रहीत करते हुए, इससे पहले कि परिणामों को एडग्राफ के मूल डिज़ाइन पर आधारित एक निर्णय पेड़ वर्गीकरणकर्ता को पारित किया जाता है, और लोकप्रिय विज्ञापन-फिल्टर सूचियों का उपयोग मैदान सच्चाई के रूप में किया जाता है। इस तरह, कोर मॉडल के प्रशिक्षण के लिए एक डेटासेट का निर्माण किया गया था।

सिस्टम ने एडग्राफ के समान परिणाम हासिल किए, 92.33% सटीकता के साथ। हालांकि, नए सिस्टम की विरोधी प्रतिरोधकता एडग्राफ के लिए लगभग पूरी विफलता दर से बढ़कर वेबग्राफ के तहत 8% तक कम हो गई।

भविष्य के दिशानिर्देश

पत्र में दावा किया गया है कि विज्ञापन नेटवर्क को वेबग्राफ दृष्टिकोण के सामने पता लगाने से बचने के लिए अपनी प्रणालियों को महत्वपूर्ण रूप से पुनः आर्किटेक्चर करने की आवश्यकता होगी, और सुझाव दिया गया है कि ऐसे परिवर्तन होस्ट साइटों और उनके विज्ञापनों पर दिखाई देने वाले तीसरे पक्ष के विज्ञापनदाताओं के बीच वर्तमान सावधानीपूर्वक विश्वास संबंध की समीक्षा की आवश्यकता होगी।

पत्र में यह भी उल्लेख किया गया है कि वेबग्राफ राज्यहीन ट्रैकिंग तकनीकों जैसे ब्राउज़र फिंगरप्रिंटिंग (कैनवास तत्व के माध्यम से) के लिए खाता नहीं है, जो ऐसे एपीआई का उपयोग करते हैं जिन्हें सिस्टम वर्तमान में निगरानी नहीं करता है। शोधकर्ताओं का सुझाव है कि वेबग्राफ को भविष्य में उन प्रकार के इंटरैक्शन और स्थानीय स्टोरेज संकेतकों के लिए भी विस्तारित किया जा सकता है।

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai