साइबर सुरक्षा

एक मशीन लर्निंग विधि जो स्थानीय ब्राउज़र व्यवहार के आधार पर विज्ञापनों को ब्लॉक करती है

Published July 26, 2021

Updated April 28, 2026

Martin Anderson

स्विट्जरलैंड और अमेरिका के शोधकर्ताओं ने वेबसाइट विज्ञापन सामग्री का पता लगाने के लिए एक नए मशीन लर्निंग दृष्टिकोण का आविष्कार किया है, जो ब्राउज़र के साथ इसकी बातचीत के तरीके पर आधारित है, न कि इसकी सामग्री या नेटवर्क व्यवहार का विश्लेषण करके – दो दृष्टिकोण जो लंबे समय में सीएनएएमे क्लोकिंग (नीचे देखें) के सामने अप्रभावी साबित हुए हैं।

इसे वेबग्राफ नाम दिया गया है, यह फ्रेमवर्क विज्ञापनों का पता लगाने के लिए एक ग्राफ-आधारित एआई विज्ञापन-ब्लॉकिंग दृष्टिकोण का उपयोग करता है, जिसमें नेटवर्क विज्ञापन – टेलीमेट्री प्रयासों और स्थानीय ब्राउज़र स्टोरेज सहित – ऐसी आवश्यक गतिविधियों पर ध्यान केंद्रित किया जाता है कि एकमात्र प्रभावी बचाव तकनीक यह होगी कि ये गतिविधियाँ नहीं की जाएँ।

हालांकि पिछले दृष्टिकोणों ने वेबग्राफ की तुलना में थोड़ा उच्च पता लगाने की दर हासिल की है, वे सभी बचाव तकनीकों के लिए अतिसंवेदनशील हैं, जबकि वेबग्राफ विरोधी प्रतिक्रियाओं के सामने 100% अखंडता तक पहुँच सकता है, जिसमें अधिक परिष्कृत अनुमानित प्रतिक्रियाएँ भी शामिल हैं जो इस नए विज्ञापन-ब्लॉकिंग विधि के सामने उत्पन्न हो सकती हैं।

इस पत्र का नेतृत्व स्विस फेडरल इंस्टीट्यूट ऑफ टेक्नोलॉजी के दो शोधकर्ताओं द्वारा किया जाता है, जो कैलिफोर्निया विश्वविद्यालय, डेविस और आयोवा विश्वविद्यालय के शोधकर्ताओं के साथ मिलकर काम करते हैं।

एडग्राफ से परे

यह काम 2020 में ब्रेव ब्राउज़र के साथ एक शोध पहल से विकसित हुआ है, जिसे एडग्राफ कहा जाता है, जिसमें नए पत्र के दो शोधकर्ता शामिल थे।

एडग्राफ बनाम वेबग्राफ की तुलना, जिसमें पिछले दृष्टिकोण पर वास्तुकला नवाचारों को दर्शाने वाली बिंदीदार रेखाएँ हैं। स्रोत: https://arxiv.org/pdf/2107.11309.pdf

एडग्राफ (विज्ञापन) सामग्री की विशेषताओं पर निर्भर करता है, जो यूआरएल के विश्लेषण से प्राप्त होती हैं, व्यावसायिक सामग्री का पता लगाने के लिए एक प्रमुख के रूप में। हालांकि, ये विशेषताएँ उन विरोधियों के लिए एक संभावित बिंदु हैं जो विज्ञापन-पता लगाने वाली प्रणालियों की उपस्थिति का पता लगाने की कोशिश कर रहे हैं, और उन्हें रोकने के तरीके बना रहे हैं। सामग्री गुणों पर यह निर्भरता एडग्राफ को मूल रूप से मैन्युअल रूप से क्यूरेटेड फिल्टर सूची-आधारित दृष्टिकोणों का एक यांत्रिक संस्करण बनाती है, जो उनकी कमजोरियों को साझा करता है।

सीएनएएमे क्लोकिंग

एक वेबसाइट के अपने डोमेन से उत्पन्न सामग्री एक ‘विश्वसनीय’ श्रेणी में आती है, जितना कि डोमेन स्वयं विश्वसनीय है। एक उच्च प्राधिकरण वेबसाइट के लिए, अपने आप में होस्ट की गई विज्ञापन सामग्री वाले विज्ञापन अभियान चलाने में एक मूल्य का प्रीमियम है, क्योंकि ऐसे विज्ञापन फिल्टर-आधारित विज्ञापन-ब्लॉकिंग सूचियों के लिए प्रतिरोधी हैं, और यहां तक कि 2020 के एडग्राफ दृष्टिकोण के लिए भी。

हालांकि, कस्टम अभियानों को नेगोशिएट करना मुश्किल है, लागू करने में महंगा है, और पिछले 25 वर्षों में विकसित नेटवर्क विज्ञापन मॉडल के मूल सिद्धांतों के विपरीत है, जहां एक तीसरे पक्ष का प्लेटफ़ॉर्म होस्ट साइट में सीधे कोड डालता है, आमतौर पर कीवर्ड की वांछनीयता और विभिन्न अन्य कारकों के आधार पर माइक्रोसेकंड में विज्ञापन स्लॉट की नीलामी करता है।

चूंकि लगभग सभी विज्ञापन-ब्लॉकिंग सिस्टम वेब पेजों में तीसरे पक्ष की सामग्री (अर्थात् ‘विदेशी’ डोमेन पर होस्ट किए गए तत्वों) पर निर्भर करते हैं, विज्ञापनदाताओं ने पिछले पांच वर्षों में सीएनएएमे क्लोकिंग तकनीकों के साथ वापस लड़ाई लड़ी है। सीएनएएमे क्लोकिंग ट्रैकर्स को यह विश्वास दिलाती है कि होस्ट साइट (जैसे कि जानकारी।example.com के बजाय example.com) का एक उपडोमेन वास्तव में साइट का एक वास्तविक पूरक है, जब वास्तव में यह एक प्रॉक्सी विज्ञापन-सेवा तंत्र है जो तीसरे पक्ष के विज्ञापन प्रदाताओं के साथ व्यवस्थित किया गया है।

मार्च 2021 में, एक अध्ययन प्रकट हुआ कि सीएनएएमे क्लोकिंग की घटनाएं 2018 और 2020 के बीच 22% बढ़ीं, और अक्टूबर 2020 तक ट्रैंको की शीर्ष 10,000 वेबसाइटों में से लगभग 10% ने कम से कम एक सीएनएएमे आधारित ट्रैकर का उपयोग किया।

यूआरएल में विश्वास को नकारना

सीएनएएमे धोखाधड़ी तकनीकों में विज्ञापन-सेवा प्रक्रिया में शामिल यूआरएल के हेरफेर शामिल हैं। कोई भी विज्ञापन-ब्लॉकिंग सिस्टम जो यूआरएल श्रृंखला पर विश्वास करता है, उसे हेरफेर और बचाव के लिए प्रतिबंधित किया जा सकता है। इसलिए, वेबग्राफ एक प्रक्रिया में आपूर्ति किए गए यूआरएल को यादृच्छिक रूप से बदलता है (जिसमें प्रश्न स्ट्रिंग, पैरामीटर की संख्या और पैरामीटर नाम शामिल हैं), विशिष्ट प्रतिबंधित या स्वीकृत यूआरएल के बजाय उपयोग के पैटर्न की तलाश करता है।

सिस्टम को विज्ञापन-सेवा वास्तुकला में दो सामान्य कॉन्फ़िगरेशन पर विचार करना होगा: एक, जहां होस्ट सीधे विज्ञापनदाता के साथ मिलकर काम करता है; और दूसरा (अधिक सामान्य) दृश्य जहां विज्ञापनदाता सीमित सहयोग प्रदान करता है क्योंकि अपने ग्राहकों द्वारा हेरफेर से खुद को बचाने की आवश्यकता है।

सूची-आधारित दृष्टिकोणों में, जिसमें एडग्राफ भी शामिल है, विज्ञापन-सेवा प्रणाली द्वारा यूआरएल का सफल हेरफेर लगभग पूरी जीत है, विज्ञापन को ‘स्थानीय’ प्रोवेनेंस असाइन करता है, और इसलिए व्यवस्थित रूप से विज्ञापन सामग्री को ब्लॉक करने के लगभग सभी प्रयासों से बचता है।

क्या बचा है? वेबग्राफ के बजाय विज्ञापन प्रणालियों को विभिन्न अर्ध-गुप्त तरीकों से जानकारी साझा करने की आवश्यकता पर ध्यान केंद्रित करता है, जैसे कि वेब ट्रैकर, आइफ्रेम और वेब ‘श्रोताओं’ के बीच संचार, जो लगातार होस्ट पेज की लाइव स्थिति के लिए गतिविधि की तलाश करते हैं जो वेब-मेट्रिक्स के संदर्भ में विज्ञापन के लिए अर्थपूर्ण है। ऐसी गतिविधि में कुकीज़ या एचटीएमएल 5-आधारित स्थानीय स्टोरेज में वेरिएबल्स को स्टोर करना शामिल है।

वेबग्राफ मोज़िला के वेब प्राइवेसी मेज़रमेंट (ओपनडब्ल्यूपीएम फ्रेमवर्क) का उपयोग करता है ताकि फ़ायरफ़ॉक्स में ऐसी गतिविधि को ट्रैक किया जा सके। यह जावास्क्रिप्ट परत पर सभी गतिविधि को कैप्चर करता है, और नेटवर्क परत पर सभी आउटगोइंग नेटवर्क अनुरोधों और उनके उत्तरों को कैप्चर करता है।

इस अतिरिक्त जांच से ग्राफ नेटवर्क में नए ‘जानकारी प्रवाह’ किनारे पेश किए जाते हैं जो एडग्राफ द्वारा पहले प्रस्तावित किए गए थे, जो वेबग्राफ को मूल और गंतव्य यूआरएल की परवाह किए बिना स्थानीय गतिविधि के आधार पर जानकारी साझा करने के पैटर्न को स्पष्ट रूप से रिकॉर्ड और माप करने की अनुमति देता है, या विज्ञापन-सेवा प्रणालियों में टेलीमेट्री या अन्य प्रकार के अंतर-विज्ञापन संचार के लिए।

परिणाम

शोधकर्ताओं ने ओपनडब्ल्यूपीएम का एक विस्तारित संस्करण का उपयोग करके 10,000 वेबसाइटों को व्यवस्थित रूप से क्रॉल किया, जो एलेक्सा की शीर्ष 100,000 साइटों से ली गई थीं, और 1k-100k रैंक वाली 9,000 साइटों का एक यादृच्छिक नमूना, उनके ग्राफ प्रतिनिधित्व को संग्रहीत करते हुए, इससे पहले कि परिणामों को एडग्राफ के मूल डिज़ाइन पर आधारित एक निर्णय पेड़ वर्गीकरणकर्ता को पारित किया जाता है, और लोकप्रिय विज्ञापन-फिल्टर सूचियों का उपयोग मैदान सच्चाई के रूप में किया जाता है। इस तरह, कोर मॉडल के प्रशिक्षण के लिए एक डेटासेट का निर्माण किया गया था।

सिस्टम ने एडग्राफ के समान परिणाम हासिल किए, 92.33% सटीकता के साथ। हालांकि, नए सिस्टम की विरोधी प्रतिरोधकता एडग्राफ के लिए लगभग पूरी विफलता दर से बढ़कर वेबग्राफ के तहत 8% तक कम हो गई।

भविष्य के दिशानिर्देश

पत्र में दावा किया गया है कि विज्ञापन नेटवर्क को वेबग्राफ दृष्टिकोण के सामने पता लगाने से बचने के लिए अपनी प्रणालियों को महत्वपूर्ण रूप से पुनः आर्किटेक्चर करने की आवश्यकता होगी, और सुझाव दिया गया है कि ऐसे परिवर्तन होस्ट साइटों और उनके विज्ञापनों पर दिखाई देने वाले तीसरे पक्ष के विज्ञापनदाताओं के बीच वर्तमान सावधानीपूर्वक विश्वास संबंध की समीक्षा की आवश्यकता होगी।

पत्र में यह भी उल्लेख किया गया है कि वेबग्राफ राज्यहीन ट्रैकिंग तकनीकों जैसे ब्राउज़र फिंगरप्रिंटिंग (कैनवास तत्व के माध्यम से) के लिए खाता नहीं है, जो ऐसे एपीआई का उपयोग करते हैं जिन्हें सिस्टम वर्तमान में निगरानी नहीं करता है। शोधकर्ताओं का सुझाव है कि वेबग्राफ को भविष्य में उन प्रकार के इंटरैक्शन और स्थानीय स्टोरेज संकेतकों के लिए भी विस्तारित किया जा सकता है।