الأمن السيبراني
مكافحة Adblock مع التعلم الآلي

طورت مبادرة بحثية جديدة من الولايات المتحدة وباكستان طريقة تعتمد على التعلم الآلي لتحديد المواقع الإلكترونية المقاومة لحظر الإعلانات وغيرها من تقنيات الحفاظ على الخصوصية، فضلاً عن تفكيك التقنيات التي تستخدمها هذه المواقع "لدمج" أصول الإعلانات والمحتوى الحقيقي، بحيث لا يمكن رؤية المحتوى إذا تم حظر الإعلانات.
يمكن لتقنيات منع الإعلانات الجديدة التي تم تطويرها من النتائج أن تضع حداً للحوادث التي يكون فيها المحتوى المركزي لمقال ما غير قابل للعرض عند حظر الإعلانات ، مما يوفر طريقة آلية لفصل موارد الإعلانات والنصوص ، بدلاً من النهج اليدوي المستخدم حاليًا بواسطة أطر عمل حظر الإعلانات الشائعة .
أجرى المؤلفون دراسة واسعة النطاق حول "الموارد المختلطة" على 100,000 موقع إلكتروني، ووجدوا أن 17% من النطاقات، و48% من أسماء المضيفين، و6% من النصوص البرمجية، و9% من طرق تقديم المحتوى تدمج عمدًا وظائف التتبع (أي الإعلانات) مع العمليات التي تقدم محتوى حقيقيًا. في مثل هذه الحالات، يختفي محتوى المقالات لدى المستخدمين الذين يستخدمون برامج حظر الإعلانات أو برامج مكافحة التتبع، مما يُجبر المستخدم على إيقاف هذه الإجراءات لعرض المحتوى.
في معظم الحالات ، لا يعني هذا أن الإعلانات ستكون مرئية مرة أخرى فحسب ، بل يعني أيضًا أنه سيتم إجبار المستخدمين على العودة إلى أنظمة التتبع عبر النطاقات التي تحتوي على نشطاء الخصوصية الملتهبة في السنوات الأخيرة.
يقدم البحث الجديد نظامًا قادرًا على فصل مكونات موارد الويب "المختلطة" بدقة تصل إلى 98%، مما يمنح حلول حظر الإعلانات ومكافحة التتبع فرصة لفك تشابك التدفقات في الإصدارات اللاحقة من برامجها، وتمكين الوصول إلى المحتوى مرة أخرى على الصفحات المحظورة بالإعلانات.
استخدم ورقة جديدة بعنوان TrackerSift: فك التعقب المختلط وموارد الويب الوظيفية، ويأتي من باحثين في Virginia Tech و UC Davis في الولايات المتحدة ، و FAST NUCES وجامعة لاهور للعلوم الإدارية (LUMS) في باكستان.
حروب Adblock
تعتمد أنظمة حظر الإعلانات بشكل عام على الحاجة إلى أن يأتي محتوى الإعلان في صفحة الويب من نطاقات مخصصة محددة - عادةً منصات الإعلانات ذات أسماء النطاقات و/أو عناوين IP التي يمكن تصنيفها على أنها "إعلانات تابعة لجهة خارجية"، مما يسمح بتطوير قوائم الحظر التي لن تعرض المحتوى من تلك الأصول داخل صفحة الويب.
بالإضافة إلى ذلك ، يمكن إضافة أسماء الموارد الخاصة بالإعلانات ، مثل البرامج النصية ، إلى قوائم الحظر بحيث لا يتم تشغيلها حتى في الحالات التي تم فيها حجب أصولها عن عمد. غالبًا ما تكون مخططات التسمية لمثل هذه البرامج النصية التي تم إنشاؤها بشكل منهجي متسقة ، مما يتيح التعرف والقائمة المحظورة.
نظرًا لأن إعلانًا مميزًا في صفحة ويب يتم اختياره بشكل متكرر في المللي ثانية الأخيرة من تحميل الصفحة عبر عمليات المزاد الديناميكي (بناءً على الكلمات الرئيسية الموجودة في الصفحة ومقاييس هدف الحملة والعديد من العوامل الأخرى)، فإنه ليس من العملي تخزين الإعلانات على المجال المضيف، وهو ما من شأنه من الناحية النظرية أن يمنع أدوات حظر الإعلانات من إخفاء المحتوى التجاري.
على نحو متزايد ، تقاتل مواقع الويب ضد حظر الإعلانات إخفاء CNAME - استخدام المجالات الفرعية للمجال "الأصيل" كوكلاء لخوادم الإعلانات (على سبيل المثال، سوف يقدم content.example.com الإعلانات إلى example.com، على الرغم من أن المجال الفرعي ليس له غرض آخر غير تقديم الإعلانات، ولا يتم صيانته بواسطة موقع الويب المضيف، ولكن من قبل المعلنين فيه).
ومع ذلك، يمكن تحديد هذه الطريقة وحظرها من خلال التمييز بين محتوى المجال الفرعي كإعلان، أو استخدام تقنيات تحليل الشبكة لتحديد العلاقة الشاذة وغير المنتظمة بين المجال الفرعي والمجال الأساسي.
المقتفي
يقترح الباحثون في بحثهم منصة TrackerSift، وهي منصة لتحليل موارد الشبكة التي تجلبها مواقع الويب، ثم إعادة تصنيف الموارد المختلطة إلى "محتوى" و"إعلان". على مستوى التحليل العام، تسجل TrackerSift طلبات الشبكة الأساسية للموارد، مثل محتوى الإعلانات الذي يُجلب من شبكة توصيل المحتوى (CDN) أو منصة إعلانية؛ ثم تتعمق في محتوى الموارد المُجلبة، وتُجري تحليلًا على مستوى الكود، وتُميز وظائف أنواع مختلفة من استدعاءات الكود وإجراءاته.

تسلسل تحليل TrackerSift، بدءًا من موارد التتبع (الأحمر) وصولًا إلى الموارد الوظيفية الضرورية (الأخضر). تخضع الموارد المختلطة، التي يُحتمل أن تؤدي إلى تشويش المحتوى (الأصفر)، لتحليل أعمق. المصدر: https://arxiv.org/pdf/2108.13923.pdf
البيانات
للحصول على مجموعة البيانات التي تدعم TrackerSift ، قام المؤلفون بشباك 100,000 موقع تم اختيارها عشوائيًا من 2018 قائمة ترانكو للملايين. عنصر السيلينيوم تم استخدام أتمتة المتصفح مع Google Chrome لأداء المهمة.
استندت شبكة الزحف على الويب إلى مواقع جامعية في أمريكا الشمالية ، وتتألف من 13 عقدة مع 112 نواة ، و 52 تيرابايت من التخزين و 823 غيغابايت من ذاكرة الوصول العشوائي التشغيلية بين النظام بأكمله.
كانت كل عقدة قائمة في حاوية Docker ومخصصة للزحف إلى مجموعة فرعية من 100,000 صفحة ويب محددة ، مع توقفات برمجية للاستدامة ، ومحو كامل لجميع ملفات تعريف الارتباط والمعرفات عند تحميل مجال جديد ، لضمان عدم تأثير الجلسات والحالات السابقة على قراءة المجال التالي.
نصوص مختلطة
تظهر النتائج استخدام مكثف لـ تجميع البرنامج النصيحيث تقوم منصات الإعلانات ومضيفو المحتوى عمدًا بدمج النصوص البرمجية القائمة على المحتوى والإعلانات في "نصوص برمجية فائقة" تعيق عرض المحتوى في حال حظره. على سبيل المثال، يشير المؤلفون إلى أن pressl.co يقدم نصًا برمجيًا ويب مُجمّعًا عبر حزمة الويب منصة JavaScript concatenator ، والتي تحتوي على بكسل تتبع Facebook ، وأيضًا رمز يتيح عرض المحتوى الفعلي.
بالإضافة إلى ذلك ، تشير الورقة البحثية إلى أن عددًا من المجالات على استعداد لتضمين نصوص برمجية مباشرة في كود صفحات الويب ، مما يجعل من الضروري لأطر عمل حظر الإعلانات معالجة الوظائف داخل البرامج النصية ، بدلاً من مجرد منع البرنامج النصي من التحميل بناءً على ثالثه- عنوان URL لمصدر الحزب.
من خلال توطين هذه الطرق ، يكون المسار واضحًا للتقسيم المنهجي لهذه الشفرة إلى فئات محتوى وإعلان ، والاستعادة المحتملة لعرض المحتوى في البيئات المحظورة.
على الرغم من أن حلول حظر الإعلانات الحالية ، مثل NoScript و AdGuard و uBlock Origin و Firefox Smartblock تستخدم نصوصًا برمجية بديلة تفكك هذه البرامج النصية المدمجة في نصوص مكون قابلة للحظر ، إلا أنها تعتمد على إعادة الكتابة اليدوية من النصوص ، مما أدى إلى حرب باردة مستمرة بين الحواجز والتقنيات المتغيرة باستمرار التي تكسرها. على النقيض من ذلك ، يوفر TrackerSift طريقة برمجية محتملة لتحلل المحتوى المختلط.












