زاوية Anderson

التعلم الآلي مقابل أنظمة موافقة الكوكيز

mm
One of the cryptic cubes from the Hellraiser franchise.

تُشكل التعاون البحثي الجديد بين جامعة ويسكونسن وشركة جوجل تحديًا للتعلم الآلي من أجل مواجهة واحدة من أكثر الإزعاجات التي تواجه مستخدمي الويب في العقد الماضي – غموض و سوء استخدام لافتات موافقة الكوكيز المتوافقة مع لوائح حماية البيانات العامة.

تمت تسمية الإطار الجديد باسم CookieEnforcer، ويتضمن استخدام فهم النصوص الدلالية لتحليل意义 وفائدة الكود التحتية للشريط أو نافذة弹出 موافقة الكوكيز، من أجل تقديم حل “نقرة واحدة” للمستخدم لتعطيل جميع الكوكيز “غير الضرورية” – بما في ذلك تلك التي قد يقدمها أصحاب النطاق على أنها “أساسية”، حتى لو لم تكن كذلك.

يُظهر CookieEnforcer رمز موافقة الكوكيز من موقع www.askubuntu.com. مصدر: https://arxiv.org/pdf/2204.04221.pdf

يُظهر CookieEnforcer رمز موافقة الكوكيز من موقع www.askubuntu.com. مصدر: https://arxiv.org/pdf/2204.04221.pdf

تم تنفيذ النظام من خلال ملحق متوافق مع متصفح الويب، والذي يمكنه تطبيق قواعد محددة من قبل المستخدم بنقرة واحدة. عندما تظهر إطار موافقة الكوكيز على الموقع، يمكن للمستخدم تنشيط الملحق، والذي سوف يبحث رمز موافقة الكوكيز عن إجراءات محتملة قبل توليد JavaScript المناسب لتنفيذ الخيارات نيابة عن المستخدم.

يمكن تعيين الملحق لفرض تفضيلات المستخدم تلقائيًا، أو معاملة الحالات بشكل فردي، مما يسمح للمستخدم بتعديل الإعدادات قبل الإرسال النهائي.

يُظهر CookieEnforcer في العمل. إذا كان ذلك مفضلاً، يمكن لمُلحق Chrome تلقائيًا إتمام هذه العملية دون مساهمة المستخدم الإضافية. انظر الفيديو المضمن لاحقًا لمزيد من التفاصيل. مصدر: https://www.youtube.com/watch?v=5NI6Q981quc

يُظهر CookieEnforcer في العمل. إذا كان ذلك مفضلاً، يمكن لمُلحق Chrome تلقائيًا إتمام هذه العملية دون مساهمة المستخدم الإضافية. انظر الفيديو المضمن لاحقًا لمزيد من التفاصيل. مصدر: https://www.youtube.com/watch?v=5NI6Q981quc

تم تحدي تحليل الخيارات المحتملة “غير الموافقة”، والتي عادة ما تكون مخفية في مجموعات إعدادات معقدة ومرهقة (بدلاً من واجهة مستخدم友ية مثل “قبول الكل” النموذجية لإطارات الموافقة)، على أنه مهمة تسلسل إلى تسلسل.

في تقييم الدقة من النهاية إلى النهاية، تمكن CookieEnforcer من توليد جميع الخطوات اللازمة لتفادي إجراءات موافقة الكوكيز الغامضة في 91% من الحالات التي تمت دراستها، على نطاقات لم تتم رؤيتها خلال تدريب نموذج التعلم الآلي للنظام. وأظهرت دراسة المستخدم أيضًا أن النظام يقلل بشكل كبير من جهد المستخدم في التنقل في وحدات الموافقة.

الورقة الورقة التي تقدم الطريقة تحمل عنوان CookieEnforcer: تحليل وتنفيذ تلقائي لاشعارات الكوكيز، وهي من ثلاثة باحثين في جامعة ويسكونسن في ماديسون، وواحد من جوجل إنك.

طرق غامضة لموافقة الكوكيز

منذ صدور لوائح حماية البيانات العامة (GDPR) في عام 2016 و قانون خصوصية المستهلك في كاليفورنيا (CCPA) في عام 2018، طُلب من المواقع التي تريد المشاركة مع المستخدمين من المناطق الخاضعة لهذه التشريعات تقديم آليات تفضيل الكوكيز (عادةً dựa على اكتشاف عنوان IP للمستخدم كبديل لبلده).

然而، منذ أن كان أصحاب النطاقات معتادين على جمع بيانات المستخدمين القيمة والقابلة للتنفيذ من تنفيذ الكوكيز الغامض والغالبًا غير مرئي، فقد أظهروا استحالة في توفير خيارات إلغاء بسيطة للمستخدمين الجدد.

واجهة المستخدم الافتراضية ل_interfaces موافقة الكوكيز (التي تظهر للمرة الأولى عند زيارة المستخدم للموقع، أو إذا قام المستخدم بحذف ملفات تعريف الارتباط لهذا الموقع) سرعان ما استقرت في الأنماط المظلمة المصممة لتعبئة المشاهد مع خيارات دقيقة ومستهلكة للوقت وواسعة النطاق في حالة رغبتهم في ممارسة حقوقهم في الموافقة؛ أو زر بسيط وسهل الوصول إليه يختار المستخدم جميع الكوكيز التي يرغب مالك الموقع في تشغيلها. ووصف هذا ثقافة خيارات واجهة المستخدم المتاهية في دراسة عام 2020 باسم ‘صيد الكنوز’.

تعليق الورقة الجديدة:

‘قد يجد المستخدمون صعوبة في ممارسة سيطرة الكوكيز المطلعة على Sites ذات إشعارات معقدة. هم أكثر احتمالاً للاعتماد على التكوينات الافتراضية أكثر من تحسين إعدادات الكوكيز الخاصة بهم لكل موقع. في العديد من الحالات، تكون الإعدادات الافتراضية غازية للخصوصية وتفavors المزودين الخدمات، مما يؤدي إلى مخاطر الخصوصية.’

تعليق على منشور شائع في منتدى بشأن هذه الممارسات وصفها بـ “الامتثال الخبيث”. إزعاج المستخدمين بشأن إطارات موافقة الكوكيز هو موضوع يتعارض معه الناشرون الرئيسيون، الذين قد يوفرون تغطية إضافية إذا لم يكونوا معرضين لذلك بسبب ممارساتهم الخاصة في هذا الصدد.

مازة خيارات نموذجية مقدمة، في هذه الحالة، من موقع TechCrunch، بشكلironic كpreface لمقال عن موقف الاتحاد الأوروبي المتغير تجاه ما يشكل موافقة الكوكيز. كانت معرّفات URL المرفقة والhooks المصممة لتمكين التتبع تبلغ 262 حرفًا (تم حذفها هنا). زر

مازة خيارات نموذجية مقدمة، في هذه الحالة، من موقع TechCrunch، بشكلironic كpreface لمقال عن موقف الاتحاد الأوروبي المتغير تجاه ما يشكل موافقة الكوكيز. كانت معرّفات URL المرفقة والhooks المصممة لتمكين التتبع تبلغ 262 حرفًا (تم حذفها هنا). زر “رفض الكل” متاح لبعض فئات الكوكيز، ولكنه غير متاح لمجموعة الكوكيز الكاملة؛ في تلك الحالات الاستثنائية، يجب على المستخدم تشغيل كل “مفتاح تبديل”.

وجدت ورقة 2019 من ألمانيا أن غالبية زوار الموقع في النطاقات المدروسة تم “دفعهم” نحو موافقة واسعة، وأن فقط ثلث المواقعexplained أهداف ممارسات جمع البيانات.

برزت العديد من ملحقات وامتدادات متصفح الويب في السنوات الأخيرة لمعالجة هذه المشكلة، مثل مدير الكوكيز السريع ملحق Firefox، ومدى واسع من بدائل Chrome، في حين يسعى الاتحاد الأوروبي لإغلاق ثغرات الامتثال حول هندسة موافقة الكوكيز.

الطريقة والبيانات

كان الباحثون في الورقة الجديدة حازمين على إنشاء إطار إدارة موافقة الكوكيز أكثر متانة من خلال تجنب الاعتماد على الكلمات الرئيسية أو القواعد المصنعة، وهو النهج المركزي لعدد من المشاريع المماثلة التي تمت مساعدتها بواسطة التعلم الآلي المشاريع.

لهذه الغاية، يُعد CookieEnforcer ثلاثة أهداف: ترجمة إشعارات الكوكيز وواجهاتها إلى تنسيق قابل للآلة؛ وتحديد تكوين إعدادات الكوكيز بطريقة تعطل الكوكيز غير الضرورية؛ وتطبيق قيود إضافية تلقائيًا دون مدخلات المستخدم الإضافية، إذا رغب المستخدم في ذلك.

يتكون النظام من مكون خلفي يكتشف ويفحص إشعارات الكوكيز، ومكون أمامي، على شكل ملحق لمتصفح الويب، يولّد وينفذ تعطيل الكوكيز غير الضرورية (أي الكوكيز التي لن تعرقل التنقل في الموقع أو الوصول إليه إذا تم حظرها).

يتضمن الإطار مكونات للكشف والتحليل ونموذج اتخاذ القرار. يأخذ مكون التحليل في الاعتبار التغييرات في الكود التي تم إدخالها بواسطة تفاعل المستخدم، بحيث لا يتم إبطال تفريغ الكود الأولي بواسطة استكشاف المستخدم المحاكى.

فهم اللغة الطبيعية

مع الكشف عن الكود، من المهم أن يفهم CookieEnforcer الحالة الحالية للactions المحتملة التي قد يتخذها، منذ أن يمكن أن يكون لغة خلف أزرار التبديل غامضة من حيث المنفعة للمستخدم النهائي.

لهذه الغاية، قام الباحثون بتدريب نماذج تحويل النص إلى نص (T5) لمكون اتخاذ القرار. تم ضبط نموذج T5-Large، الذي يحتوي على 770 مليون معامل، على قاعدة بيانات مخصصة من مدخلات ومخرجات الكود (أي كود يصف ويمكّن وظيفة خيارات التبديل).

تنسيق عينة (أعلى) وبيانات تدريب (أسفل) لنموذج T5. مثال البيانات من www.askubuntu.com.

تنسيق عينة (أعلى) وبيانات تدريب (أسفل) لنموذج T5. مثال البيانات من www.askubuntu.com.

تم إنشاء القاعدة البيانات عن طريق عينة 300 موقعًا إلكترونيًا بإشعارات الكوكيز من قائمة المواقع الشائعة في ترانكو. قام مكونا الكشف والتحليل باستخراج خيارات موافقة الكوكيز من كود المصدر في وقت التشغيل، وقيمتها الحالات الافتراضية.

然后 قام أحد الباحثين بتحديد يدويا السلسلة المفسرة من النقرات اللازمة لتعطيل الكوكيز غير الضرورية لجميع المواقع المدروسة، مما أدى إلى 300 نطاقًا تمت إضافتها بالكامل.

تنوع في ترتيب الكود عبر الأمثلة من القاعدة البيانات المخصصة.

تنوع في ترتيب الكود عبر الأمثلة من القاعدة البيانات المخصصة.

تم حجز 60 موقعًا ك مجموعة اختبار، وتم تدريب نموذج T5-Large بسرعة تعلم 0.003 وبحجم.batch 16 لمدة 20 epoch، مع أقصى طول تسلسل مدخلات 256 رمزًا، وأقصى طول تسلسل الهدف 64. تم تشكيل الرموز من كلمات فرعية تم إنشاؤها بواسطة مُحلل الجمل من جوجل.

أخيرًا، يتم تخزين المعلومات المُعالجة في قاعدة بيانات محلية ومتاحة للواجهة الأمامية للنظام. تفضل المؤلفون استخدام وظيفة querySelector() على نهج لغة XPath (XPath) الذي اتبعه بعض المشاريع المماثلة السابقة، منذ أن تكون مسارات XPath لاشعارات الكوكيز عرضة للتحديثات DOM (أي قد يتغير الكود بعد التحميل الأولي استجابةً للتفاعلات المستخدم).

الاختبار والأداء

في الممارسة، أثبت CookieEnforcer قدرته على التنقل في بعض الأنماط المظلمة الأكثر غموضًا في القاعدة البيانات، مثل خيار مخفي في إطار موافقة الكوكيز من The New Scientist الذي يتم إخفاؤه بواسطة JavaScript حتى يطلب المستخدم صراحة رؤيته.

يقول المؤلفون:

‘يمكن للمستخدمين MISSING هذا الخيار بسهولة لأنهم يجب أن يوسعوا إطارًا إضافيًا لرؤيته. لا يجد فقط CookieEnforcer هذا الخيار، بل يفهم أيضًا الدلالات ويتخذ قرارًا بالاعتراض. هذه الأمثلة تُظهر أن النموذج يتعلم السياق ويتعمق في أمثلة جديدة.’

أجرى الباحثون ثلاثة اختبارات، بما في ذلك تقييم نهاية إلى نهاية لأداء الإطار عبر 500 نطاقًا غير مرئي (أي مواقع إلكترونية لم يتم تدريب CookieEnforcer عليها بشكل محدد)، حيث يُبلغ المؤلفون أنه يمكنه تعطيل الكوكيز غير الضرورية بنجاح لمدة 91% من المواقع.

تضمن الاختبار الثاني دراسة مستخدم عبر الإنترنت شملت 14 موقعًا إلكترونيًا، واستخدمت نظام التقييم (النقاط) مقابل خط أساسي يدوى. في هذا الاختبار، يُبلغ المؤلفون أن CookieEnforcer حصل على درجة أعلى بنسبة 15% من خط الأساس.

<img class=" wp-image-181085" src="https://www.unite.ai/wp-content/uploads/2022/04/system-usability-cookie-enforcer.jpg" alt="يسمح CookieEnforcer بدرجة أعلى بنسبة 15% من استخدام خط الأساس (غير مساعد)، في نفس الوقت الذي يُ自动 عملية مرهقة.” width=”641″ height=”277″ />يسمح CookieEnforcer بدرجة أعلى بنسبة 15% من استخدام خط الأساس (غير مساعد)، في نفس الوقت الذي يُ自動 عملية مرهقة.

أخيرًا، تم اختبار معاملات CookieEnforcer المُدرَّبة ضد أفضل 5000 موقع إلكتروني في الولايات المتحدة وأوروبا، لتحديد قدرته على التنقل في إشعارات الكوكيز. يقول المؤلفون:

‘في حين تم إجراء قياسات على هذا النطاق من قبل، يسمح CookieEnforcer بفهم أعمق للخيارات ما وراء الاستدلالات القائمة على الكلمات الرئيسية. على وجه الخصوص، نجد أن 16.7% من المواقع في المملكة المتحدة التي تampilkan إشعارات الكوكيز لديها على الأقل كوكيز غير ضرورية مُفعَّلة. نفس العدد للمواقع في الولايات المتحدة هو 22%.’

أصدر المؤلفون فيديو يوتيوب قصيرًا يُظهر CookieEnforcer في العمل:

نُشر لأول مرة في 12 أبريل 2022.

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai