الأمن السيبراني

حل اختبارات CAPTCHA باستخدام التعلم الآلي لتمكين أبحاث الويب المظلمة

تم النشر

منذ سنوات 2

٣ فبراير ٢٠٢٤

قام مشروع بحث أكاديمي مشترك من الولايات المتحدة بتطوير طريقة لإحباط اختبارات CAPTCHA*، ويقال إنها تتفوق على حلول التعلم الآلي الحديثة المماثلة باستخدام شبكات الخصومة التوليدية (شبكات GAN) لفك ترميز التحديات المعقدة بصريًا.

باختبار النظام الجديد مقابل أفضل الأطر الحالية ، وجد الباحثون أن طريقتهم تحقق أكثر من 94.4٪ من النجاح في مجموعة بيانات مرجعية منظمة بعناية في العالم الحقيقي ، وأثبتت قدرتها على `` القضاء على المشاركة البشرية '' عند التنقل في موقع ناشئ محمي بدرجة عالية من اختبار CAPTCHA Dark Net Marketplace ، يحل تلقائيًا تحديات CAPTCHA في ثلاث محاولات كحد أقصى.

هندسة معمارية لـ DW-GAN. المصدر: https://arxiv.org/pdf/2201.02799.pdf

سير العمل لـ DW-GAN. المصدر: https://arxiv.org/pdf/2201.02799.pdf

يؤكد المؤلفون أن نهجهم يمثل اختراقًا للباحثين في مجال الأمن السيبراني ، الذين يضطرون تقليديًا إلى تحمل تكاليف تزويد البشر في الحلقة لحل اختبارات CAPTCHA يدويًا ، عادةً عبر منصات التعهيد الجماعي مثل Amazon Mechanical Turk (AMT).

إذا كان النظام قادرًا على التكيف والمرونة ، فقد يمهد الطريق لمزيد من أنظمة الرقابة الآلية ، وللفهرسة وكشط الويب لشبكات TOR. يمكن أن يتيح ذلك إجراء تحليلات قابلة للتطوير وكبيرة الحجم ، فضلاً عن تطوير أساليب وتقنيات جديدة للأمن السيبراني ، والتي أعاقتها جدران الحماية CAPTCHA حتى الآن.

• ورقة بعنوان مواجهة اختبار CAPTCHA المستند إلى نص الويب المظلم مع التعلم التوليدي التنافسي للاستخبارات الاستباقية المتعلقة بالتهديدات السيبرانية، ويأتي من باحثين في جامعة أريزونا وجامعة جنوب فلوريدا وجامعة جورجيا.

الآثار

نظرًا لأن النظام - يسمى Dark Web-GAN (DW-GAN ، متاح في جيثب) - يبدو أنه أكثر أداءً من سابقاتها ، فهناك احتمال أنه سيتم استخدامه كطريقة عامة للتغلب على مادة CAPTCHA (عادةً ما تكون أقل صعوبة) على الويب القياسي ، إما في هذا التنفيذ المحدد ، أو بناءً على المبادئ العامة التي تحددها الورقة الجديدة. نظرًا لمحدودية التخزين في GitHub ، من الضروري حاليًا الاتصال بالمؤلف الرئيسي Ning Zhang للحصول على البيانات المرتبطة بإطار العمل.

نظرًا لأن DW-GAN لديها مهمة "إيجابية" لكسر اختبارات CAPTCHA (مثلما كان لـ TOR نفسها في الأصل مهمة إيجابية لحماية الاتصالات العسكرية ، ولاحقًا ، الصحفيين) ، ولأن اختبارات CAPTCHA هي دفاع شرعي (بشكل متكرر ومثير للجدل مستعمل بواسطة CloudFlare العملاق في كل مكان لشبكة CDN) والأداة المفضلة لأسواق الويب المظلمة غير المشروعة ، يمكن القول إن هذا النهج هو تقنية "تسوية".

يقر المؤلفون أنفسهم بأن DW-GAN لها استخدامات أوسع:

"[بينما] تركز هذه الدراسة بشكل أساسي على اختبار CAPTCHA على الويب المظلم كمشكلة أكثر تحديًا ، من المتوقع أن تكون الطريقة المقترحة في هذه الدراسة قابلة للتطبيق على أنواع أخرى من CAPTCHA دون فقدان التعميم.

من المفترض أن DW-GAN ، أو نظام مشابه ، سيحتاج إلى الانتشار على نطاق واسع وواضح من أجل حث أسواق الويب المظلمة على البحث عن حلول أقل قابلية للحل بالآلة ، أو على الأقل لتطوير تكوينات CAPTCHA الخاصة بهم بشكل دوري ، سيناريو `` الحرب الباردة ''.

الدوافع

كما تلاحظ الورقة ، فإن الويب المظلم هو الخط الأساسي لذكاء القراصنة المتعلق بالهجمات الإلكترونية مقدر لتكلف الاقتصاد العالمي 10 تريليونات دولار أمريكي بحلول عام 2025. لذلك تظل شبكات البصل بيئة آمنة نسبيًا لمجتمعات الشبكات المظلمة غير المشروعة ، والتي يمكنها إبعاد الحدود بأساليب مختلفة ، بما في ذلك مهلات الجلسات وملفات تعريف الارتباط ومصادقة المستخدم.

نوعان من اختبار CAPTCHA ، يستخدم كلاهما خلفيات غامضة وحروف مائلة لجعلها أقل قابلية للقراءة آليًا.

ومع ذلك ، لاحظ المؤلفون ، أن أيا من هذه العوائق ليست كبيرة مثل شريحة الكابتشا التي تتخلل تجربة التصفح في مجتمع "حساس":

في حين أنه يمكن التحايل على معظم هذه الإجراءات بشكل فعال من خلال تنفيذ إجراءات العداد الآلي في برنامج الزاحف ، فإن CAPTCHA هو الإجراء الأكثر إعاقة لمكافحة الزحف في الويب المظلم والذي لا يمكن التحايل عليه بسهولة بسبب القدرات المعرفية العالية التي لا تمتلكها الأتمتة في كثير من الأحيان أدوات'

اختبارات CAPTCHA المستندة إلى النص ليست الخيار الوحيد المتاح ؛ هناك متغيرات ، مألوفة لدى الكثير منا ، تتحدى المستخدم لتفسير الفيديو والصوت ، وخاصة الصور. ومع ذلك ، كما لاحظ المؤلفون ، فإن اختبار CAPTCHA المستند إلى النص هو حاليا التحدي المفضل لأسواق الويب المظلمة ، ونقطة انطلاق طبيعية لجعل شبكات TOR أكثر عرضة لتحليل الآلة.

معمار

على الرغم من أن النهج السابق من جامعة نورثويست في الصين استخدم شبكات الخصومة التوليدية لاشتقاق أنماط الميزات من منصات اختبار CAPTCHA، إلا أن مؤلفي الورقة الجديدة لاحظوا أن هذه الطريقة تعتمد على تفسير صورة نقطية، بدلاً من فحص أعمق للحروف المعترف بها في التحدي ; وأن فعالية DW-GAN لا تتأثر بالطول المتغير للكلمات غير ذات المعنى (والأرقام) التي توجد عادةً في اختبارات CAPTCHA على الويب المظلم.

يستخدم DW-GAN خط أنابيب من أربع مراحل: أولاً يتم التقاط الصورة ، ثم يتم تغذيتها إلى وحدة تقليل الضوضاء الخلفية التي تستخدم GAN التي تم تدريبها على عينات CAPTCHA المشروحة ، وبالتالي فهي قادرة على تمييز الأحرف من الخلفية المضطربة يستريحون عليها. يتم بعد ذلك تصفية الحروف المستخرجة من أي ضوضاء متبقية بعد الاستخراج المستند إلى GAN.

بعد ذلك ، يتم إجراء تجزئة على النص المستخرج ، والذي يتم تقسيمه بعد ذلك إلى ما يبدو أنه أحرف مكونة ، باستخدام خوارزميات الكشف عن الكنتور.

تجزئة الحرف يعزل مجموعة البكسل ويحاول التعرف باستخدام تتبع الحدود.

أخيرًا، تخضع أجزاء الأحرف "المخمنة" للتعرف على الأحرف عبر الشبكة العصبية التلافيفية (CNN).

في بعض الأحيان يمكن أن تتداخل الأحرف ، وهو تقنين مفرط مصمم خصيصًا لخداع أنظمة الآلة. لذلك تستخدم DW-GAN التجزئة القائمة على الفاصل الزمني لتعزيز وعزل الحدود ، وفصل الأحرف بشكل فعال. نظرًا لأن الكلمات عادة ما تكون هراء ، فلا يوجد سياق دلالي للمساعدة في هذه العملية.

النتائج

تم اختبار DW-GAN مقابل صور CAPTCHA من ثلاث مجموعات بيانات ويب مظلمة متنوعة ، بالإضافة إلى مُركِّب CAPTCHA مشهور. تضمنت الأسواق المظلمة التي نشأت منها الصور متجرين لبيع البطاقات ، هما Rescator-1 و Rescator-2 ، ومجموعة جديدة من سوق ناشئة تسمى Yellow Brick (والتي كانت كذلك) وذكرت ليختفي لاحقًا في أعقاب إزالة DarkMarket).

عيّنة كابتشا من مجموعات البيانات الثلاث ، بالإضافة إلى مُركِّب الكابتشا مفتوح المصدر.

وفقًا للمؤلفين ، أوصى خبراء Cyber Threat Intelligence (CTI) بالبيانات المستخدمة في الاختبار بناءً على انتشارها الواسع عبر أسواق الشبكة المظلمة.

تضمن اختبار كل مجموعة بيانات تطوير عنكبوت يواجه TOR مكلفًا بجمع 500 صورة CAPTCHA ، والتي تم تصنيفها ورعايتها لاحقًا بواسطة مستشاري CTI.

تم وضع ثلاث تجارب. قام الأول بتقييم الأداء العام الذي يهزم اختبار CAPTCHA لـ DW-GAN مقابل أساليب SOTA القياسية. كانت الأساليب المتنافسة CNN على مستوى الصورة مع المعالجة المسبقة، بما في ذلك تحويل التدرج الرمادي ، والتطبيع ، وتجانس Gaussian ، جهد أكاديمي مشترك من إيران والمملكة المتحدة ؛ CNN على مستوى الشخصيات مع تجزئة على أساس الفاصل الزمني ؛ و سي إن إن على مستوى الصورة، من جامعة أكسفورد في المملكة المتحدة.

النتائج من DW-GAN للتجربة الأولى ، مقارنةً بأحدث الأساليب السابقة.

وجد الباحثون أن DW-GAN كانت قادرة على تحسين النتائج السابقة في جميع المجالات (انظر الجدول أعلاه).

كانت التجربة الثانية عبارة عن دراسة اجتثاث ، حيث يتم إزالة أو تعطيل مكونات مختلفة من الإطار النشط من أجل استبعاد احتمال تأثير العوامل الخارجية أو الثانوية على النتائج.

نتائج دراسة الاجتثاث.

هنا أيضًا ، وجد المؤلفون أن تعطيل الأقسام الرئيسية للهندسة المعمارية قلل من أداء DW-GAN في جميع الحالات تقريبًا (انظر الجدول أعلاه).

قارنت التجربة الثالثة دون اتصال بين فعالية DW-GAN مقابل الطريقة المعتمدة على الصورة المعيارية وطريقتين على مستوى الأحرف ، من أجل تحديد مدى تأثير تقييم أحرف DW-GAN على فائدتها في الحالات التي تكون فيها كلمة CAPTCHA غير المنطقية تعسفية. (بدلاً من المحدد مسبقًا). في هذه الحالات ، يتراوح طول CAPTCHA بين 4 إلى 7 أحرف.

في هذه التجربة ، استخدم المؤلفون مجموعة تدريب تتكون من 50,000 صورة كابتشا ، مع 5,000 محفوظة للاختبار في تقسيم نموذجي بنسبة 90/10.

هنا أيضًا ، تفوقت DW-GAN على الأساليب السابقة:

اختبار مباشر في سوق Dark Net

أخيرًا ، تم نشر DW-GAN ضد سوق Yellow Brick Dark net (الحي آنذاك). من أجل هذا الاختبار ، تم تطوير متصفح الويب Tor الذي دمج DW-GAN في قدرات التصفح الخاصة به ، وتحليل تحديات CAPTCHA تلقائيًا.

في هذا السيناريو ، تم تقديم CAPTCHA إلى الزاحف الآلي لكل 15 طلب HTTP في المتوسط. تمكن الزاحف من فهرسة 1,831،1,223 عنصرًا غير قانوني للبيع في Yellow Brick ، بما في ذلك 44،286 منتجًا متعلقًا بالمخدرات (بما في ذلك المواد الأفيونية والكوكايين) ، و 102 حزمة قرصنة ، وتسع عمليات مسح مستندات مزورة. في المجموع ، تمكن النظام من تحديد 131 عنصرًا متعلقًا بالأمن السيبراني ، بما في ذلك XNUMX بطاقة ائتمان محفورة و XNUMX عملية تسجيل دخول مسروقة للحساب.

يذكر المؤلفون أن DW-GAN كانت في جميع الحالات قادرة على اختراق اختبار CAPTCHA في ثلاث محاولات أو أقل ، وأن 76 دقيقة من وقت المعالجة كانت ضرورية لحساب CAPTCHA التي تحمي جميع المنتجات البالغ عددها 1,831 منتجًا. لم تكن هناك حاجة إلى تدخل بشر ، ولم تحدث حالات فشل في نقطة النهاية.

لاحظ المؤلفون ظهور التحديات التي تقدم مستوى أعلى من التعقيد من نص كابتشا ، بما في ذلك بعض التي تبدو على غرار اختبارات تورينج ، ولاحظوا أنه يمكن تحسين DW-GAN لاستيعاب هذه الاتجاهات الجديدة عندما تصبح شائعة.

*تماما اختبار تورينغ العام المؤتمت لاقول أجهزة الكمبيوتر والبشر بصرف النظر

نُشر لأول مرة في 11 يناير 2022.

الاستفادة من الذكاء الاصطناعي لتحسين الشبكات والبيانات الآمنة - رواد الفكر

لا تفوت

تأمين البنية التحتية ضد برامج الفدية - رواد الفكر

مارتن أندرسون

كاتب في التعلم الآلي والذكاء الاصطناعي والبيانات الضخمة.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai

اتحدوا

حل اختبارات CAPTCHA باستخدام التعلم الآلي لتمكين أبحاث الويب المظلمة

الأمن السيبراني