בדל פתרון CAPTCHA עם Machine Learning כדי לאפשר מחקר אינטרנט כהה - Unite.AI
צור קשר

אבטחת סייבר

פתרון CAPTCHA עם Machine Learning כדי לאפשר מחקר אינטרנט אפל

mm

יצא לאור

 on

פרויקט מחקר אקדמי משותף מארה"ב פיתח שיטה לסכל מבחני CAPTCHA*, על פי הדיווחים מעלים על פתרונות למידת מכונה חדישים דומים על ידי שימוש ברשתות יריביות (Generative Adversarial Networks)GANs) כדי לפענח את האתגרים המורכבים מבחינה ויזואלית.

בבדיקת המערכת החדשה מול המסגרות הקיימות הטובות ביותר, החוקרים גילו שהשיטה שלהם משיגה יותר מ-94.4% הצלחה במערך נתונים של מדד אמתי שנקבע בקפידה, והוכיחה כי היא מסוגלת "לבטל את המעורבות האנושית" בעת ניווט במתפתח מוגן מאוד מסוג CAPTCHA. Dark Net Marketplace, פותר אוטומטית אתגרי CAPTCHA תוך שלושה ניסיונות לכל היותר.

ארכיטקטורה עבור DW-GAN. מקור: https://arxiv.org/pdf/2201.02799.pdf

זרימת עבודה עבור DW-GAN. מקור: https://arxiv.org/pdf/2201.02799.pdf

המחברים טוענים כי הגישה שלהם מהווה פריצת דרך עבור חוקרי אבטחת סייבר, שבאופן מסורתי נאלצו לשאת בעלויות של אספקת בני אדם במעגל כדי לפתור ידנית CAPTCHA, בדרך כלל באמצעות פלטפורמות מיקור המונים כגון Amazon Mechanical Turk (AMT).

אם המערכת יכולה להוכיח יכולת הסתגלות וגמישה, היא עשויה לסלול עוד יותר את הדרך למערכות פיקוח אוטומטיות יותר, וליצירת אינדקס וגרידת אינטרנט של רשתות TOR. זה יכול לאפשר ניתוחים ניתנים להרחבה ובנפחים גבוהים, כמו גם פיתוח של גישות וטכניקות חדשות של אבטחת סייבר, שנפגעו עד היום על ידי חומות אש CAPTCHA.

אל האני מאמר מכונה התנגדות ל-CAPTCHA מבוסס טקסט אינטרנט אפל עם למידה יריבית יצירתית עבור אינטליגנציה יזומה של איומי סייבר, ומגיע מחוקרים מאוניברסיטת אריזונה, אוניברסיטת דרום פלורידה ואוניברסיטת ג'ורג'יה.

משמעויות

מאז המערכת - נקראת Dark Web-GAN (DW-GAN, זמין ב-GitHub) – ככל הנראה כל כך הרבה יותר ביצועי מקודמיו, יש אפשרות שהיא תשמש כשיטה כללית להתגבר על חומר ה-CAPTCHA (בדרך כלל פחות קשה) ברשת הסטנדרטית, בין אם ביישום הספציפי הזה, או בהתבסס על עקרונות כלליים שהמסמך החדש מתווה. עם זאת, בשל אחסון מוגבל ב-GitHub, יש צורך כעת ליצור קשר עם המחבר הראשי Ning Zhang על מנת לקבל את הנתונים הקשורים למסגרת.

מכיוון של-DW-GAN יש משימה 'חיובית' לשבירת CAPTCHA (בדומה ל-TOR עצמו הייתה במקור משימה חיובית להגנה על תקשורת צבאית ומאוחר יותר, עיתונאים), ומכיוון ש-CAPTCHA הם גם הגנה לגיטימית (לעתים קרובות ושנויה במחלוקת מְשׁוּמָשׁ על ידי ענקית CDN הקיימת בכל מקום, CloudFlare) וכלי מועדף של שווקים לא לגיטימיים ברשת האפלה, הגישה היא ללא ספק טכנולוגיית 'פילוס'.

המחברים עצמם מודים של-DW-GAN יש שימושים רחבים יותר:

"[בעוד] מחקר זה מתמקד בעיקר ב-CAPTCHA ברשת האפלה כבעיה מאתגרת יותר, השיטה המוצעת במחקר זה צפויה להיות ישימה על סוגים אחרים של CAPTCHA ללא אובדן כלליות."

יש להניח ש-DW-GAN, או מערכת דומה, יצטרכו להתפזר באופן נרחב וניכר על מנת לגרום לשוקי האינטרנט האפלים לחפש פתרונות פחות ניתנים לפתרון מכונה, או לפחות לפתח את תצורות ה-CAPTCHA שלהם מעת לעת, תרחיש של 'מלחמה קרה'.

מניעים

כפי שהעיתון מציין, הרשת האפלה היא הגופן העיקרי של מודיעין האקרים המתייחס להתקפות סייבר, שהן מוערך לעלות לכלכלה העולמית 10 טריליון דולר עד שנת 2025. לכן רשתות בצל נשארות סביבה בטוחה יחסית לקהילות רשת אפלות לא חוקיות, שיכולות להדוף גולשים בשיטות שונות, כולל פסקי זמן של הפעלה, קובצי Cookie ואימות משתמשים.

שני סוגים של CAPTCHA, שניהם משתמשים ברקע מטושטש ובאותיות מוטות כדי להפוך אותם פחות קריאים במכונה.

שני סוגים של CAPTCHA, שניהם משתמשים ברקע מטושטש ובאותיות מוטות כדי להפוך אותם פחות קריאים במכונה.

עם זאת, מציינים המחברים, אף אחד מהמכשולים הללו אינו כה גדול כמו נתח ה-CAPTCHA המנקד את חווית הגלישה בקהילה 'רגישה':

"למרות שניתן לעקוף את רוב האמצעים הללו ביעילות באמצעות הטמעת אמצעי נגד אוטומטיים בתוכנית סורק, CAPTCHA הוא האמצעי המקשה ביותר נגד סריקה ברשת האפלה שלא ניתן לעקוף בקלות בגלל יכולות קוגניטיביות גבוהות שלעיתים קרובות אינן בעלות אוטומציה כלים'

CAPTCHA מבוססי טקסט אינם האפשרות הזמינה היחידה; ישנן גרסאות, המוכרות לרבים מאיתנו, המאתגרות את המשתמש לפרש וידאו, אודיו ובעיקר תמונות. עם זאת, כפי שמציינים המחברים, CAPTCHA מבוסס טקסט כרגע אתגר הבחירה עבור שווקי אינטרנט אפלים, ומקום התחלה טבעי להפוך את רשתות TOR לרגישות יותר לניתוח מכונות.

אדריכלות

למרות שגישה קודמת של אוניברסיטת נורת'וווסט בסין השתמשה ברשתות יריביות גנרטיביות כדי להפיק דפוסי תכונות מפלטפורמות CAPTCHA, מחברי המאמר החדש מציינים ששיטה זו מסתמכת על פרשנות של תמונה ברסטר, במקום בחינה מעמיקה יותר של אותיות המוכרות באתגר ; וכי האפקטיביות של DW-GAN אינה מושפעת מהאורך המשתנה של מילות שטויות (ושל מספרים) שנמצאות בדרך כלל ב-CAPTCHA של אינטרנט אפלים.

DW-GAN משתמש בצינור בן ארבעה שלבים: תחילה התמונה נקלטת, ולאחר מכן מוזנת למודול דה-noising רקע שמשתמש ב-GAN שהוכשר על דגימות CAPTCHA מוערות, ולכן הוא מסוגל להבחין בין אותיות מהרקע המופרע שהם נחים על. האותיות שחולצו עוברות סינון נוסף מכל הרעש שנותר לאחר החילוץ מבוסס GAN.

לאחר מכן, מבוצע פילוח על הטקסט שחולץ, אשר לאחר מכן מפורק למה שנראה כתווים מרכיבים, באמצעות אלגוריתמים לזיהוי קווי מתאר.

פילוח תווים מבודד את קבוצת הפיקסלים ומנסה לזהות באמצעות מעקב אחר גבול.

פילוח תווים מבודד את קבוצת הפיקסלים ומנסה לזהות באמצעות מעקב אחר גבול.

לבסוף, מקטעי הדמויות ה"ניחושים" כפופים לזיהוי תווים באמצעות רשת עצבית Convolutional Neural (CNN).

לפעמים דמויות עלולות לחפוף, היפר-קרינג שתוכנן במיוחד כדי לשטות במערכות מכונות. לכן, DW-GAN משתמש בפילוח מבוסס-מרווחים כדי לשפר ולבודד גבולות, תוך הפרדה יעילה של תווים. מכיוון שהמילים הן בדרך כלל שטויות, אין שום הקשר סמנטי שיסייע בתהליך זה.

תוצאות

DW-GAN נבדק כנגד תמונות CAPTCHA משלושה מערכי נתונים מגוונים של רשת אפלים, כמו גם סינתיסייזר CAPTCHA פופולרי. השווקים האפלים שמהם הגיעו התמונות כללו שתי חנויות קלפים, Rescator-1 ו-Rescator-2, וסט רומן משוק שצמח אז בשם Yellow Brick (שהיה דיווח שנעלם מאוחר יותר בעקבות ההסרה של DarkMarket).

דגמי CAPTCHA משלושת מערכי הנתונים, כמו גם מסינתיסייזר CAPTCHA בקוד פתוח.

דגמי CAPTCHA משלושת מערכי הנתונים, כמו גם מסינתיסייזר CAPTCHA בקוד פתוח.

לדברי המחברים, הנתונים ששימשו בבדיקה הומלצו על ידי מומחי Cyber ​​Threat Intelligence (CTI) בהתבסס על התפוצה רחבה שלהם בשווקי רשת אפלים.

בדיקת כל מערך נתונים כללה פיתוח של עכביש הפונה ל-TOR שמשימה לאסוף 500 תמונות CAPTCHA, שסומנו ואז אוצרו על ידי יועצי CTI.

נוצרו שלושה ניסויים. הראשון העריך את הביצועים הכלליים לביסוס CAPTCHA של DW-GAN מול שיטות SOTA סטנדרטיות. השיטות היריבות היו CNN ברמת תמונה עם עיבוד מקדים, הכולל המרת גווני אפור, נורמליזציה והחלקה גאוסית, מאמץ אקדמי משותף מאיראן ובריטניה; CNN ברמת הדמות עם פילוח מבוסס מרווחים; ו CNN ברמת התמונה, מאוניברסיטת אוקספורד בבריטניה.

תוצאות מ-DW-GAN עבור הניסוי הראשון, בהשוואה לגישות עדכניות קודמות.

תוצאות מ-DW-GAN עבור הניסוי הראשון, בהשוואה לגישות עדכניות קודמות.

החוקרים גילו ש-DW-GAN הצליח לשפר את התוצאות הקודמות בכל הטווח (ראה טבלה למעלה).

הניסוי השני היה מחקר אבלציה, שבו מרכיבים שונים של המסגרת הפעילה מוסרים או מושבתים על מנת לבטל את האפשרות שגורמים חיצוניים או משניים משפיעים על התוצאות.

תוצאות מחקר האבלציה.

תוצאות מחקר האבלציה.

גם כאן, המחברים מצאו כי השבתת חלקי מפתח בארכיטקטורה הפחיתה את הביצועים של DW-GAN כמעט בכל המקרים (ראה טבלה למעלה).

הניסוי הלא מקוון השלישי השווה את היעילות של DW-GAN מול שיטה מבוססת תמונה בהשוואה ושתי שיטות ברמת התווים, על מנת לקבוע באיזו מידה הערכת התווים של DW-GAN השפיעה על השימושיות שלה במקרים שבהם מילת CAPTCHA שטות הייתה שרירותית אורך (ולא מוגדר מראש). במקרים אלה, אורך ה-CAPTCHA השתנה בין 4 ל-7 תווים.

עבור ניסוי זה, המחברים השתמשו בסט אימון של 50,000 תמונות CAPTCHA, כאשר 5,000 שמורות לבדיקה בפיצול טיפוסי של 90/10.

גם כאן, DW-GAN עלה על גישות קודמות:

בדיקה חיה בשוק אפל נטו

לבסוף, DW-GAN נפרס נגד שוק הרשת האפלה של Yellow Brick (שהיה חי אז). לצורך בדיקה זו, פותח דפדפן אינטרנט של Tor אשר שילב את DW-GAN ביכולות הגלישה שלו, תוך ניתוח אוטומטי של אתגרי CAPTCHA.

בתרחיש זה, CAPTCHA הוצג לסורק האוטומטי עבור כל 15 בקשות HTTP, בממוצע. הסורק הצליח לאינדקס 1,831 פריטים לא חוקיים למכירה ב-Yellow Brick, כולל 1,223 מוצרים הקשורים לסמים (כולל אופיואידים וקוקאין), 44 חבילות פריצה ותשע סריקות מסמכים מזויפות. בסך הכל הצליחה המערכת לזהות 286 פריטים הקשורים לאבטחת סייבר, כולל 102 כרטיסי אשראי מפורקים ו-131 כניסות לחשבונות גנובים.

המחברים מצהירים כי DW-GAN הצליח בכל המקרים לפצח CAPTCHA בשלושה ניסיונות או פחות, וכי 76 דקות של זמן עיבוד היו נחוצות כדי להסביר את CAPTCHA ששומרים על כל 1,831 המוצרים. לא היה צורך בבני אדם כדי להתערב, ולא התרחשו מקרים של כשל בנקודות הקצה.

המחברים מציינים את הופעתם של אתגרים המציעים רמה גבוהה יותר של תחכום מאשר CAPTCHA של טקסט, כולל כאלה שנראים במודל של מבחני טיורינג, ומבחינים שניתן לשפר את ה-DW-GAN כדי להתאים לטרנדים החדשים הללו כשהם הופכים פופולריים.

 

*לגמרי מבחן ציבורי אוטומטי טיורינג לספר מחשבים בני אדם חוץ

פורסם לראשונה ב-11 בינואר 2022.