אבטחת סייבר

שיטת למידת מכונה לחסימת מודעות על סמך התנהגות דפדפן מקומית

יצא לאור

לפני 3 שנים

26 ביולי 2021

חוקרים בשוויץ ובארה"ב המציאו גישה חדשה של למידת מכונה לאיתור חומרי פרסום באתר, המבוססת על האופן שבו חומר כזה מקיים אינטראקציה עם הדפדפן, במקום על ידי ניתוח התוכן או התנהגות הרשת שלו - שתי גישות שהוכחו כלא יעילות ב- לטווח ארוך מול הסוואה של CNAME (ראה להלן).

מדובב WebGraph, המסגרת משתמשת ב-a גרףגישת חסימת פרסומות מבוססת AI לאיתור תוכן פרסומי על ידי התמקדות בפעילויות כה חיוניות של פרסום ברשת – כולל ניסיונות טלמטריה ואחסון דפדפן מקומי – עד שטכניקת ההתחמקות האפקטיבית היחידה תהיה לא לבצע פעילויות אלו.

למרות שגישות קודמות השיגו שיעורי זיהוי מעט גבוהים יותר מ-WebGraph, כולן נוטות לטכניקות התחמקות, בעוד ש-WebGraph מסוגלת להתקרב ל-100% שלמות מול תגובות יריבות, כולל תגובות משוכללות יותר השערות שעלולות להופיע לנוכח זה. שיטת חסימת פרסומות חדשה.

את המאמר מובילים שני חוקרים מהמכון הפדרלי השוויצרי לטכנולוגיה, בשיתוף עם חוקרים מאוניברסיטת קליפורניה, דיוויס ואוניברסיטת איווה.

מעבר ל-AdGraph

העבודה היא פיתוח מיוזמת מחקר משנת 2020 עם דפדפן Brave בשם AdGraph, שהציגו שניים מהחוקרים מהמאמר החדש.

השוואה בין AdGraph לעומת WebGraph, עם קווים מנוקדים המייצגים חידושים ארכיטקטוניים בגישה הקודמת. מקור: https://arxiv.org/pdf/2107.11309.pdf

AdGraph מסתמך על תוכן (מודעה). מאפיינים, נגזר מניתוח כתובות URL, כמפתח לזיהוי חומר מסחרי. עם זאת, תכונות אלו מייצגות נקודת כשל פוטנציאלית אחת עבור יריבים המבקשים לזהות נוכחות של מערכות זיהוי מודעות, ומגבשים שיטות למניעתן. ההסתמכות הזו על תוכן נכסים הופך את AdGraph למעשה לגרסה ממוכנת של גישות מבוססות רשימות סינון שנקבעו באופן ידני, וחולקות את החולשות שלהן.

הסוואה של CNAME

חומר שמקורו בדומיין של אתר עצמו נכנס לקטגוריה 'מהימן', ככל שהדומיין עצמו מהימן. עבור אתר אינטרנט בעל סמכות גבוהה, יש פרמיה חשובה בהפעלת מסעות פרסום הכוללים חומר שכזה מופיע להתארח באתר הרשות עצמו, שכן פרסום כזה חסין בפני רשימות חסימת פרסומות מבוססות פילטרים, ואפילו לגישת AdGraph 2020.

עם זאת, קמפיינים מותאמים אישית קשים לניהול משא ומתן, יקרים ליישום והם פועלים בניגוד לעקרונות הליבה של מודל הפרסום ברשת שפותח במהלך 25 השנים האחרונות, שבו פלטפורמת צד שלישי מכניסה קוד ישירות לאתר המארח, בדרך כלל 'מכירה פומבית'. משבצת הפרסום במיקרו-שניות בהתבסס על רצונות מילת המפתח וגורמים שונים אחרים.

מכיוון שכמעט כל מערכות חסימת הפרסומות מפתחות חומר של צד שלישי בדפי אינטרנט (כלומר אלמנטים שמתארחים בדומיינים 'זרים'), המפרסמים נלחמו בחזרה עם טכניקות הסוואה של CNAME בחמש השנים האחרונות. הסוואה של CNAME מטעה את העוקבים להאמין שתת-דומיין של האתר המארח (כלומר information.example.com במקום example.com) הוא תוספת אמיתית לאתר, כאשר למעשה מדובר במנגנון פרוקסי להצגת מודעות מסודר עם פרסום של צד שלישי ספקים.

במרץ 2021 מחקר אחד גילה שאירועי הסוואה של CNAME עלו ב-22% בין 2018 ל-2020, כאשר כמעט 10% מ-10,000 האתרים המובילים של Tranco מעסיקים לפחות עוקב אחד מבוסס CNAME עד אוקטובר 2020.

הנחה על אמון בכתובות אתרים

טכניקות הטעיה של CNAME כוללות מניפולציה של כתובות אתרים המעורבות בתהליך פרסום המודעות. כל מערכת חסימת פרסומות שתסמוך על שרשרת הכתובות תהיה נתונה למניפולציות והתחמקות. לכן WebGraph משנה באופן אקראי את כתובות ה-URL שסופקו בתהליך (כולל מחרוזות שאילתות, מספר פרמטרים ושמות פרמטרים), ומחפשת דפוסי שימוש במקום כתובות URL ספציפיות אסורות או מקובלות.

המערכת צריכה לשקול שתי תצורות נפוצות בארכיטקטורת פרסום מודעות: האחת, שבה המארח משתף פעולה ישירות עם המפרסם; ותרחיש שני (נפוץ יותר) שבו המפרסם מספק שיתוף פעולה מוגבל בשל הצורך להגן על עצמו מפני מניפולציות מצד לקוחותיו.

בגישות המבוססות על רשימות, כולל AdGraph, מניפולציה מוצלחת של כתובות אתרים על ידי מערכת פרסום המודעות היא כמעט ניצחון מוחלט, מייחסת מקור 'מקומי' למודעה, ולכן התחמקות כמעט מכל הניסיונות לחסום באופן שיטתי תוכן פרסומי.

מה נשאר, דרך החתימה? WebGraph מתמקד במקום זאת בצורך של מערכות פרסום לחלוק מידע באמצעים מעורפלים למחצה, כגון עוקבי אינטרנט, תקשורת בין iframes ו-'מאזינים' אינטרנט, אשר כל הזמן בודקים את המצב החי של הדף המארח עבור פעילות בעלת משמעות במונחים של מדדי אינטרנט עבור המודעה. פעילות כזו כוללת אחסון של משתנים בקובצי Cookie או באחסון מקומי מבוסס HTML5.

WebGraph משתמש במדידת פרטיות האינטרנט של מוזילה (OpenWPM framework) כדי לעקוב אחר פעילות כזו בפיירפוקס. הוא לוכד את כל הפעילות בשכבת JavaScript, ואת כל בקשות הרשת היוצאות, והתגובות שלהן, בשכבת הרשת.

בדיקה נוספת זו מציגה קצוות 'זרימת מידע' חדשים לרשת הגרפים שהוצעה בעבר על ידי AdGraph, ומאפשרת ל-WebGraph להקליט ולכמת באופן מפורש דפוסי שיתוף מידע בהתבסס על פעילות מקומית, וללא קשר לכתובות מקור וכתובות אתרי יעד עבור טלמטריה או סוגים אחרים של תקשורת פנימית ב- מערכות להצגת מודעות.

תוצאות

החוקרים השתמשו בגרסה מורחבת של OpenWPM כדי לסרוק באופן שיטתי 10,000 אתרים שנלקחו מ-100,000 האתרים המובילים של Alexa, ומדגם אקראי של 9,000 אתרים מדורגים בין 1k-100k, ושמרו את ייצוגי הגרפים שלהם לפני שהעבירו את התוצאות למסווג עץ ההחלטות לפי מודל של AdGraph. עיצוב מקורי, ושימוש ברשימות מסנני מודעות פופולריות כאמת. בדרך זו, נבנה מערך נתונים להדרכה של מודל הליבה.

המערכת השיגה תוצאות דומות ל-AdGraph, עם דיוק של 92.33%. עם זאת, עמידותה של המערכת החדשה להתנגדות יריבות עולה משיעור כשל כמעט מוחלט עבור AdGraph לרגישות של 8% בלבד תחת WebGraph.

כיוונים עתידיים

המאמר טוען שרשתות המודעות יצטרכו לעצב מחדש את המערכות שלהן כדי להתחמק מגילוי מול גישת ה-WebGraph, ומציעה ששינויים כאלה יחייבו סקירה של יחסי האמון הקיימים כיום בין מפרסמי צד שלישי לבין מארח אתרים שבהם המודעות שלהם מופיעות.

העיתון גם מציין ש-WebGraph אינו לוקח בחשבון טכניקות מעקב חסרות מצב כמו טביעת אצבע בדפדפן (דרך אלמנט ה-Canvas), העושה שימוש בממשקי API שהמערכת אינה מנטרת כעת. החוקרים מציעים שניתן להרחיב את WebGraph בעתיד כך שיתייחס גם לסוגים אלה של אינטראקציות ומסמני אחסון מקומיים.

נושאים קשורים:פרסום מחקר

יסודות ניהול פגיעות

לא לפספס

תובנות על שוק Firewall של יישומי אינטרנט

מרטין אנדרסון

כותב על למידת מכונה, בינה מלאכותית וביג דאטה.
אתר אישי: martinanderson.ai
איש קשר: [מוגן בדוא"ל]
טוויטר: @manders_ai

Unite.AI

שיטת למידת מכונה לחסימת מודעות על סמך התנהגות דפדפן מקומית

אבטחת סייבר