Кібербезпека

Метод машинного навчання для блокування реклами на основі поведінки локального браузера

опублікований

3 років тому

Липень 26, 2021

Дослідники зі Швейцарії та США розробили новий підхід машинного навчання до виявлення рекламних матеріалів на веб-сайтах, який ґрунтується на тому, як такий матеріал взаємодіє з браузером, а не на аналізі його вмісту чи поведінки в мережі – два підходи, які виявилися неефективними в довгостроково в умовах маскування CNAME (див. нижче).

Дубльований WebGraph, структура використовує a графікПідхід до блокування реклами на основі штучного інтелекту для виявлення рекламного вмісту шляхом зосередження на таких важливих діях мережевої реклами, включаючи спроби телеметрії та локальне зберігання даних у браузері, що єдиним ефективним методом ухилення було б не проводити ці дії.

Незважаючи на те, що попередні підходи досягли дещо вищих показників виявлення, ніж WebGraph, усі вони схильні до методів ухилення, тоді як WebGraph здатний наблизитися до 100% цілісності в умовах протилежних відповідей, включаючи більш складні гіпотетичні відповіді, які можуть з’явитися в цьому випадку. новий метод блокування реклами.

Роботу очолювали два дослідники зі Швейцарського федерального технологічного інституту спільно з дослідниками з Каліфорнійського університету в Девісі та Університету Айови.

Крім AdGraph

Ця робота є розвитком дослідницької ініціативи 2020 року з браузером Brave під назвою AdGraph, в якому були представлені двоє дослідників із нової статті.

Порівняння AdGraph і WebGraph із пунктирними лініями, що представляють архітектурні інновації попереднього підходу. Джерело: https://arxiv.org/pdf/2107.11309.pdf

AdGraph покладається на вміст (реклами). риси, отримані в результаті аналізу URL-адрес, як ключ до виявлення комерційних матеріалів. Однак ці функції є єдиною потенційною точкою відмови для зловмисників, які прагнуть виявити наявність систем виявлення реклами та розробляють методи їх уникнення. Це опора на зміст властивості робить AdGraph по суті механізованою версією підходів на основі списків фільтрів, що підбираються вручну, і має їхні слабкі сторони.

Маскування CNAME

Матеріал, що надходить із власного домену веб-сайту, належить до категорії «надійних», оскільки сам домен є надійним. Для авторитетного веб-сайту є цінна премія у проведенні рекламних кампаній, які містять матеріали, які з'являється розміщуватись на самому офіційному сайті, оскільки така реклама захищена від списків блокування реклами на основі фільтрів і навіть підходу AdGraph 2020.

Однак користувацькі кампанії складно обговорити, вони дорогі в реалізації та проводяться всупереч основним принципам моделі мережевої реклами, розробленої протягом останніх 25 років, коли стороння платформа вставляє код безпосередньо на хост-сайт, як правило, на «аукціоні». рекламний слот у мікросекундах на основі бажаності ключового слова та інших факторів.

Оскільки майже всі системи блокування реклами використовують матеріали третіх сторін на веб-сторінках (тобто елементи, розміщені на «чужих» доменах), рекламодавці дають відповідь за допомогою Методи маскування CNAME за останні п'ять років. Маскування CNAME змушує трекерів повірити в те, що субдомен хост-сайту (тобто information.example.com замість example.com) є справжнім доповненням до сайту, хоча насправді це механізм показу реклами проксі-сервера, організований за допомогою реклами третьої сторони провайдерів.

У березні 2021 року одне дослідження виявлено що інциденти маскування CNAME зросли на 22% між 2018 і 2020 роками, причому до жовтня 10 року майже 10,000% із 2020 XNUMX найкращих веб-сайтів Tranco використовували принаймні один трекер на основі CNAME.

Знижка на довіру до URL-адрес

Методи обману CNAME передбачають маніпулювання URL-адресами, які беруть участь у процесі розміщення реклами. Будь-яка система блокування реклами, яка довіряє ланцюжку URL-адрес, буде піддана маніпуляціям і ухиленням. Тому WebGraph випадковим чином змінює надані URL-адреси в процесі (включаючи рядки запиту, кількість параметрів і назви параметрів), шукаючи шаблони використання, а не конкретні заборонені чи прийнятні URL-адреси.

Система має враховувати дві загальні конфігурації в архітектурі розміщення реклами: одна, коли хост безпосередньо вступає в змову з рекламодавцем; і другий (більш поширений) сценарій, коли рекламодавець надає обмежену співпрацю через необхідність захистити себе від маніпуляцій з боку своїх клієнтів.

У підходах на основі списків, включаючи AdGraph, успішне маніпулювання URL-адресою системою розміщення реклами є майже повною перемогою, приписуючи рекламі «місцеве» походження, а отже, уникаючи майже всіх спроб систематично блокувати рекламний вміст.

Що залишилося, шляхом підпису? Натомість WebGraph зосереджується на потребі рекламних систем обмінюватися інформацією за допомогою різноманітних напівзахищених засобів, таких як веб-трекери, зв’язок між iframe та веб-прослухувачами, які постійно опитують поточний стан сторінки хосту на предмет активності, яка має значення з точки зору веб-метрик для реклами. Така діяльність включає зберігання змінних у файлах cookie або локальному сховищі на основі HTML5.

WebGraph використовує вимірювання веб-конфіденційності Mozilla (OpenWPM framework), щоб відстежувати таку діяльність у Firefox. Він фіксує всю активність на рівні JavaScript, а також усі вихідні мережеві запити та відповіді на них на мережевому рівні.

Ця додаткова перевірка вводить нові межі «інформаційного потоку» в мережу графів, раніше запропоновану AdGraph, дозволяючи WebGraph чітко записувати та кількісно визначати шаблони обміну інформацією на основі локальної активності та незалежно від URL-адреси джерела та призначення для телеметрії чи інших видів внутрішнього зв’язку в системи розміщення реклами.

результати

Дослідники використовували розширену версію OpenWPM для систематичного сканування 10,000 100,000 веб-сайтів, взятих із 9,000 1 найпопулярніших сайтів Alexa, і випадкової вибірки з 100 XNUMX сайтів, упорядкованих між XNUMXk-XNUMXk, зберігаючи їх представлення на графіках перед передачею результатів у класифікатор дерева рішень, змодельований AdGraph. оригінальний дизайн і використання популярних списків фільтрів реклами як основної правди. Таким чином було створено набір даних для навчання основної моделі.

Система досягла результатів, порівнянних з AdGraph, з точністю 92.33%. Однак стійкість нової системи до опору суперництву підвищується від майже повного відсотка відмов для AdGraph до лише 8% сприйнятливості для WebGraph.

майбутні напрямки

У документі стверджується, що рекламним мережам знадобиться значно змінити архітектуру своїх систем, щоб уникнути виявлення підходу WebGraph, і припускає, що такі зміни вимагатимуть перегляду поточних продуманих довірчих відносин між сторонніми рекламодавцями та рекламодавцями. розміщення сайтів, на яких відображаються їхні оголошення.

У документі також зазначається, що WebGraph не враховує методи відстеження без збереження стану, такі як відбитки браузера (через елемент Canvas), які використовують API, які система наразі не контролює. Дослідники припускають, що WebGraph можна буде розширити в майбутньому, щоб враховувати також такі види взаємодій і значення локального зберігання.

Схожі теми:реклама дослідження

Вгору Далі

Основи управління вразливістю

Не пропустіть

Статистика ринку брандмауерів веб-додатків

Мартін Андерсон

Письменник про машинне навчання, штучний інтелект і великі дані.
Особистий сайт: martinanderson.ai
Контактна особа: [захищено електронною поштою]
Twitter: @manders_ai

Об'єднуйтесь.AI

Метод машинного навчання для блокування реклами на основі поведінки локального браузера

Кібербезпека