Информационная безопасность

Метод машинного обучения для блокировки рекламы на основе поведения локального браузера

опубликованный Июль 26, 2021

Мартин Андерсон

Исследователи из Швейцарии и США разработали новый подход к обнаружению рекламных материалов на веб-сайтах с помощью машинного обучения, основанный на том, как такой материал взаимодействует с браузером, а не на анализе его содержимого или поведения в сети — два подхода, которые в долгосрочной перспективе оказались неэффективными из-за маскировки CNAME (см. ниже).

дублированный Вебграф, фреймворк использует графикоснованный на искусственном интеллекте подход к блокировке рекламы для обнаружения рекламного контента путем сосредоточения внимания на таких важных действиях сетевой рекламы, включая попытки телеметрии и локальное хранилище браузера, что единственным эффективным методом уклонения будет отказ от выполнения этих действий.

Несмотря на то, что предыдущие подходы достигли несколько более высоких показателей обнаружения, чем WebGraph, все они склонны к уклончивым методам, в то время как WebGraph способен приблизиться к 100% целостности перед лицом противоборствующих ответов, включая более сложные гипотетические ответы, которые могут появиться перед лицом этого. новый метод блокировки рекламы.

Документ подготовлен двумя исследователями из Швейцарского федерального технологического института совместно с исследователями из Калифорнийского университета в Дэвисе и Университета Айовы.

Помимо AdGraph

Работа является развитием исследовательской инициативы 2020 года с браузером Brave под названием Рекламный график, в котором участвовали два исследователя из новой статьи.

Сравнение AdGraph и WebGraph с пунктирными линиями, представляющими архитектурные инновации предыдущего подхода. Источник: https://arxiv.org/pdf/2107.11309.pdf

AdGraph опирается на (рекламный) контент функции, полученный в результате анализа URL-адресов, как ключ к обнаружению коммерческих материалов. Однако эти функции представляют собой единую потенциальную точку отказа для злоумышленников, стремящихся обнаружить наличие систем обнаружения рекламы и разрабатывающих методы их устранения. Эта зависимость от содержания свойствами делает AdGraph, по сути, механизированной версией подходов на основе списков фильтров, созданных вручную, с общими их недостатками.

Маскировка CNAME

Материалы, размещенные на домене веб-сайта, попадают в категорию «доверенных», если сам домен является доверенным. Для авторитетного веб-сайта проведение рекламных кампаний с использованием материалов, которые… появляется размещаться на самом авторитетном сайте, поскольку такая реклама невосприимчива к спискам блокировки рекламы на основе фильтров и даже к подходу AdGraph 2020 года.

Однако индивидуальные кампании сложно согласовывать, они дороги в реализации и противоречат основным принципам сетевой рекламной модели, разработанной за последние 25 лет, когда сторонняя платформа вставляет код непосредственно на сайт-хостинг, обычно «выставляя на аукцион» рекламное место за микросекунды на основе привлекательности ключевого слова и ряда других факторов.

Поскольку почти все системы блокировки рекламы используют сторонние материалы на веб-страницах (т.е. элементы, размещенные на «чужих» доменах), рекламодатели борются с этим с помощью Методы маскировки CNAME за последние пять лет. Маскировка CNAME обманывает трекеров, заставляя их поверить в то, что субдомен хост-сайта (например, information.example.com вместо example.com) является подлинным дополнением к сайту, когда на самом деле это механизм показа рекламы через прокси, организованный с помощью сторонней рекламы. провайдеры.

В марте 2021 года одно исследование показало, количество случаев маскировки CNAME увеличилось на 22% в период с 2018 по 2020 год, причем к октябрю 10 года почти 10,000% из 2020 XNUMX крупнейших веб-сайтов Tranco использовали как минимум один трекер на основе CNAME.

Снижение доверия к URL-адресам

Методы обмана CNAME включают манипулирование URL-адресами, участвующими в процессе показа рекламы. Любая система блокировки рекламы, которая доверяет цепочке URL-адресов, будет подвержена манипуляциям и уклонениям. Поэтому WebGraph случайным образом изменяет предоставленные URL-адреса в процессе (включая строки запроса, количество параметров и имена параметров), ища шаблоны использования, а не конкретные запрещенные или принятые URL-адреса.

Система должна учитывать две распространенные конфигурации в архитектуре показа рекламы: первая, когда хост напрямую вступает в сговор с рекламодателем; и второй (более распространенный) сценарий, когда рекламодатель обеспечивает ограниченное сотрудничество из-за необходимости защитить себя от манипуляций со стороны своих клиентов.

В подходах на основе списков, включая AdGraph, успешная манипуляция URL-адресами со стороны системы показа рекламы является практически полной победой, приписывающей рекламе «местное» происхождение и, следовательно, уклоняющейся от практически любых попыток систематически блокировать рекламный контент.

Что же остаётся, если говорить о подписи? WebGraph фокусируется на потребности рекламных систем обмениваться информацией посредством различных полузавуалированных средств, таких как веб-трекеры, взаимодействие между фреймами и веб-«слушателями», которые постоянно опрашивают текущее состояние страницы хоста на предмет активности, значимой с точки зрения веб-метрик рекламы. Такая активность включает в себя хранение переменных в файлах cookie или локальном хранилище на базе HTML5.

WebGraph использует систему измерения конфиденциальности веб-сайтов Mozilla (OpenWPM framework) для отслеживания такой активности в Firefox. Он фиксирует всю активность на уровне JavaScript, а также все исходящие сетевые запросы и их ответы на сетевом уровне.

Этот дополнительный контроль вводит новые грани «информационного потока» в графовую сеть, ранее предложенную AdGraph, позволяя WebGraph явно регистрировать и количественно оценивать закономерности обмена информацией на основе локальной активности и независимо от исходных и целевых URL-адресов для телеметрии или других видов межсетевых коммуникаций в системах показа рекламы.

Результаты

Исследователи использовали расширенную версию OpenWPM для систематического сканирования 10,000 100,000 веб-сайтов из списка 9,000 1 лучших сайтов Alexa и случайной выборки из 100 XNUMX сайтов, ранжированных от XNUMX до XNUMX XNUMX, сохраняя их графические представления перед передачей результатов в классификатор дерева решений, созданный по образцу оригинального дизайна AdGraph, и используя популярные списки рекламных фильтров в качестве исходных данных. Таким образом, был сформирован набор данных для обучения основной модели.

Система достигла результатов, сопоставимых с AdGraph, с точностью 92.33%. Однако устойчивость новой системы к сопротивлению со стороны злоумышленников возрастает с практически полного отказа для AdGraph до всего лишь 8% уязвимости для WebGraph.

Будущие направления

В документе утверждается, что рекламным сетям потребуется значительно изменить архитектуру своих систем, чтобы избежать обнаружения в условиях подхода WebGraph, и предполагается, что такие изменения потребуют пересмотра существующих в настоящее время осмотрительных доверительных отношений между сторонними рекламодателями и рекламодателями. хост-сайты, на которых появляется их реклама.

В документе также отмечается, что WebGraph не учитывает методы отслеживания без сохранения состояния, такие как снятие отпечатков пальцев браузера (через элемент Canvas), которые используют API-интерфейсы, которые система в настоящее время не отслеживает. Исследователи предполагают, что в будущем WebGraph можно будет расширить, чтобы он также учитывал такие виды взаимодействий и признаки локального хранения.

Похожие темы:реклама исследованиями

Мартин Андерсон

Автор статей о машинном обучении, специалист по синтезу человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.
Личный сайт: Мартинандерсон.ай
Контактное лицо: [электронная почта защищена]
Твиттер: @manders_ai