Connect with us

Метод машинного обучения для блокировки рекламы на основе локального поведения браузера

Кибербезопасность

Метод машинного обучения для блокировки рекламы на основе локального поведения браузера

mm

Исследователи в Швейцарии и США разработали новый подход машинного обучения для обнаружения рекламного материала на сайте, основанный на том, как такой материал взаимодействует с браузером, а не путем анализа его содержания или сетевого поведения – два подхода, которые оказались неэффективными в долгосрочной перспективе перед лицом CNAME маскировки (см. ниже).

Называемый WebGraph, этот каркас использует граф-основанный подход ИИ для блокировки рекламы, чтобы обнаружить промоциональный контент, сосредоточившись на таких важных действиях сетевой рекламы – включая попытки телеметрии и локального хранения браузера – что единственная эффективная техника уклонения будет заключаться в том, чтобы не проводить эти действия.

Хотя предыдущие подходы достигли немного более высоких показателей обнаружения, чем WebGraph, все они подвержены уклончивым техникам, тогда как WebGraph может подойти к 100% целостности перед лицом враждебных ответов, включая более сложные гипотетические ответы, которые могут возникнуть перед лицом этого нового метода блокировки рекламы.

Статья возглавляется двумя исследователями из Швейцарского федерального технологического института, в сотрудничестве с исследователями из Университета Калифорнии, Дэвис и Университета Айовы.

За пределами AdGraph

Эта работа является развитием исследовательской инициативы 2020 года с браузером Brave под названием AdGraph, в которой участвовали два исследователя из новой статьи.

Сравнение AdGraph и WebGraph, с пунктирными линиями, представляющими архитектурные инновации предыдущего подхода. Источник: https://arxiv.org/pdf/2107.11309.pdf

Сравнение AdGraph и WebGraph, с пунктирными линиями, представляющими архитектурные инновации предыдущего подхода. Источник: https://arxiv.org/pdf/2107.11309.pdf

AdGraph полагается на (рекламный) контент фичи, полученные из анализа URL-адресов, как ключ к обнаружению коммерческого материала. Однако эти фичи представляют собой единственную потенциальную точку отказа для противников, стремящихся обнаружить присутствие систем обнаружения рекламы, и разработки методов для их обхода. Эта зависимость от свойств контента делает AdGraph по сути механизированной версией подходов, основанных на вручную курируемых фильтровых списках, разделяя их слабости.

CNAME Маскировка

Материал, происходящий из собственного домена сайта, попадает в категорию “доверенный”, поскольку сам домен считается доверенным. Для сайта с высоким авторитетом существует ценная премия за проведение рекламных кампаний, которые содержат материал, кажущийся размещенным на самом авторитетном сайте, поскольку такая реклама иммунна к фильтр-основанным системам блокировки рекламы, и даже к подходу AdGraph 2020 года.

Однако настраиваемые кампании трудно согласовать, дороги в реализации и противоречат основным принципам модели сетевой рекламы, разработанной за последние 25 лет, где третья сторона вставляет код напрямую в хост-сайт, обычно “аукционируя” рекламное место за микросекунды на основе желательности ключевых слов и других факторов.

Поскольку почти все системы блокировки рекламы полагаются на第三их материал в веб-страницах (т.е. элементы, размещенные на “чужих” доменах), рекламодатели борются с техниками CNAME маскировки за последние пять лет. CNAME маскировка обманывает отслеживающие системы, заставляя их верить, что поддомен хост-сайта (т.е. информация.example.com вместо example.com) является настоящим дополнением к сайту, когда на самом деле это прокси-ад-сервер, организованный с третьими сторонами рекламными провайдерами.

В марте 2021 года одно исследование выявило, что случаи CNAME маскировки увеличились на 22% между 2018 и 2020 годами, и почти 10% из 10 000 лучших сайтов Tranco использовали хотя бы один CNAME-трекер к октябрю 2020 года.

Исключение доверия к URL

Техники CNAME обмана включают манипуляцию URL-адресами, участвующими в процессе обслуживания рекламы. Любая система блокировки рекламы, которая доверяет цепочке URL, будет подвержена манипуляции и уклонению. Поэтому WebGraph случайным образом меняет предоставленные URL-адреса в процессе (включая строку запроса, количество параметров и имена параметров), ищет закономерности использования, а не конкретные запрещенные или принятые URL-адреса.

Система должна учитывать два распространенных конфигурации в архитектуре обслуживания рекламы: одну, где хост напрямую сотрудничает с рекламодателем; и вторую (более распространенную) сцену, где рекламодатель предоставляет ограниченное сотрудничество из-за необходимости защиты себя от манипуляции клиентами.

В подходах, основанных на списках, включая AdGraph, успешная манипуляция URL-адресами рекламной системой почти является полной победой, придавая “местное” происхождение рекламе и тем самым уклоняясь от почти всех попыток систематически блокировать рекламный контент.

Что остается в виде сигнатуры? WebGraph фокусируется вместо этого на необходимости рекламных систем делиться информацией различными полу-замаскированными средствами, такими как веб-трекеры, коммуникации между iframe и веб-“слушателями”, которые постоянно опрашивают текущее состояние хост-страницы для активности, имеющей значение в терминах веб-метрик для рекламы. Такая активность включает хранение переменных в cookie или HTML5-локальном хранилище.

WebGraph использует каркас Mozilla Web Privacy Measurement (OpenWPM) для отслеживания такой активности в Firefox. Он захватывает всю активность на уровне JavaScript и все исходящие сетевые запросы и их ответы на уровне сети.

Эта дополнительная проверка вводит новые “потоки информации” в граф-сеть, ранее предложенную AdGraph, позволяя WebGraph явно записывать и количественно оценивать закономерности обмена информацией на основе локальной активности, и независимо от происхождения и назначения URL-адресов для телеметрии или других видов внутренних коммуникаций в системах обслуживания рекламы.

Результаты

Исследователи использовали расширенную версию OpenWPM для систематического обхода 10 000 веб-сайтов, взятых из 100 000 лучших сайтов Alexa, и случайной выборки из 9 000 сайтов, ранжированных между 1к-100к, храня их графические представления перед передачей результатов классификатору дерева решений, смоделированному по оригинальному дизайну AdGraph, и используя популярные фильтровые списки как эталонную истину. Таким образом, был построен набор данных для обучения основной модели.

Система достигла сопоставимых результатов с AdGraph, с точностью 92,33%. Однако устойчивость новой системы к враждебному сопротивлению возрастает от почти полной скорости отказа для AdGraph до всего 8% уязвимости под WebGraph.

Направления будущих исследований

Статья утверждает, что рекламные сети должны значительно перестроить свои системы, чтобы избежать обнаружения перед лицом подхода WebGraph, и предполагает, что такие изменения потребуют пересмотра текущих осторожных доверительных отношений между третьими сторонами рекламодателей и хост-сайтами, на которых появляются их рекламные объявления.

Статья также отмечает, что WebGraph не учитывает безсостояние техники отслеживания, такие как браузерная отпечаток (через элемент Canvas), которые используют API, которые система в настоящее время не отслеживает. Исследователи предлагают, что WebGraph может быть расширен в будущем, чтобы учесть также эти виды взаимодействий и локальных хранилищ сигналов.

Писатель о машинном обучении, специалист в области синтеза человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.