Кібербезпека

Боротьба з блокуванням реклами за допомогою машинного навчання

опублікований

3 років тому

Жовтень 4, 2021

Нова дослідницька ініціатива зі США та Пакистану розробила заснований на машинному навчанні метод ідентифікації веб-сайтів, стійких до блокування реклами та інших технологій збереження конфіденційності, а також деконструкції методів, які такі сайти використовують для «змішування» походження реклами та реальний вміст, тому вміст не можна переглядати, якщо рекламу заблоковано.

Нові технології блокування реклами, розроблені на основі отриманих результатів, можуть покласти край інцидентам, коли центральний вміст статті не видно, коли рекламу заблоковано, забезпечуючи автоматичний метод розділення ресурсів реклами та скриптів, а не ручний підхід, який зараз використовується популярними платформами блокування реклами. .

Автори провели масштабне дослідження «змішаних ресурсів» на 100,000 17 веб-сайтах, виявивши, що 48% доменів, 6% імен хостів, 9% скриптів і XNUMX% методів доставки вмісту навмисно поєднують функції відстеження (тобто реклами). з процесами, які забезпечують реальний вміст. У таких випадках вміст статей зникне для користувачів, які використовують програмне забезпечення для блокування реклами чи відстеження, що змушує користувача вимкнути ці заходи для перегляду вмісту.

У більшості випадків це означає не лише те, що рекламу знову буде видно, а й те, що користувачі будуть змушені повернутися до міждоменних систем відстеження, які розпалили активістів конфіденційності в останні роки.

Нове дослідження пропонує систему, яка здатна відокремлювати компоненти цих «змішаних» веб-ресурсів із точністю 98%, що дає можливість рішенням для блокування реклами та захисту від відстеження роз’єднати потоки в наступних ітераціях програмного забезпечення та знову ввімкнути доступ до вмісту на заблокованих сторінках.

Команда новий папір має титул TrackerSift: розплутування змішаних трекінгових і функціональних веб-ресурсів, і походить від дослідників Virginia Tech і UoC Davis у США, а також FAST NUCES і Лахорського університету наук управління (LUMS) у Пакистані.

Війни Adblock

Системи блокування реклами загалом покладаються на те, що рекламний вміст на веб-сторінці має надходити з певних виділених доменів – як правило, це рекламні платформи з доменними іменами та/або IP-адресами, які можна класифікувати як «рекламу третіх сторін», що дозволяє розробляти списки блокувань, які не відображатимуть вміст із цих джерел усередині веб-сторінки.

Крім того, назви рекламних ресурсів, наприклад сценаріїв, можна додавати до списків блокування, щоб вони не запускалися навіть у випадках, коли їх походження було навмисно приховано. Схеми іменування таких систематично генерованих сценаріїв часто узгоджені, що дозволяє розпізнавати та блокувати списки.

Оскільки рекламне оголошення на веб-сторінці часто вибирається в останні кілька мілісекунд завантаження сторінки через динамічні аукціонні процеси (на основі ключових слів, знайдених на сторінці, цільових показників кампанії та багатьох інших факторів), неможливо зберігати рекламу в домені хосту, що теоретично заважатиме блокувальникам реклами приховувати комерційний вміст.

Все частіше веб-сайти борються з блокуванням реклами Маскування CNAME – використання субдоменів «автентичного» домену як проксі-серверів рекламних серверів (тобто content.example.com показуватиме рекламу на example.com, навіть якщо субдомен не має іншої мети, окрім показу реклами, і не підтримується веб-сайт хоста, а радше його рекламодавці).

Однак цей метод можна кількісно оцінити та заблокувати, виділивши вміст субдомену як рекламу, або використовуючи методи мережевого аналізу для виявлення аномального та нерегулярного зв’язку субдомену з основним доменом.

TrackerSift

Стаття авторів пропонує TrackerSift, платформу для аналізу мережевих ресурсів, отриманих веб-сайтами, а потім перекласифікації змішаних ресурсів на «вміст» і «рекламу». На найзагальнішому рівні аналізу TrackerSift записує основні мережеві запити на ресурси, такі як рекламний вміст, отриманий із мережі доставки вмісту (CDN) або рекламної платформи; але потім він докладається до вмісту отриманих ресурсів, виконуючи аналіз на рівні коду та розрізняючи функції різних типів кодових викликів і процедур.

Ієрархія аналізу TrackerSift, від відстеження ресурсів (червоний) до необхідних функціональних ресурсів (зелений). Змішані ресурси, які можуть призвести до обфускації контенту (жовтий), підлягають більш глибокому аналізу. Джерело: https://arxiv.org/pdf/2108.13923.pdf

дані

Щоб отримати набір даних, що підтримує TrackerSift, автори протралили 100,000 2018 випадково вибраних веб-сайтів із XNUMX року. Список наймільйонніших компаній Tranco. Селен для виконання завдання використовувалася автоматизація браузера разом із Google Chrome.

Мережа веб-сканування базувалася на університетських сайтах у Північній Америці та складалася з 13-вузлового кластера зі 112 ядрами, 52 терабайтами пам’яті та 823 гігабайтами оперативної оперативної пам’яті у всій системі.

Кожен вузол базувався в контейнері Docker і був призначений для сканування підмножини зі 100,000 XNUMX вибраних веб-сторінок із програмними паузами для стабільності та повним видаленням усіх файлів cookie та ідентифікаторів під час завантаження нового домену, щоб гарантувати, що попередні сеанси та стани не впливають на читабельність наступного домену.

Змішані сценарії

Результати показують широке використання комплектація сценаріїв, де рекламні платформи та хости вмісту навмисно об’єднують сценарії на основі вмісту та реклами в «uberscripts», які перешкоджають відображенню вмісту, якщо їх заблокувати. Для прикладу автори зазначають, що pressl.co обслуговує веб-скрипт, об’єднаний через WebPack Платформа конкатенатора JavaScript, яка містить піксель відстеження Facebook, а також код, який дозволяє відтворювати фактичний вміст.

Крім того, у документі зазначається, що ряд доменів готові вбудовувати сценарії безпосередньо в код веб-сторінок, що робить необхідним, щоб інфраструктура блокування реклами вирішувала функціональні можливості сценаріїв, а не просто перешкоджала завантаженню сценарію на основі його третього URL джерела партії.

Завдяки локалізації цих методів відкривається шлях до систематичного поділу такого коду на категорії вмісту та реклами, а також потенційного відновлення відображення вмісту в середовищах, заблокованих рекламою.

Хоча існуючі рішення для блокування реклами, такі як NoScript, AdGuard, uBlock Origin і Firefox Smartblock, використовують сурогатні сценарії, які розбирають такі об’єднані сценарії на сценарії компонентів, які можна блокувати, вони залежать від ручне переписування сценаріїв, що призвело до триваючої холодної війни між блокувальниками та техніками, які постійно їх зламують. Навпаки, TrackerSift пропонує потенційний програмний метод для декомпозиції змішаного вмісту.

Схожі теми:реклама media дослідження

Вгору Далі

Deepfaked Voice дозволив пограбувати банк на 35 мільйонів доларів у 2020 році

Не пропустіть

Аналіз корпоративних VPN-шлюзів

Мартін Андерсон

Письменник про машинне навчання, штучний інтелект і великі дані.
Особистий сайт: martinanderson.ai
Контактна особа: [захищено електронною поштою]
Twitter: @manders_ai

Об'єднуйтесь.AI

Боротьба з блокуванням реклами за допомогою машинного навчання

Кібербезпека