Kybernetická bezpečnost

Metoda strojového učení pro blokování reklam na základě místního chování prohlížeče

Published July 26, 2021

Updated April 28, 2026

Martin Anderson

Výzkumníci ve Švýcarsku a USA vytvořili novou metodu strojového učení pro detekci reklamního materiálu na webových stránkách, která je založena na způsobu, jakým takový materiál interaguje s prohlížečem, spíše než na analýze jeho obsahu nebo síťového chování – dvou přístupů, které se v dlouhodobém horizontu ukázaly jako neúčinné vzhledem k CNAME cloaking (viz níže).

Dubbed WebGraph, framework používá graf-založený AI přístup k blokování reklam, aby detekoval reklamní obsah soustředěním se na takové základní činnosti síťového reklamního systému – včetně pokusů o telemetrii a místního úložiště prohlížeče – že jediným účinným způsobem, jak se vyhnout detekci, by bylo nezúčastňovat se těchto aktivit.

Ačkoli předchozí přístupy dosáhly slightly vyšší detekční sazby než WebGraph, všechny jsou náchylné k únikovým technikám, zatímco WebGraph je schopen dosáhnout 100% integrity vzhledem k adversním odpovědím, včetně více sofistikovaných hypotetických odpovědí, které mohou vzniknout vzhledem k této novému metodě blokování reklam.

Článek je veden dvěma výzkumníky ze Švýcarského federálního technologického institutu, ve spolupráci s výzkumníky z University of California, Davis a University of Iowa.

Beyond AdGraph

Práce je rozvojem výzkumné iniciativy z roku 2020 s prohlížečem Brave nazvanou AdGraph, která zahrnovala dva z výzkumníků z nového článku.

Porovnání AdGraph vs. WebGraph, s čárkovanými čarami reprezentujícími architektonické inovace předchozího přístupu. Zdroj: https://arxiv.org/pdf/2107.11309.pdf

AdGraph spoléhá na (reklamní) obsah funkce, odvozené z analýzy URL, jako klíč k detekci komerčního materiálu. Nicméně, tyto funkce představují jeden potenciální bod selhání pro adversáře, kteří se snaží detekovat přítomnost systémů pro detekci reklam, a formulovat metody, jak je obejít. Tato závislost na obsahu vlastnostech dělá AdGraph vlastně mechanizovaným verzí manuálně kurátorovaných seznamů založených na filtrech, sdílejících jejich slabosti.

CNAME Cloaking

Materiál pocházející z vlastního domény webové stránky spadá do ‘důvěryhodné’ kategorie, pokud je doména sama důvěryhodná. Pro autoritativní webovou stránku je zde vysoká hodnota pro běh reklamních kampaní, které zahrnují materiál, který zdá se být hostován autoritativní stránkou samotnou, protože taková reklama je imunní vůči filtrování založenému na seznamu blokování reklam a dokonce i vůči přístupu AdGraph z roku 2020.

Nicméně, přizpůsobené kampaně jsou obtížné vyjednat, drahé na implementaci a jdou proti základním principům síťového reklamního modelu vyvinutého za posledních 25 let, kde třetí strana vkládá kód přímo do hostitelské stránky, obvykle ‘aukční’ reklamní slot v mikrosekundách na základě klíčového slova a různých dalších faktorů.

Pоскольку téměř všechny systémy pro blokování reklam se zaměřují na třetích stranách materiál na webových stránkách (tj. prvky, které jsou hostovány na ‘cizích’ doménách), inzerenti bojují zpět s CNAME cloaking technikami za posledních pět let. CNAME cloaking klame trackery do víry, že subdoména hostitelské stránky (tj. information.example.com místo example.com) je skutečným doplňkem stránky, když ve skutečnosti je to proxy reklamní mechanismus dohodnutý s třetími stranami poskytujícími reklamu.

V březnu 2021 jedna studie odkryla, že incidenty CNAME cloaking se zvýšily o 22% mezi lety 2018 a 2020, s téměř 10% Tranco’s top 10 000 webových stránek, které používaly alespoň jeden CNAME-založený tracker do října 2020.

Discounting Trust in URLs

CNAME klamavé techniky zahrnují manipulaci s URL, které se účastní procesu podávání reklam. Jakýkoli systém pro blokování reklam, který důvěřuje řetězci URL, bude podléhat manipulaci a úniku. Proto WebGraph náhodně mění dodané URL v procesu (včetně řetězců dotazů, počtu parametrů a názvů parametrů), hledá vzorce použití spíše než konkrétní zakázané nebo přijaté URL.

Systém musí zohlednit dvě běžné konfigurace v reklamním architektuře: jednu, kde hostitel spolupracuje přímo s inzerentem; a druhou (více obvyklou) scénář, kde inzerent poskytuje omezenou spolupráci kvůli potřebě chránit se proti manipulaci ze strany svých klientů.

V seznam-založených přístupech, včetně AdGraph, úspěšná manipulace URL reklamním systémem je téměř kompletní vítězství, přiřazující ‘místní’ původ reklamě a tím unikající téměř všem pokusům systematicky blokovat reklamní obsah.

Co zbývá, co se týče podpisu? WebGraph se zaměřuje místo toho na potřebu reklamních systémů sdílet informace různými semi-obfuscated prostředky, jako jsou webové trackery, komunikace mezi iframy a webovými ‘posluchači’, které jsou neustále dotazují aktuální stav hostitelské stránky pro aktivitu, která je významná z hlediska webových metrik pro reklamu. Taková aktivita zahrnuje uložení proměnných v souborech cookie nebo HTML5-založené místním úložišti.

WebGraph používá Mozilla’s Web Privacy Measurement (OpenWPM framework) pro sledování takové aktivity v prohlížeči Firefox. Zachycuje veškerou aktivitu na úrovni JavaScriptu a všechny odchozí síťové požadavky a jejich odpovědi na síťové úrovni.

Tato dodatečná kontrola zavádí nové ‘informační tok’ hrany do grafu sítě dříve navržené AdGraph, umožňující WebGraph explicitně zaznamenat a kvantifikovat vzorce sdílení informací založené na místních aktivitách, a bez ohledu na původ a cílové URL pro telemetrii nebo jiné druhy interních komunikací v reklamních systémech.

Results

Výzkumníci použili prodlouženou verzi OpenWPM pro systematické procházení 10 000 webových stránek z Alexa top 100 000 stránek a náhodného vzorku 9 000 stránek, které seřadily mezi 1k-100k, ukládání jejich grafických reprezentací předtím, než výsledky předaly rozhodovacímu stromu klasifikátoru modelovanému podle původního designu AdGraph, a používajícího populární seznamy filtrů jako základnu pro truth. Tímto způsobem byl vytvořen dataset pro školení jádra modelu.

Systém dosáhl srovnatelných výsledků s AdGraph, s 92,33% přesností. Nicméně, odolnost nového systému vůči adversním útokům vzrostla z téměř kompletního selhání u AdGraph na pouhých 8% náchylnosti u WebGraph.

Future Directions

Článek tvrdí, že reklamní sítě by musely podstatně re-architektovat své systémy, aby unikly detekci vzhledem k přístupu WebGraph, a naznačuje, že takové změny by vyžadovaly přehodnocení současné důvěryhodné vztahu mezi třetími stranami inzerenty a hostitelskými stránkami, na kterých se jejich reklamy objevují.

Článek také poznamenává, že WebGraph nezohledňuje stateless sledovací techniky, jako je například sledování prohlížeče (pomocí prvku Canvas), které využívají API, které systém目前 nekontroluje. Výzkumníci navrhují, že WebGraph lze v budoucnu rozšířit, aby zohledňoval i tyto druhy interakcí a místních úložišť signifikátorů.