Kyber ochrana

Metóda strojového učenia na blokovanie reklám na základe správania miestneho prehliadača

uverejnené

Pred 3 rokov

Júla 26, 2021

Výskumníci vo Švajčiarsku a USA navrhli nový prístup strojového učenia na zisťovanie reklamného materiálu na webových stránkach, ktorý je založený na spôsobe interakcie takéhoto materiálu s prehliadačom, a nie na analýze jeho obsahu alebo správania v sieti – dva prístupy, ktoré sa ukázali ako neúčinné v dlhodobo tvárou v tvár maskovaniu CNAME (pozri nižšie).

daboval WebGraph, rámec používa a grafprístup založený na umelej inteligencii na odhaľovanie propagačného obsahu sústredením sa na také základné činnosti sieťovej reklamy – vrátane pokusov o telemetriu a lokálneho ukladania v prehliadači – že jedinou účinnou technikou úniku by bolo nevykonávať tieto aktivity.

Hoci predchádzajúce prístupy dosiahli o niečo vyššiu mieru detekcie ako WebGraph, všetky sú náchylné na vyhýbavé techniky, zatiaľ čo WebGraph je schopný priblížiť sa k 100% integrite zoči-voči odporujúcim odpovediam, vrátane sofistikovanejších hypotetických odpovedí, ktoré sa môžu objaviť tvárou v tvár. nová metóda blokovania reklám.

Príspevok vedú dvaja výskumníci zo Švajčiarskeho federálneho technologického inštitútu v spolupráci s výskumníkmi z Kalifornskej univerzity v Davise a z University of Iowa.

Okrem AdGraph

Práca je vývojom z výskumnej iniciatívy z roku 2020 s prehliadačom Brave s názvom AdGraph, v ktorom vystupovali dvaja výskumníci z nového článku.

Porovnanie AdGraph vs. WebGraph s bodkovanými čiarami predstavujúcimi architektonické inovácie predchádzajúceho prístupu. Zdroj: https://arxiv.org/pdf/2107.11309.pdf

AdGraph sa spolieha na (reklamný) obsah Vlastnosti, odvodený z analýzy adries URL, ako kľúč k detekcii komerčného materiálu. Tieto vlastnosti však predstavujú jediný potenciálny bod zlyhania pre protivníkov, ktorí sa snažia odhaliť prítomnosť systémov na detekciu reklám a formulovať metódy, ako sa im vyhnúť. Toto spoliehanie sa na obsah vlastnosti robí AdGraph v podstate mechanizovanou verziou manuálne upravovaných prístupov založených na zoznamoch filtrov, ktoré zdieľajú ich slabé stránky.

CNAME maskovanie

Materiál pochádzajúci z vlastnej domény webovej lokality patrí do kategórie „dôveryhodných“, pokiaľ je dôveryhodná samotná doména. Pre web s vysokou autoritou je cennou prémiou prevádzkovanie reklamných kampaní, ktoré obsahujú materiál, ktorý objavia byť hostiteľom samotnej autoritnej stránky, pretože takáto reklama je imúnna voči zoznamom blokovania reklám založeným na filtroch a dokonca aj voči prístupu AdGraph 2020.

Vlastné kampane sa však ťažko vyjednávajú, sú drahé na implementáciu a sú v rozpore so základnými princípmi modelu sieťovej reklamy vyvinutého za posledných 25 rokov, kde platforma tretej strany vkladá kód priamo do hostiteľskej stránky, zvyčajne „aukcia“ reklamný priestor v mikrosekundách na základe vhodnosti kľúčového slova a rôznych iných faktorov.

Keďže takmer všetky systémy na blokovanie reklám používajú materiál tretích strán na webových stránkach (t. j. prvky, ktoré sú hosťované na „mimozemských“ doménach), inzerenti bojujú proti CNAME maskovacie techniky za posledných päť rokov. CNAME maskovanie klame sledovačov, aby uverili, že subdoména hostiteľskej lokality (tj information.example.com namiesto example.com) je skutočným doplnkom lokality, aj keď v skutočnosti ide o proxy mechanizmus na zobrazovanie reklám usporiadaný s reklamou tretej strany. poskytovateľov.

V marci 2021 jedna štúdia odhalil že incidenty maskovania CNAME sa medzi rokmi 22 a 2018 zvýšili o 2020 %, pričom takmer 10 % z 10,000 2020 najlepších webových stránok spoločnosti Tranco využívalo do októbra XNUMX minimálne jeden sledovač založený na CNAME.

Zníženie dôvery v adresy URL

Techniky klamania CNAME zahŕňajú manipuláciu s adresami URL zapojenými do procesu zobrazovania reklám. Akýkoľvek systém na blokovanie reklám, ktorý reťazcu adries URL dôveruje, bude vystavený manipulácii a obchádzaniu. WebGraph preto náhodne mení zadané adresy URL v procese (vrátane reťazcov dopytov, počtu parametrov a názvov parametrov), pričom hľadá skôr vzory použitia než konkrétne zakázané alebo akceptované adresy URL.

Systém musí brať do úvahy dve bežné konfigurácie v architektúre zobrazovania reklám: jednu, kde hostiteľ spolupracuje priamo s inzerentom; a druhý (bežnejší) scenár, kde inzerent poskytuje obmedzenú spoluprácu z dôvodu potreby chrániť sa pred manipuláciou zo strany svojich klientov.

V prístupoch založených na zoznamoch, vrátane AdGraph, je úspešná manipulácia s adresou URL systémom na zobrazovanie reklám takmer úplným víťazstvom, pripisujúc reklame „miestny“ pôvod, a preto sa vyhýba takmer všetkým pokusom o systematické blokovanie reklamného obsahu.

Čo zostalo, ako podpis? WebGraph sa namiesto toho zameriava na potrebu reklamných systémov zdieľať informácie rôznymi polozahmlenými prostriedkami, ako sú webové sledovače, komunikácia medzi prvkami iframe a webovými „poslucháčmi“, ktorí neustále zisťujú aktuálny stav hostiteľskej stránky na aktivitu, ktorá má zmysel. webových metrík pre reklamu. Takáto aktivita zahŕňa ukladanie premenných v súboroch cookie alebo lokálnom úložisku založenom na HTML5.

WebGraph používa Web Privacy Measurement od Mozilly (OpenWPM framework) na sledovanie takejto aktivity vo Firefoxe. Zachytáva všetku aktivitu na vrstve JavaScript a všetky odchádzajúce sieťové požiadavky a ich odpovede na sieťovej vrstve.

Táto dodatočná kontrola zavádza nové okraje „informačného toku“ do siete grafov, ktorú predtým navrhol AdGraph, čo umožňuje WebGraphu explicitne zaznamenávať a kvantifikovať vzorce zdieľania informácií na základe miestnej aktivity a bez ohľadu na pôvodnú a cieľovú adresu URL pre telemetriu alebo iné druhy vzájomnej komunikácie v systémy na zobrazovanie reklám.

výsledky

Výskumníci použili rozšírenú verziu OpenWPM na systematické prehľadávanie 10,000 100,000 webových stránok prevzatých z 9,000 1 najlepších stránok Alexa a náhodnú vzorku 100 XNUMX stránok zaradených medzi XNUMX XNUMX až XNUMX XNUMX, pričom uložili svoje grafické znázornenia pred odovzdaním výsledkov do klasifikátora rozhodovacieho stromu modelovaného na AdGraph. originálny dizajn a používanie populárnych zoznamov filtrov reklám ako základnej pravdy. Týmto spôsobom sa vytvoril súbor údajov na trénovanie základného modelu.

Systém dosiahol porovnateľné výsledky ako AdGraph s presnosťou 92.33 %. Odolnosť nového systému voči odporom protivníkov však stúpa z takmer úplnej miery zlyhania pre AdGraph na iba 8% náchylnosť pod WebGraph.

Budúce pokyny

Dokument tvrdí, že reklamné siete by museli predovšetkým prepracovať architektúru svojich systémov, aby sa vyhli odhaleniu zoči-voči prístupu WebGraph, a navrhuje, že takéto zmeny by si vyžiadali prehodnotenie aktuálne obozretného vzťahu dôvery medzi inzerentmi tretích strán a hostiteľské stránky, na ktorých sa zobrazujú ich reklamy.

Dokument tiež poznamenáva, že WebGraph nezohľadňuje bezstavové sledovacie techniky, ako je odtlačky prstov prehliadača (cez prvok Canvas), ktoré využívajú API, ktoré systém v súčasnosti nemonitoruje. Výskumníci naznačujú, že WebGraph môže byť v budúcnosti rozšírený tak, aby zohľadňoval aj tieto druhy interakcií a signifikantov lokálneho úložiska.

Súvisiace témy:reklama výskum

Nasledujúci

Základy riadenia zraniteľnosti

Nenechajte si ujsť

Pohľad na trh brány firewall webových aplikácií

Martin Anderson

Autor o strojovom učení, umelej inteligencii a veľkých dátach.
Osobná stránka: martinanderson.ai
Kontakt: [chránené e-mailom]
Twitter: @manders_ai

Spojte sa.AI

Metóda strojového učenia na blokovanie reklám na základe správania miestneho prehliadača

Kyber ochrana