Securitate cibernetică
O metodă de învățare automată pentru a bloca reclame pe baza comportamentului browserului local

Cercetători din Elveția și SUA au conceput o nouă abordare de învățare automată pentru detectarea materialului publicitar de pe site-uri, bazată pe modul în care acest material interacționează cu browserul, mai degrabă decât prin analizarea conținutului sau a comportamentului de rețea – două abordări care s-au dovedit ineficiente pe termen lung în fața tehnicii de mascare CNAME (a se vedea mai jos).
Denominată WebGraph, cadrul utilizează o abordare de blocare a reclamelor bazată pe graf pentru a detecta conținutul promoțional prin concentrarea asupra unor activități esențiale ale publicității de rețea – inclusiv încercări de telemetrie și stocare locală a browserului – astfel încât singura tehnică de evaziune eficientă ar fi să nu se desfășoare aceste activități.
Deși abordările anterioare au obținut rate de detectare ușor mai mari decât WebGraph, toate sunt predispuse la tehnici de evaziune, în timp ce WebGraph poate atinge 100% integritate în fața răspunsurilor adverse, inclusiv răspunsuri mai sofisticate ipotetice care pot apărea în fața acestei noi metode de blocare a reclamelor.
Articolul este condus de doi cercetători de la Institutul Federal Elvețian de Tehnologie, în colaborare cu cercetători de la Universitatea din California, Davis și Universitatea din Iowa.
Dincolo de AdGraph
Lucrarea este o continuare a unei inițiative de cercetare din 2020 cu browserul Brave, numită AdGraph, care a implicat doi dintre cercetătorii din noul articol.

Compararea AdGraph vs. WebGraph, cu linii punctate care reprezintă inovațiile arhitecturale față de abordarea anterioară. Sursă: https://arxiv.org/pdf/2107.11309.pdf
AdGraph se bazează pe caracteristici (de conținut) derivate din analiza URL-urilor, ca o cheie pentru detectarea materialului comercial. Cu toate acestea, aceste caracteristici reprezintă un singur punct potențial de eșec pentru adversarii care încearcă să detecteze prezența sistemelor de detectare a reclamelor și să formuleze metode pentru a le ocoli. Această dependență de proprietăți de conținut face ca AdGraph să fie esențialmente o versiune mecanizată a abordărilor bazate pe liste de filtre create manual, împărtășind slăbiciunile acestora.
Mascare CNAME
Materialul provenit de pe domeniul propriu al unui site web cade în categoria “de încredere”, în măsura în care domeniul însuși este de încredere. Pentru un site web cu autoritate ridicată, există un premiu valoros pentru a rula campanii publicitare care prezintă material care pare a fi găzduit de site-ul de autoritate însuși, deoarece o astfel de publicitate este imună la liste de filtre de blocare a reclamelor și chiar la abordarea AdGraph din 2020.
Cu toate acestea, campaniile personalizate sunt dificil de negociat, scumpe de implementat și contrar principiilor de bază ale modelului de publicitate de rețea dezvoltat în ultimii 25 de ani, în care o platformă terță parte inserează cod direct în site-ul gazdă, de obicei “licitând” slotul publicitar în microsecunde pe baza dorinței cheie și a altor factori.
Deoarece aproape toate sistemele de blocare a reclamelor se bazează pe material terță parte din paginile web (adică elemente care sunt găzduite pe domenii “străine”), advertiserii au luptat înapoi cu tehnici de mascare CNAME în ultimii cinci ani. Mascarea CNAME înșeală urmăritorii să creadă că un subdomeniu al site-ului gazdă (de exemplu, informații.example.com în loc de example.com) este un adjunct real al site-ului, când, de fapt, este un mecanism de servire a reclamelor proxy aranjat cu furnizori de publicitate terți.
În martie 2021, un studiu a arătat că incidentele de mascare CNAME au crescut cu 22% între 2018 și 2020, cu aproape 10% din site-urile Tranco din top 10.000 utilizând cel puțin un urmăritor bazat pe CNAME până în octombrie 2020.
Renunțarea la încrederea în URL-uri
Tehnicile de mascare CNAME implică manipularea URL-urilor implicate în procesul de servire a reclamelor. Orice sistem de blocare a reclamelor care se bazează pe lanțul de URL-uri va fi supus manipulării și evaziunii. Prin urmare, WebGraph schimbă aleatoriu URL-urile furnizate într-un proces (inclusiv șiruri de interogare, număr de parametri și nume de parametri), căutând modele de utilizare mai degrabă decât URL-uri specifice interzise sau acceptate.
Sistemul trebuie să ia în considerare două configurații comune într-o arhitectură de servire a reclamelor: una, în care gazda colaborează direct cu advertiserul; și o a doua (mai frecventă) scenariu în care advertiserul oferă o cooperare limitată din cauza nevoii de a se proteja împotriva manipulării de către clienții săi.
În abordările bazate pe liste, inclusiv AdGraph, manipularea cu succes a URL-urilor de către sistemul de servire a reclamelor este aproape o victorie completă, atribuind “proveniență locală” reclamei și, prin urmare, evitând aproape toate încercările de a bloca sistematic conținutul publicitar.
Ce rămâne, în ceea ce privește semnătura? WebGraph se concentrează în schimb pe nevoia sistemelor de publicitate de a partaja informații prin diverse mijloace semi-ascunse, cum ar fi urmăritorii web, comunicări între iframes și “ascultători” web, care sondează constant starea live a paginii gazdă pentru activități care sunt semnificative în termeni de metrici web pentru reclamă. O astfel de activitate include stocarea variabilelor în cookie-uri sau stocare locală HTML5.
WebGraph utilizează cadrul de măsurare a confidențialității web Mozilla (OpenWPM) pentru a urmări o astfel de activitate în Firefox. Acesta capturează toate activitățile la nivelul stratului JavaScript și toate cererile de rețea ieșite și răspunsurile lor, la nivelul stratului de rețea.
Această examinare suplimentară introduce noi “muchii de flux de informații” în rețeaua grafică propusă anterior de AdGraph, permițând WebGraph să înregistreze și să cuantifice explicit modelele de partajare a informațiilor pe baza activității locale și indiferent de URL-urile de origine și destinație pentru telemetrie sau alte tipuri de comunicări internecine în sistemele de servire a reclamelor.
Rezultate
Cercetătorii au utilizat o versiune extinsă a OpenWPM pentru a crawla sistematic 10.000 de site-uri web luate din top 100.000 de site-uri Alexa și un eșantion aleatoriu de 9.000 de site-uri clasate între 1.000-100.000, stocând reprezentările grafice înainte de a le transmite unui clasificator de arbore de decizie modelat după designul original al AdGraph și utilizând liste de filtre de reclame populare ca adevăr de referință. În acest fel, a fost construit un set de date pentru antrenarea modelului de bază.
Sistemul a obținut rezultate comparabile cu AdGraph, cu o acuratețe de 92,33%. Cu toate acestea, reziliența noului sistem la rezistența adversă crește de la o rată de eșec aproape completă pentru AdGraph la doar 8% susceptibilitate sub WebGraph.
Direcții viitoare
Articolul susține că rețelele de publicitate ar trebui să-și reorganizeze semnificativ sistemele pentru a evita detectarea în fața abordării WebGraph și sugerează că astfel de schimbări ar necesita o revizuire a relației de încredere actuală între advertiserii terți și site-urile gazdă pe care apar reclamele lor.
Articolul notează, de asemenea, că WebGraph nu ia în considerare tehnici de urmărire fără stare, cum ar fi amprentarea browserului (prin elementul Canvas), care utilizează API-uri pe care sistemul nu le monitorizează în prezent. Cercetătorii sugerează că WebGraph poate fi extins în viitor pentru a lua în considerare și aceste tipuri de interacțiuni și indicatori de stocare locală.












