Seguretat cibernètica

Un mètode d'aprenentatge automàtic per bloquejar anuncis basats en el comportament del navegador local

publicat

Fa anys 3

Juliol 26, 2021

Investigadors de Suïssa i dels Estats Units han ideat un nou enfocament d'aprenentatge automàtic per a la detecció de material publicitari de llocs web que es basa en la manera com aquest material interacciona amb el navegador, en lloc d'analitzar el seu contingut o el comportament de la xarxa, dos enfocaments que s'han demostrat ineficaços en el a llarg termini davant l'encobriment de CNAME (vegeu més avall).

Dubbed WebGraph, el marc utilitza a gràficEnfocament de bloqueig d'anuncis basat en IA per detectar contingut promocional concentrant-se en activitats tan essencials de publicitat en xarxa, com ara intents de telemetria i emmagatzematge local del navegador, que l'única tècnica d'evasió eficaç seria no dur a terme aquestes activitats.

Tot i que els enfocaments anteriors han aconseguit taxes de detecció lleugerament més altes que WebGraph, tots són propensos a tècniques evasives, mentre que WebGraph és capaç d'apropar-se al 100% d'integritat davant de respostes adversàries, incloses les hipòtesis de respostes més sofisticades que poden sorgir davant d'això. nou mètode de bloqueig d'anuncis.

El document està dirigit per dos investigadors de l'Institut Federal Suís de Tecnologia, en concert amb investigadors de la Universitat de Califòrnia, Davis i la Universitat d'Iowa.

Més enllà d'AdGraph

El treball és un desenvolupament d'una iniciativa de recerca del 2020 amb el navegador Brave anomenada AdGraph, que va comptar amb dos dels investigadors del nou article.

Comparació d'AdGraph amb WebGraph, amb línies de punts que representen les innovacions arquitectòniques de l'enfocament anterior. Font: https://arxiv.org/pdf/2107.11309.pdf

AdGraph es basa en el contingut (anunci). característiques, derivat de l'anàlisi d'URL, com a clau per a la detecció de material comercial. Tanmateix, aquestes característiques representen un únic punt potencial de fracàs per als adversaris que busquen detectar la presència de sistemes de detecció d'anuncis i formular mètodes per evitar-los. Aquesta dependència del contingut propietats fa d'AdGraph essencialment una versió mecanitzada d'enfocaments basats en llistes de filtres seleccionades manualment, que comparteixen els seus punts febles.

Encobriment de CNAME

El material provinent del domini propi d'un lloc web entra en una categoria de "confiança", en la mesura que el domini en si és de confiança. Per a un lloc web d'alta autoritat, hi ha una prima valuosa a l'hora d'executar campanyes publicitàries que inclouen material que apareix ser allotjat pel mateix lloc de l'autoritat, ja que aquesta publicitat és immune a les llistes de bloqueig d'anuncis basades en filtres i fins i tot a l'enfocament AdGraph 2020.

No obstant això, les campanyes personalitzades són difícils de negociar, costoses d'implementar i funcionen en contra dels principis bàsics del model de publicitat en xarxa desenvolupat durant els darrers 25 anys, on una plataforma de tercers insereix codi directament al lloc amfitrió, normalment "subhasta". l'espai publicitari en microsegons en funció de la conveniència de les paraules clau i altres factors.

Com que gairebé tots els sistemes de bloqueig d'anuncis es troben en material de tercers a les pàgines web (és a dir, elements allotjats en dominis "aliens"), els anunciants han estat lluitant amb Tècniques de ocultació CNAME durant els últims cinc anys. L'encubriment CNAME enganya els seguidors fent creure que un subdomini del lloc amfitrió (és a dir, information.example.com en lloc d'exemple.com) és un complement genuí del lloc, quan de fet és un mecanisme de publicació d'anuncis intermediari organitzat amb publicitat de tercers. proveïdors.

Al març de 2021 un estudi revelat que els incidents de ocultació de CNAME van augmentar un 22% entre el 2018 i el 2020, amb gairebé un 10% dels 10,000 llocs web principals de Tranco que empraven un mínim d'un rastrejador basat en CNAME a l'octubre del 2020.

Descompte de la confiança en els URL

Les tècniques d'engany CNAME impliquen la manipulació d'URL implicats en el procés de publicació d'anuncis. Qualsevol sistema de bloqueig d'anuncis que confiï en la cadena d'URL serà objecte de manipulació i evasió. Per tant, WebGraph canvia aleatòriament els URL subministrats en un procés (incloses les cadenes de consulta, el nombre de paràmetres i els noms dels paràmetres), buscant patrons d'ús en lloc d'URL específics prohibits o acceptats.

El sistema ha de tenir en compte dues configuracions comunes en una arquitectura de publicació d'anuncis: una, on l'amfitrió està en col·lusió directament amb l'anunciant; i un segon escenari (més comú) on l'anunciant ofereix una col·laboració limitada per la necessitat de protegir-se de la manipulació dels seus clients.

En els enfocaments basats en llistes, inclòs AdGraph, la manipulació d'URL amb èxit per part del sistema de publicació d'anuncis és gairebé una victòria completa, atribuint la procedència "local" a l'anunci i, per tant, evadir gairebé tots els intents de bloquejar sistemàticament el contingut publicitari.

Què queda, a manera de signatura? WebGraph se centra, en canvi, en la necessitat dels sistemes publicitaris de compartir informació per diversos mitjans semi-ofosquits, com ara rastrejadors web, comunicacions entre iframes i "escoltes" web, que sondegen constantment l'estat en directe de la pàgina d'amfitrió per a una activitat significativa en termes. de mètriques web per a l'anunci. Aquesta activitat inclou l'emmagatzematge de variables en galetes o emmagatzematge local basat en HTML5.

WebGraph utilitza la mesura de privadesa web de Mozilla (OpenWPM framework) per fer un seguiment d'aquesta activitat al Firefox. Captura tota l'activitat a la capa de JavaScript i totes les sol·licituds de xarxa sortints i les seves respostes a la capa de xarxa.

Aquest escrutini addicional introdueix noves vores de "flux d'informació" a la xarxa de gràfics proposada anteriorment per AdGraph, permetent a WebGraph registrar i quantificar explícitament els patrons d'intercanvi d'informació basats en l'activitat local, i independentment dels URL d'origen i de destinació per a telemetria o altres tipus de comunicacions internes en sistemes de publicació d'anuncis.

Resultats

Els investigadors van utilitzar una versió ampliada d'OpenWPM per rastrejar sistemàticament 10,000 llocs web extrets dels 100,000 llocs més importants d'Alexa i una mostra aleatòria de 9,000 llocs classificats entre 1k i 100k, emmagatzemant les seves representacions gràfices abans de passar els resultats a un classificador d'arbre de decisions modelat en AdGraph. disseny original i utilitzant llistes populars de filtres d'anuncis com a veritat bàsica. D'aquesta manera, es va construir un conjunt de dades per a l'entrenament del model bàsic.

El sistema va aconseguir resultats comparables als d'AdGraph, amb una precisió del 92.33%. Tanmateix, la resistència del nou sistema a la resistència a l'enfrontament augmenta des d'una taxa de fracàs gairebé completa per a AdGraph a només un 8% de susceptibilitat sota WebGraph.

Orientacions futures

El document sosté que les xarxes publicitàries haurien de reestructurar notablement els seus sistemes per evitar la detecció davant l'enfocament WebGraph, i suggereix que aquests canvis requeririen una revisió de la relació de confiança actual entre els anunciants de tercers i el llocs d'amfitrió on apareixen els seus anuncis.

El document també assenyala que WebGraph no té en compte les tècniques de seguiment sense estat, com ara les empremtes digitals del navegador (mitjançant l'element Canvas), que fan ús d'API que el sistema no supervisa actualment. Els investigadors suggereixen que WebGraph es pot ampliar en el futur per tenir en compte també aquest tipus d'interaccions i significants d'emmagatzematge local.

Temes relacionats:publicitat investigació

Fins a la propera

Fonaments de gestió de vulnerabilitats

No et perdis

Informació sobre el mercat de tallafocs d'aplicacions web

Martin Anderson

Escriptor sobre aprenentatge automàtic, intel·ligència artificial i big data.
Lloc personal: martinanderson.ai
Poseu-vos en contacte amb: [protegit per correu electrònic]
Twitter: @manders_ai

Unite.AI

Un mètode d'aprenentatge automàtic per bloquejar anuncis basats en el comportament del navegador local

Seguretat cibernètica