Connect with us

Cybersikkerhet

En maskinlæringsmetode for å blokkere annonser basert på lokal nettleseratferd

mm

Forskere i Sveits og USA har utviklet en ny maskinlæringsmetode for å oppdage nettstedannonsemateriale basert på hvordan slike materialer samhandler med nettleseren, i stedet for å analysere innholdet eller nettverksatferden – to tilnærminger som har vist seg å være ineffektive på lang sikt i møte med CNAME-kamuflering (se nedenfor).

Kalt WebGraph, rammen bruker en graf-basert AI-annonseblokkeringsmetode for å oppdage promasjonelt innhold ved å konsentrere seg om slike essensielle aktiviteter i nettannonsering – inkludert telemetri-forsøk og lokal nettleserlagring – at den eneste effektive unngåelsesmetoden ville være å ikke utføre disse aktivitetene.

Tidligere tilnærminger har oppnådd litt høyere oppdagerater enn WebGraph, men alle er utsatt for unngåelsesmetoder, mens WebGraph kan nærme seg 100 % integritet i møte med motstandskraftige svar, inkludert mer sofistikerte hypotetiske svar som kan oppstå i møte med denne nye annonseblokkeringsmetoden.

Artikkelen er ledet av to forskere fra det sveitsiske føderale tekniske universitetet, i samarbeid med forskere fra University of California, Davis og University of Iowa.

Beyond AdGraph

Arbeidet er en utvikling fra en forskningsinitiativ fra 2020 med Brave-nettleser kalt AdGraph, som inkluderte to av forskerne fra den nye artikkelen.

Sammenligning av AdGraph vs. WebGraph, med stiplet linjer som representerer arkitektoniske innovasjoner på den tidligere tilnærmingen. Kilde: https://arxiv.org/pdf/2107.11309.pdf

Sammenligning av AdGraph vs. WebGraph, med stiplet linjer som representerer arkitektoniske innovasjoner på den tidligere tilnærmingen. Kilde: https://arxiv.org/pdf/2107.11309.pdf

AdGraph baserer seg på (annonse)innhold egenskaper, avledet fra analyse av URL-er, som en nøkkel til oppdagelse av kommersielt materiale. Imidlertid representerer disse egenskapene en enkelt potensiell feilpunkt for motstandere som søker å oppdage tilstedeværelsen av annonseoppdagelsessystemer, og formulere metoder for å unngå dem. Denne avhengigheten av innhold egenskaper gjør AdGraph essensielt til en mekanisert versjon av manuelt kurerte filterlistebaserte tilnærminger, som deler deres svakheter.

CNAME-kamuflering

Materiale som opprinnelig kommer fra et nettstedets eget domene faller inn i en ’tillitsfull’ kategori, så langt som domenet selv er tillitsfullt. For et høyt autoritetsnettsted er det en verdifull premie på å kjøre annonsekampanjer som inneholder materiale som ser ut å være vertet av autoritetsnettsiden selv, siden slik annonsering er immun mot filterbasert annonseblokking, og selv mot AdGraph-tilnærmingen fra 2020.

Imidlertid er tilpassede kampanjer vanskelige å forhandle, dyre å implementere, og går imot de grunnleggende prinsippene for nettannonseringsmodellen som er utviklet de siste 25 årene, der en tredjepartsplattform setter inn kode direkte i vertsnettsiden, vanligvis ‘auksjonering’ av annonseplacen på mikrosekunder basert på nøkkelordsøkbarhet og andre faktorer.

Siden nesten alle annonseblokkeringsystemer nøkler på tredjepartsinnhold i nettsteder (dvs. elementer som er vertet på ‘fremmede’ domener), har annonsererne kjempet tilbake med CNAME-kamufleringsteknikker de siste fem årene. CNAME-kamuflering bedrar sporere til å tro at en underdomene av vertsnettsiden (dvs. informasjon.eksempel.com i stedet for eksempel.com) er en ekte tilleggsdel til nettsiden, når det i virkeligheten er en proxy-annonseringsmekanisme arrangert med tredjepartsannonseringsleverandører.

I mars 2021 avslørte en studie at CNAME-kamufleringshendelser økte med 22 % mellom 2018 og 2020, med nesten 10 % av Tranco’s topp 10 000 nettsteder som benyttet minst en CNAME-basert sporingsenhet per oktober 2020.

Discounting Trust in URLs

CNAME-bedrageriteknikker innebærer manipulering av URL-er involvert i annonseringsprosessen. Ethvert annonseblokkeringsystem som stoler på URL-kjeden vil være utsatt for manipulering og unngåelse. Derfor endrer WebGraph tilfeldig URL-ene i en prosess (inkludert spørringsstrenger, antall parametre og parameternavn), og søker etter mønster av bruk i stedet for bestemte forbudte eller aksepterte URL-er.

Systemet må vurdere to vanlige konfigurasjoner i en annonseringsarkitektur: en, der vertsnettsiden samarbeider direkte med annonsereren; og en annen (mer vanlig) scenario der annonsereren gir begrenset samarbeid på grunn av behovet for å beskytte seg selv mot manipulering av sine kunder.

I liste-baserte tilnærminger, inkludert AdGraph, er vellykket URL-manipulering av annonseringssystemet nesten en fullstendig seier, og tilordner ‘lokal’ proveniens til annonsen, og dermed unngår nesten alle forsøk på å systematisk blokkere annonseinnhold.

Hva er igjen, i form av signatur? WebGraph fokuserer i stedet på annonseringssystemers behov for å dele informasjon på forskjellige semi-åpne måter, som web-sporere, kommunikasjon mellom iframes og web-‘lyttere’, som konstant avhører den levende tilstanden til vertsnettsiden for aktivitet som er meningsfull i forhold til web-metrikker for annonsen. Slike aktiviteter inkluderer lagring av variabler i informasjonskapsler eller HTML5-basert lokal lagring.

WebGraph bruker Mozillas Web Privacy Measurement (OpenWPM-rammeverk) for å spore slike aktiviteter i Firefox. Det fanger all aktivitet på JavaScript-laget, og alle utgående nettforespørsler og deres svar, på nettverkslaget.

Denne ekstra granskningen introduserer nye ‘informasjonsflyt’-kanter til grafnettverket som tidligere ble foreslått av AdGraph, og lar WebGraph eksplisitt registrere og kvantifisere informasjonsdelingsmønster basert på lokal aktivitet, og uavhengig av opphavs- og destinasjons-URL-er for telemetri eller andre typer internkommunikasjon i annonseringssystemer.

Resultater

Forskerne brukte en utvidet versjon av OpenWPM for å systematisk crawle 10 000 nettsteder tatt fra Alexa’s topp 100 000 nettsteder, og en tilfeldig utvalg av 9 000 nettsteder rangert mellom 1k-100k, og lagret deres grafrepresentasjoner før de passerte resultater til en beslutningstre-klassifisator modellert på AdGraphs originale design, og brukte populære annonsefilterlister som grunnssannhet. På denne måten ble en datasett konstruert for trening av kjerne-modellen.

Systemet oppnådde sammenlignbare resultater med AdGraph, med 92,33 % nøyaktighet. Imidlertid øker det nye systemets motstandskraft mot motstander-resistens fra en nesten fullstendig feilrate for AdGraph til bare 8 % sårbarhet under WebGraph.

Fremtidige retninger

Artikkelen hevder at annonsenettverk må gjennomføre betydelige endringer i sine systemer for å unngå oppdagelse i møte med WebGraph-tilnærmingen, og foreslår at slike endringer vil nødvendiggjøre en gjennomgang av den nåværende tillitsrelasjonen mellom tredjepartsannonserere og vertsnettsteder hvor deres annonser vises.

Artikkelen påpeker også at WebGraph ikke tar hensyn til stateless-sporingsteknikker som nettleser-fingeravtrykk (via Canvas-elementet), som bruker API-er som systemet ikke overvåker nå. Forskerne foreslår at WebGraph kan utvides i fremtiden for å ta hensyn til også disse typene interaksjoner og lokale lagringsindikatorer.

Forfatter på maskinlæring, domeneekspert på menneskesynthese. Tidligere leder for forskningsinnhold på Metaphysic.ai.