stub Bekjempe annonseblokkering med maskinlæring - Unite.AI
Kontakt med oss

Cybersecurity

Bekjempe annonseblokkering med maskinlæring

mm

Publisert

 on

Et nytt forskningsinitiativ fra USA og Pakistan har utviklet en maskinlæringsbasert metode for å identifisere nettsteder som er motstandsdyktige mot annonseblokkering og andre personvernbevarende teknologier, samt dekonstruere teknikkene slike nettsteder bruker for å "blande" opprinnelsen til annonser og ekte innhold, slik at innholdet ikke er synlig hvis annonser blokkeres.

Nye annonseblokkeringsteknologier utviklet fra funnene kan sette en stopper for hendelser der det sentrale innholdet i en artikkel ikke er synlig når annonser blokkeres, noe som gir en automatisert metode for å skille annonse- og skriptressurser, i stedet for den manuelle tilnærmingen som for tiden brukes av populære annonseblokkeringsrammeverk .

Forfatterne utførte en storstilt studie av "blandede ressurser" på 100,000 17 nettsteder, og fant at 48 % av domenene, 6 % av vertsnavnene, 9 % av skriptene og XNUMX % av innholdsleveringsmetodene bevisst blander sporingsfunksjonalitet (dvs. reklame). med prosesser som leverer ekte innhold. I slike tilfeller vil artikkelinnhold forsvinne for brukere som bruker adblokkering eller anti-sporingsprogramvare, noe som tvinger brukeren til å slå av disse tiltakene for å se innholdet.

I de fleste tilfeller betyr dette ikke bare at annonser vil bli synlige igjen, men også at brukere vil bli tvunget tilbake til sporingssystemene på tvers av domener som har betente personvernforkjempere i de senere år.

Den nye forskningen tilbyr et system som er i stand til å skille ut komponentene i disse "blandede" nettressursene med 98 % nøyaktighet, noe som gir adblocking og anti-tracking-løsninger en sjanse til å løsne strømmene i senere iterasjoner av programvaren deres, og igjen aktivere innholdstilgang på annonseblokkerte sider.

De nytt papir har tittelen TrackerSift: Utvikle blandet sporing og funksjonelle nettressurser, og kommer fra forskere ved Virginia Tech og UoC Davis i USA, og FAST NUCES og Lahore University of Management Sciences (LUMS) i Pakistan.

Adblock Wars

Annonseblokkeringssystemer er generelt avhengige av behovet for at reklameinnhold på en nettside stammer fra spesifikke, dedikerte domener – vanligvis adtech-plattformer med domenenavn og/eller IP-adresser som kan klassifiseres som "tredjepartsannonsering", som tillater utvikling av blokkeringslister som ikke vil gjengi innhold fra disse opprinnelsene inne på en nettside.

I tillegg kan navnene på annonsespesifikke ressurser, for eksempel skript, legges til blokkeringslister slik at disse ikke vil kjøre selv i tilfeller der deres opprinnelse har blitt tilslørt med vilje. Navneskjemaene til slike systematisk genererte skript er ofte konsistente, noe som muliggjør gjenkjennelse og blokkering.

Siden en annonse på en nettside ofte velges i løpet av de siste millisekunder av en sideinnlasting via dynamiske auksjonsprosesser (basert på søkeord som finnes på siden, kampanjemålberegninger og mange andre faktorer), er det ikke praktisk mulig å lagre annonser på vertsdomenet, noe som i teorien ville hindre annonseblokkere i å skjule kommersielt innhold.

I økende grad kjemper nettsteder tilbake mot annonseblokkering CNAME-tilsløring – bruk av underdomener av det 'autentiske' domenet som proxyer til annonseservere (dvs. content.example.com vil vise annonser til example.com, selv om underdomenet ikke har noe annet formål enn å vise annonser, og ikke vedlikeholdes av vertsnettstedet, men heller av annonsørene).

Denne metoden kan imidlertid kvantifiseres og blokkeres ved å skille subdomenets innhold som reklame, eller ved å bruke nettverksanalyseteknikker for å identifisere subdomenets uregelmessige og uregelmessige forhold til kjernedomenet.

TrackerSift

Forfatterens artikkel foreslår TrackerSift, en plattform for å analysere nettverksressurser hentet av nettsteder, og deretter omkategorisere blandede ressurser i "innhold" og "annonsering". På det mest generelle analysenivået registrerer TrackerSift grunnleggende nettverksforespørsler om ressurser, for eksempel annonseinnhold hentet fra et innholdsleveringsnettverk (CDN) eller en reklameplattform; men den borer deretter ned til innholdet i hentede ressurser, utfører analyse på kodenivå og skiller ut funksjonene til ulike typer kodeanrop og prosedyrer.

TrackerSifts analysehierarki, fra sporingsressurser (rød) til nødvendige funksjonelle ressurser (grønn). Blandede ressurser, som sannsynligvis vil føre til innholdsforvirring (gul), blir utsatt for dypere analyse. Kilde: https://arxiv.org/pdf/2108.13923.pdf

TrackerSifts analysehierarki, fra sporingsressurser (rød) til nødvendige funksjonelle ressurser (grønn). Blandede ressurser, som sannsynligvis vil føre til innholdsforvirring (gul), blir utsatt for dypere analyse. Kilde: https://arxiv.org/pdf/2108.13923.pdf

Data

For å få tak i datasettet som driver TrackerSift, trålet forfatterne 100,000 2018 tilfeldig valgte nettsteder fra XNUMX Tranco topp-million liste. Selen nettleserautomatisering ble brukt sammen med Google Chrome for å utføre oppgaven.

Nettverket som gjennomsøker nett var basert på universitetssider i Nord-Amerika, bestående av en 13-node-klynge med 112 kjerner, 52 terabyte lagring og 823 gigabyte operativ RAM blant hele systemet.

Hver node var basert i en Docker-beholder og dedikert til å gjennomsøke et undersett av de 100,000 XNUMX valgte nettsidene, med programmatiske pauser for bærekraft, og fullstendig sletting av alle informasjonskapsler og identifikatorer ved lasting av et nytt domene, for å sikre at tidligere økter og tilstander ikke påvirket lesbarheten til neste domene.

Blandede manus

Resultatene viser utstrakt bruk av script bunting, der annonseplattformer og innholdsverter bevisst setter sammen innholdsbaserte og annonsebaserte skript til "uberscripts" som vil hindre innholdsvisning hvis de blokkeres. For eksempel merker forfatterne at pressl.co serverer et nettskript samlet via Webpack JavaScript concatenator-plattform, som inneholder en Facebook-sporingspiksel, og også kode som muliggjør gjengivelse av faktisk innhold.

I tillegg bemerker avisen at en rekke domener er villige til å bygge inn skript direkte i koden til nettsider, noe som gjør det nødvendig for annonseblokkerende rammeverk for å adressere funksjonaliteten i skriptene, i stedet for bare å forhindre at skriptet lastes inn basert på dets tredje- nettadressen til partiets kilde.

Ved å lokalisere disse metodene er banen klar for systematisk oppdeling av slik kode i innhold og annonsekategorier, og potensiell gjenoppretting av innholdsvisning i annonseblokkerte miljøer.

Selv om eksisterende annonseblokkeringsløsninger, som NoScript, AdGuard, uBlock Origin og Firefox Smartblock bruker surrogatskript som demonterer slike sammenslåtte skript til blokkerbare komponentskript, er disse avhengige av manuell omskriving av manus, som fører til en pågående kald krig mellom blokkeringene og de stadig skiftende teknikkene som bryter dem. Derimot tilbyr TrackerSift en potensiell programmatisk metode for dekomponering av blandet innhold.