Cybersäkerhet
En maskinlärande metod för att blockera annonser baserat på lokal webbläsaraktivitet

Forskare i Schweiz och USA har utvecklat en ny maskinlärande approach för att upptäcka webbannonsmaterial som baseras på hur sådant material interagerar med webbläsaren, snarare än genom att analysera dess innehåll eller nätverksbeteende – två metoder som har visat sig vara ineffektiva på lång sikt mot CNAME-cloaking (se nedan).
Dubbed WebGraph, ramverket använder en graf-baserad AI-annonsblockeringsapproach för att upptäcka reklammaterial genom att fokusera på sådana väsentliga aktiviteter i nätverksreklam – inklusive telemetriansträngningar och lokal webbläsarlagring – som den enda effektiva undvikandetekniken vore att inte utföra dessa aktiviteter.
Även om tidigare metoder har uppnått något högre upptäcktsfrekvenser än WebGraph, är alla de benägna för undvikandetekniker, medan WebGraph kan uppnå 100% integritet i mötet med motstrategiska svar, inklusive mer avancerade hypotetiska svar som kan uppstå i mötet med denna nya annonsblockeringsmetod.
Artikeln är ledd av två forskare från det schweiziska federala tekniska institutet, i samarbete med forskare från University of California, Davis och University of Iowa.
Bortom AdGraph
Arbetet är en utveckling från en 2020-forskningsinitiativ med Brave-webbläsaren som heter AdGraph, som innehöll två av forskarna från den nya artikeln.

Jämförelse av AdGraph vs. WebGraph, med streckade linjer som representerar arkitektoniska innovationer på den tidigare metoden. Källa: https://arxiv.org/pdf/2107.11309.pdf
AdGraph förlitar sig på (annons)innehålls funktioner, som härrör från analys av URL:er, som en nyckel till upptäckten av kommersiellt material. Men dessa funktioner representerar en enda potentiell punkt för fiender som söker upptäcka närvaron av annonsupptäktssystem, och formulerar metoder för att undvika dem. Denna tillit till innehålls egenskaper gör AdGraph i princip till en mekaniserad version av manuellt kuraterade filterlistbaserade metoder, som delar deras svagheter.
CNAME-cloaking
Material som härrör från en webbplats eget domän hamnar i en ‘pålitlig’ kategori, så länge domänen i sig är pålitlig. För en webbplats med hög auktoritet finns det ett stort värde i att köra annonskampanjer som innehåller material som verkar vara värd för webbplatsen i sig, eftersom sådan reklam är immun mot filterbaserad annonsblockering, och till och med mot den 2020 AdGraph-metoden.
Men anpassade kampanjer är svåra att förhandla, dyra att implementera och strider mot de grundläggande principerna för nätverksreklammodellen som utvecklats under de senaste 25 åren, där en tredjepartsplattform infogar kod direkt i värdwebbplatsen, vanligtvis “auktionerar” annonsplatsen på mikrosekunder baserat på nyckelordsönskvärdhet och olika andra faktorer.
Eftersom nästan alla annonsblockeringssystem nycklar på tredjepartsmaterial i webbsidor (dvs. element som är värd på “främmande” domäner), har annonsörer kämpat tillbaka med CNAME-cloakingtekniker under de senaste fem åren. CNAME-cloaking bedrar spårare att tro att en underdomän för värdwebbplatsen (t.ex. information.example.com istället för example.com) är en äkta tillägg till webbplatsen, när det i själva verket är ett proxy-annonsförmedlingsmekanism arrangerad med tredjepartsannonsörer.
I mars 2021 avslöjade en studie att CNAME-cloakingincidenter ökade med 22% mellan 2018 och 2020, med nästan 10% av Tranco’s topp 10 000 webbplatser som använder minst en CNAME-baserad spårare i oktober 2020.
Att diskontera förtroende för URL:er
CNAME-bedrägeritekniker innefattar manipulation av URL:er som är inblandade i annonsförmedlingsprocessen. Alla annonsblockeringssystem som litar på URL-kedjan kommer att utsättas för manipulation och undvikande. Därför ändrar WebGraph slumpmässigt de tillhandahållna URL:erna i en process (inklusive frågesträngar, antal parametrar och parametrarnamn), letar efter mönster för användning snarare än specifika förbjudna eller accepterade URL:er.
Systemet måste beakta två vanliga konfigurationer i en annonsförmedlingsarkitektur: en, där värden samarbetar direkt med annonsören; och en andra (mer vanlig) scenario där annonsören tillhandahåller begränsat samarbete på grund av behovet av att skydda sig mot manipulation av sina kunder.
I listbaserade metoder, inklusive AdGraph, är lyckad URL-manipulation av annonsförmedlingssystemet nästan en fullständig seger, som tilldelar “lokal” ursprung till annonsen och därmed undviker nästan alla försök att systematiskt blockera annonsinnehåll.
Vad som är kvar, i form av signatur? WebGraph fokuserar istället på annonsystemens behov av att dela information genom olika semi-förvrängda medel, såsom webb-spårare, kommunikation mellan iframes och webb-“lyssnare”, som konstant pollar den live-tillståndet för värdwebbplatsen för aktivitet som är meningsfull i termer av webb-mätvärden för annonsen. Sådan aktivitet inkluderar lagring av variabler i cookies eller HTML5-baserad lokal lagring.
WebGraph använder Mozillas Web Privacy Measurement (OpenWPM-ramverk) för att spåra sådan aktivitet i Firefox. Det fångar all aktivitet på JavaScript-lagret och alla utgående nätverksförfrågningar och deras svar, på nätverkslagret.
Denna ytterligare granskning introducerar nya “informationsflödes”-kanter till graf-nätverket som tidigare föreslagits av AdGraph, vilket tillåter WebGraph att explicit spela in och kvantifiera informationsdelningsmönster baserat på lokal aktivitet, och oavsett ursprungs- och mål-URL:er för telemetri eller andra typer av interna kommunikationer i annonsförmedlingssystem.
Resultat
Forskarna använde en utökad version av OpenWPM för att systematiskt crawla 10 000 webbplatser från Alexa topp 100 000 webbplatser, och ett slumpmässigt urval av 9 000 webbplatser rankade mellan 1k-100k, och lagrade deras grafiska representationer innan de skickade resultaten till en besluts-trädklassificerare modellerad på AdGraphs ursprungliga design, och använde populära annonsfilterlistor som grund sanning. På detta sätt konstruerades en datamängd för utbildning av kärnmodellen.
Systemet uppnådde jämförbara resultat med AdGraph, med 92,33% noggrannhet. Men det nya systemets motståndskraft mot motstrategiskt motstånd stiger från en nästan fullständig felränta för AdGraph till bara 8% känslighet under WebGraph.
Framtida riktningar
Artikeln hävdar att annonsnätverk skulle behöva omfattande omstrukturera sina system för att undvika upptäckt i mötet med WebGraph-metoden, och föreslår att sådana förändringar skulle kräva en översyn av den nuvarande försiktiga förtroenderelationen mellan tredjepartsannonsörer och de webbplatser på vilka deras annonser visas.
Artikeln noterar också att WebGraph inte tar hänsyn till stateless-spårningstekniker som webbläsaravtryck (via Canvas-elementet), som använder API:er som systemet inte för närvarande övervakar. Forskarna föreslår att WebGraph kan utökas i framtiden för att också ta hänsyn till sådana interaktioner och lokala lagringsindikatorer.












