Cybersicherheit

Eine Machine-Learning-Methode, um Anzeigen auf der Grundlage des lokalen Browser-Verhaltens zu blockieren

Published July 26, 2021

Updated April 28, 2026

Martin Anderson

Forscher in der Schweiz und den USA haben einen neuen Machine-Learning-Ansatz zur Erkennung von Werbematerial auf Websites entwickelt, der auf die Art und Weise basiert, wie sich dieses Material mit dem Browser verhält, anstatt durch die Analyse seines Inhalts oder seines Netzwerkverhaltens – zwei Ansätze, die sich langfristig als unwirksam gegenüber CNAME-Cloaking (siehe unten) erwiesen haben.

Dubbed WebGraph, verwendet das Framework einen graph-basierten AI-Ansatz zum Blockieren von Werbung, um Werbematerial durch die Konzentration auf solche wesentlichen Aktivitäten des Netzwerkmarketings – einschließlich Telemetrieversuchen und lokalem Browser-Speicher – zu erkennen, dass die einzige effektive Ausweichstrategie darin bestünde, diese Aktivitäten nicht durchzuführen.

Obwohl frühere Ansätze leicht höhere Erkennungsraten als WebGraph erzielt haben, sind alle davon anfällig für Ausweichstrategien, während WebGraph in der Lage ist, nahezu 100% Integrität gegenüber feindlichen Reaktionen zu erreichen, einschließlich komplexerer hypothetischer Reaktionen, die im Hinblick auf diese neue Methode zur Blockierung von Werbung auftauchen könnten.

Die Studie wird von zwei Forschern des Schweizerischen Bundesinstituts für Technologie in Zusammenarbeit mit Forschern der University of California, Davis und der University of Iowa geleitet.

Jenseits von AdGraph

Die Arbeit ist eine Weiterentwicklung einer 2020 durchgeführten Forschungsinitiative mit dem Brave-Browser namens AdGraph, an der zwei der Forscher des neuen Papiers beteiligt waren.

Vergleich von AdGraph und WebGraph, wobei die gestrichelten Linien die architektonischen Neuerungen des vorherigen Ansatzes darstellen. Quelle: https://arxiv.org/pdf/2107.11309.pdf

AdGraph basiert auf (Werbungs-)Inhalten Funktionen, die aus der Analyse von URLs abgeleitet werden, als Schlüssel zur Erkennung von kommerziellem Material. Diese Funktionen stellen jedoch einen möglichen Schwachpunkt für Gegner dar, die die Erkennung von Werbe-Blockierungs-Systemen vermeiden möchten und Methoden entwickeln, um sie zu umgehen. Diese Abhängigkeit von Inhalt Eigenschaften macht AdGraph im Wesentlichen zu einer mechanisierten Version von manuell kuratierten Filter-Listen-Ansätzen, die deren Schwächen teilt.

CNAME-Cloaking

Material, das von der eigenen Domain einer Website stammt, fällt in eine ‘vertrauenswürdige’ Kategorie, soweit die Domain selbst vertrauenswürdig ist. Für eine Website mit hoher Autorität gibt es einen erheblichen Vorteil, wenn Werbekampagnen durchgeführt werden, die Material enthalten, das scheint, von der Autoritäts-Website selbst gehostet zu werden, da eine solche Werbung immun gegen filterbasierte Werbe-Blockier-Listen ist und sogar gegen den AdGraph-Ansatz von 2020.

Allerdings sind maßgeschneiderte Kampagnen schwierig zu verhandeln, teuer in der Umsetzung und widersprechen den grundlegenden Prinzipien des Netzwerkmarketings, das in den letzten 25 Jahren entwickelt wurde, bei dem eine Drittanbieter-Plattform Code direkt in die Host-Website einfügt, in der Regel ‘Auktionen’ des Werbe-Slots in Mikrosekunden basierend auf Schlüsselwort-Begehren und verschiedenen anderen Faktoren.

Da fast alle Werbe-Blockier-Systeme auf Drittmaterial in Webseiten (d. h. Elemente, die auf ‘fremden’ Domains gehostet werden) basieren, haben Werbetreibende in den letzten fünf Jahren mit CNAME-Cloaking-Techniken gekämpft. CNAME-Cloaking täuscht Tracker darüber hinweg, dass ein Subdomain der Host-Website (z. B. information.example.com anstelle von example.com) ein echter Teil der Website ist, wenn es tatsächlich ein Proxy-Werbe-Mechanismus ist, der mit Drittanbieter-Werbetreibenden vereinbart wurde.

In einem Studie von März 2021 wurde enthüllt, dass CNAME-Cloaking-Vorfälle zwischen 2018 und 2020 um 22% zugenommen haben, und fast 10% der Top-10.000-Websites von Tranco mindestens einen CNAME-basierten Tracker bis Oktober 2020 verwendet haben.

Vertrauen in URLs in Frage stellen

CNAME-Täuschungstechniken beinhalten die Manipulation von URLs, die am Werbe-Prozess beteiligt sind. Jedes Werbe-Blockier-System, das dem URL-Chain vertraut, ist anfällig für Manipulation und Ausweichstrategien. Daher ändert WebGraph die bereitgestellten URLs zufällig in einem Prozess (einschließlich Abfragezeichenfolgen, Anzahl der Parameter und Parameternamen), um Muster des Gebrauchs anstelle spezifischer verbotener oder akzeptierter URLs zu suchen.

Das System muss zwei gängige Konfigurationen in einer Werbe-Architektur berücksichtigen: eine, in der der Host direkt mit dem Werbetreibenden kolludiert; und eine zweite (häufigere) Szene, in der der Werbetreibende eine begrenzte Kooperation aufgrund der Notwendigkeit bietet, sich selbst vor Manipulation durch seine Kunden zu schützen.

Bei listenbasierten Ansätzen, einschließlich AdGraph, ist eine erfolgreiche URL-Manipulation durch das Werbe-System fast ein vollständiger Sieg, da sie ‘lokale’ Herkunft der Anzeige zuweist und damit fast alle Versuche, Werbe-Inhalte systematisch zu blockieren, umgeht.

Was bleibt, als Signatur? WebGraph konzentriert sich stattdessen auf die Notwendigkeit von Werbe-Systemen, Informationen durch halbverdeckte Mittel wie Web-Tracker, Kommunikation zwischen Iframes und Web-‘Hörern’ auszutauschen, die den Live-Zustand der Host-Seite für Aktivitäten, die in Bezug auf Web-Metriken für die Anzeige bedeutungsvoll sind, ständig abfragen. Eine solche Aktivität umfasst die Speicherung von Variablen in Cookies oder HTML5-basiertem lokalem Speicher.

WebGraph verwendet Mozillas Web-Privatsphäre-Messung (OpenWPM-Framework), um eine solche Aktivität in Firefox zu verfolgen. Es erfasst alle Aktivitäten auf der JavaScript-Ebene und alle ausgehenden Netzwerkanfragen sowie deren Antworten auf der Netzwerkebene.

Diese zusätzliche Überwachung introduceiert neue ‘Informationsfluss’-Kanten in das Graph-Netzwerk, das von AdGraph vorgeschlagen wurde, und ermöglicht es WebGraph, Informationsaustauschmuster explizit aufzuzeichnen und zu quantifizieren, basierend auf lokaler Aktivität und unabhängig von Ursprungs- und Ziel-URLs für Telemetrie oder andere Arten von internen Kommunikationen in Werbe-Systemen.

Ergebnisse

Die Forscher verwendeten eine erweiterte Version von OpenWPM, um systematisch 10.000 Websites aus den Alexa-Top-100.000-Sites und eine zufällige Stichprobe von 9.000 Sites, die zwischen 1.000 und 100.000 rangiert sind, zu durchsuchen und ihre Graph-Darstellungen zu speichern, bevor sie die Ergebnisse an einen Entscheidungsbaum-Klassifizierer weiterleiteten, der auf dem ursprünglichen Design von AdGraph basiert und populäre Werbe-Filter-Listen als Grundwahrheit verwendet. Auf diese Weise wurde ein Dataset für die Ausbildung des Kernmodells konstruiert.

Das System erzielte vergleichbare Ergebnisse wie AdGraph, mit einer Genauigkeit von 92,33%. Allerdings steigt die Widerstandsfähigkeit des neuen Systems gegenüber feindlichen Reaktionen von einem fast vollständigen Ausfall bei AdGraph auf nur 8% Anfälligkeit bei WebGraph.

Zukünftige Richtungen

Das Papier behauptet, dass Werbe-Netzwerke ihre Systeme erheblich umarchitekturieren müssten, um der Erkennung durch den WebGraph-Ansatz zu entgehen, und schlägt vor, dass solche Änderungen eine Überprüfung der derzeitigen vorsichtigen Vertrauensbeziehung zwischen Drittanbieter-Werbetreibenden und den Host-Sites, auf denen ihre Anzeigen erscheinen, erfordern würden.

Das Papier weist auch darauf hin, dass WebGraph keine Berücksichtigung von stateless-Tracking-Techniken wie Browser-Fingerprinting (über das Canvas-Element) nimmt, die APIs verwenden, die das System derzeit nicht überwacht. Die Forscher schlagen vor, dass WebGraph in Zukunft erweitert werden kann, um auch solche Interaktionen und lokale Speicher-Kennzeichen zu berücksichtigen.