Vernetzen Sie sich mit uns

Internet-Sicherheit

Bekämpfe Adblocker mit maschinellem Lernen

mm

Eine neue Forschungsinitiative aus den USA und Pakistan hat eine auf maschinellem Lernen basierende Methode entwickelt, um Websites zu identifizieren, die gegen Werbeblocker und andere Technologien zum Schutz der Privatsphäre resistent sind. Außerdem soll sie die Techniken analysieren, die solche Websites verwenden, um die Herkunft von Anzeigen und echten Inhalten zu „vermischen“, sodass Inhalte nicht angezeigt werden können, wenn Anzeigen blockiert sind.

Neue Adblocking-Technologien, die auf der Grundlage der Erkenntnisse entwickelt wurden, könnten Vorfällen ein Ende setzen, bei denen der zentrale Inhalt eines Artikels nicht sichtbar ist, wenn Anzeigen blockiert werden, und bieten eine automatisierte Methode zur Trennung von Anzeigen- und Skriptressourcen anstelle des manuellen Ansatzes, der derzeit von gängigen Adblocking-Frameworks verwendet wird .

Die Autoren führten eine groß angelegte Studie zu „gemischten Ressourcen“ auf 100,000 Websites durch und fanden heraus, dass 17 Prozent der Domänen, 48 Prozent der Hostnamen, 6 Prozent der Skripte und 9 Prozent der Methoden zur Bereitstellung von Inhalten bewusst Tracking-Funktionen (also Werbung) mit Prozessen zur Bereitstellung von echtem Inhalt kombinieren. In solchen Fällen verschwinden Artikelinhalte für Nutzer, die Adblocker oder Anti-Tracking-Software verwenden, sodass der Nutzer diese Maßnahmen deaktivieren muss, um die Inhalte sehen zu können.

In den meisten Fällen bedeutet dies nicht nur, dass Anzeigen wieder sichtbar sind, sondern auch, dass Nutzer wieder auf die bestehenden domainübergreifenden Tracking-Systeme zurückgreifen müssen empörte Datenschutzaktivisten in den letzten Jahren.

Die neue Forschung bietet ein System, das die Komponenten dieser „gemischten“ Webressourcen mit einer Genauigkeit von 98 % trennen kann. Dadurch haben Adblocker- und Anti-Tracking-Lösungen die Möglichkeit, die Streams in späteren Iterationen ihrer Software zu entwirren und den Zugriff auf Inhalte auf werbeblockierten Seiten wieder zu ermöglichen.

Die neues Papier ist betitelt TrackerSift: Entwirrung gemischter Tracking- und funktionaler Webressourcenund stammt von Forschern der Virginia Tech und der UoC Davis in den USA sowie von FAST NUCES und der Lahore University of Management Sciences (LUMS) in Pakistan.

Die Adblock-Kriege

Adblocking-Systeme basieren im Allgemeinen darauf, dass die Werbeinhalte einer Webseite von bestimmten, dedizierten Domänen stammen müssen – im Allgemeinen Adtech-Plattformen mit Domänennamen und/oder IP-Adressen, die als „Werbung Dritter“ eingestuft werden können. Dadurch können Blocklisten erstellt werden, die Inhalte dieser Ursprünge nicht auf einer Webseite anzeigen.

Darüber hinaus können die Namen werbespezifischer Ressourcen, wie z. B. Skripte, zu Sperrlisten hinzugefügt werden, sodass diese auch dann nicht ausgeführt werden, wenn ihre Herkunft absichtlich verschleiert wurde. Die Benennungsschemata solcher systematisch generierten Skripte sind oft konsistent und ermöglichen so die Erkennung und Blocklistung.

Da eine auf einer Webseite angezeigte Werbung häufig in den letzten Millisekunden des Seitenladevorgangs ausgewählt wird dynamische Auktionsprozesse (basierend auf auf der Seite gefundenen Schlüsselwörtern, Kampagnenzielmetriken und vielen anderen Faktoren) ist es nicht praktikabel, Anzeigen auf der Hostdomäne zu speichern, was Adblocker theoretisch daran hindern würde, kommerzielle Inhalte zu verbergen.

Zunehmend wehren sich Websites gegen Adblocker CNAME-Tarnung – die Verwendung von Subdomänen der „authentischen“ Domäne als Proxys für Anzeigenserver (d. h. content.example.com liefert Anzeigen an example.com, obwohl die Subdomäne keinen anderen Zweck als die Bereitstellung von Werbung hat und nicht von der Host-Website, sondern von ihren Werbetreibenden verwaltet wird).

Diese Methode kann jedoch quantifiziert und blockiert werden, indem der Inhalt der Subdomäne als Werbung gekennzeichnet wird oder indem Netzwerkanalysetechniken verwendet werden, um die anomale und unregelmäßige Beziehung der Subdomäne zur Kerndomäne zu identifizieren.

TrackerSift

Die Autoren schlagen TrackerSift vor, eine Plattform zur Analyse von Netzwerkressourcen, die von Websites abgerufen werden, und zur Neukategorisierung gemischter Ressourcen in „Inhalt“ und „Werbung“. Auf der allgemeinsten Analyseebene erfasst TrackerSift grundlegende Netzwerkanfragen nach Ressourcen, wie beispielsweise Werbeinhalte, die von einem Content Delivery Network (CDN) oder einer Werbeplattform abgerufen werden. Anschließend analysiert es den Inhalt der abgerufenen Ressourcen, führt eine Code-Analyse durch und unterscheidet die Funktionen verschiedener Arten von Codeaufrufen und Prozeduren.

Die Analysehierarchie von TrackerSift, von Tracking-Ressourcen (rot) bis hin zu notwendigen Funktionsressourcen (grün). Gemischte Ressourcen, die wahrscheinlich zu einer Inhaltsverschleierung führen (gelb), werden einer tieferen Analyse unterzogen. Quelle: https://arxiv.org/pdf/2108.13923.pdf

TrackerSifts Analysehierarchie, von Tracking-Ressourcen (rot) bis hin zu notwendigen funktionalen Ressourcen (grün). Gemischte Ressourcen, die wahrscheinlich zu Inhaltsverschleierung führen (gelb), werden einer tieferen Analyse unterzogen. Quelle: https://arxiv.org/pdf/2108.13923.pdf

Datum

Um den Datensatz zu erhalten, der TrackerSift zugrunde liegt, haben die Autoren 100,000 zufällig ausgewählte Websites aus dem Jahr 2018 durchforstet Tranco-Top-Millionen-Liste. Selen Zur Durchführung dieser Aufgabe wurde die Browserautomatisierung zusammen mit Google Chrome verwendet.

Das Web-Crawling-Netzwerk basierte auf Universitätsstandorten in Nordamerika und umfasste einen 13-Knoten-Cluster mit 112 Kernen, 52 Terabyte Speicher und 823 Gigabyte operativem RAM im gesamten System.

Jeder Knoten basierte auf einem Docker-Container und war dem Crawlen einer Teilmenge der 100,000 ausgewählten Webseiten gewidmet, mit programmatischen Pausen für Nachhaltigkeit und vollständiger Löschung aller Cookies und Kennungen beim Laden einer neuen Domain, um sicherzustellen, dass frühere Sitzungen und Zustände keinen Einfluss auf die Seiten hatten Lesbarkeit der nächsten Domain.

Gemischte Skripte

Die Ergebnisse zeigen eine umfangreiche Nutzung von Skriptbündelung, bei dem Werbeplattformen und Content-Hosts absichtlich inhalts- und werbebasierte Skripte zu „Überskripten“ verknüpfen, die bei Blockierung die Anzeige von Inhalten behindern. Die Autoren weisen beispielsweise darauf hin, dass pressl.co ein Webskript bereitstellt, das über die Webpack JavaScript-Concatenator-Plattform, die ein Facebook-Tracking-Pixel sowie Code enthält, der die Darstellung tatsächlicher Inhalte ermöglicht.

Darüber hinaus stellt das Papier fest, dass eine Reihe von Domänen bereit sind, Skripte direkt in den Code von Webseiten einzubetten, was es erforderlich macht, dass Werbeblocker-Frameworks die Funktionalität innerhalb der Skripte berücksichtigen, anstatt einfach nur das Laden des Skripts aufgrund seiner Drittanbieterfunktion zu verhindern. Quell-URL der Partei.

Durch die Lokalisierung dieser Methoden ist der Weg frei für eine systematische Aufteilung dieses Codes in Inhalts- und Anzeigenkategorien und die potenzielle Wiederherstellung der Inhaltsanzeige in werbeblockierten Umgebungen.

Obwohl bestehende Werbeblocker-Lösungen wie NoScript, AdGuard, uBlock Origin und Firefox Smartblock Ersatzskripte verwenden, die solche zusammengeführten Skripte in blockierbare Komponentenskripte zerlegen, sind diese darauf angewiesen manuelles Umschreiben von Skripten, was zu einem anhaltenden Kalten Krieg zwischen den Blockern und den sich ständig verändernden Techniken führt, die sie brechen. Im Gegensatz dazu bietet TrackerSift eine potenzielle programmatische Methode zur Zerlegung gemischter Inhalte.

 

Autor zum Thema maschinelles Lernen, Fachspezialist für die Synthese menschlicher Bilder. Ehemaliger Leiter für Forschungsinhalte bei Metaphysic.ai.
Persönliche Seite: martinanderson.ai
Kontakt: [E-Mail geschützt]
Twitter: @manders_ai