Κυβερνοασφάλεια
Μια Μέθοδος Μηχανικής Μάθησης για το Μπλοκάρισμα Διαφημίσεων Βασισμένη στη Τοπική Συμπεριφορά του Browser

Ερευνητές στην Ελβετία και τις Ηνωμένες Πολιτείες έχουν αναπτύξει μια νέα προσέγγιση μηχανικής μάθησης για την ανίχνευση υλικού διαφήμισης ιστοσελίδων που βασίζεται στον τρόπο με τον οποίο το υλικό αλληλεπιδρά με τον browser, αντί να αναλύουν το περιεχόμενό του ή τη συμπεριφορά του δικτύου – δύο προσεγγίσεις που έχουν αποδειχθεί αναποτελεσματικές μακροπρόθεσμα απέναντι στο CNAME cloaking (βλέπε παρακάτω).
Δημιουργώντας το WebGraph, το πλαίσιο χρησιμοποιεί μια γραφική-βασισμένη προσέγγιση AI για το μπλοκάρισμα διαφημίσεων για την ανίχνευση προωθητικού περιεχομένου, εστιάζοντας σε δραστηριότητες όπως οι προσπάθειες τηλεμετρίας και η τοπική αποθήκευση browser – δραστηριότητες που θα ήταν δύσκολο να αποφευχθούν χωρίς να τις πραγματοποιήσει.
Αν και προηγούμενες προσεγγίσεις έχουν επιτύχει ελαφρώς υψηλότερους ρυθμούς ανίχνευσης από το WebGraph, όλες είναι ευάλωτες σε τεχνικές αποφυγής, ενώ το WebGraph μπορεί να επιτύχει σχεδόν 100% ακεραιότητα απέναντι σε αντιπαλικές απαντήσεις, συμπεριλαμβανομένων πιο σύνθετων υποθετικών απαντήσεων που μπορεί να εμφανιστούν απέναντι σε αυτή τη νέα μέθοδο μπλοκαρίσματος διαφημίσεων.
Το έγγραφο είναι υπό την ηγεσία δύο ερευνητών από το Eidgenössische Technische Hochschule (Ελβετικό Ομοσπονδιακό Ινστιτούτο Τεχνολογίας), σε συνεργασία με ερευνητές από το Πανεπιστήμιο της Καλιφόρνιας, Ντέιβις και το Πανεπιστήμιο του Αϊόβα.
Πέρα από το AdGraph
Το έργο είναι μια εξέλιξη μιας έρευνας του 2020 με το browser Brave που ονομάζεται AdGraph, το οποίο περιελάμβανε δύο από τους ερευνητές της νέας εργασίας.

Σύγκριση του AdGraph και του WebGraph, με στιγμιότυπα που αντιπροσωπεύουν αρχιτεκτονικές καινοτομίες στην προηγούμενη προσέγγιση. Πηγή: https://arxiv.org/pdf/2107.11309.pdf
Το AdGraph βασίζεται σε (διαφημιστικό) περιεχόμενο χαρακτηριστικά, τα οποία προέρχονται από την ανάλυση των URL, ως κλειδί για την ανίχνευση εμπορικού υλικού. Ωστόσο, αυτά τα χαρακτηριστικά αντιπροσωπεύουν ένα seul πιθανό σημείο αποτυχίας για τους αντιπάλους που ζητούν να ανιχνεύσουν την παρουσία συστημάτων ανίχνευσης διαφημίσεων και να διαμορφώσουν μεθόδους για να τις αποφύγουν. Αυτή η εξάρτηση από τις ιδιότητες περιεχομένου καθιστά το AdGraph ουσιαστικά μια μηχανοποιημένη εκδοχή των προσεγγίσεων με χειροκίνητα επιμελημένες λίστες φίλτρων, μοιράζοντας τις αδυναμίες τους.
CNAME Cloaking
Το υλικό που προέρχεται από το δικό του domaine μιας ιστοσελίδας εμπίπτει σε μια ‘αξιόπιστη’ κατηγορία, όσον αφορά το domaine selbst είναι αξιόπιστο. Για μια ιστοσελίδα υψηλής αρχής, υπάρχει μια πολύτιμη premium σε διαφημιστικές καμπάνιες που παρουσιάζουν υλικό που φαίνεται να φιλοξενείται από την ίδια την ιστοσελίδα,既然 τέτοιου είδους διαφήμιση είναι απαλλαγμένη από τις λίστες φίλτρων και ακόμη και από την προσέγγιση του AdGraph του 2020.
Ωστόσο, οι προσαρμοσμένες καμπάνιες είναι δύσκολο να διαπραγματευτούν, ακριβές να εφαρμοστούν και αντίθετες με τις βασικές αρχές του μοντέλου διαφήμισης που αναπτύχθηκε τα τελευταία 25 χρόνια, όπου ένα τρίτο μέρος φιλοξενεί κώδικα απευθείας στην ιστοσελίδα, συνήθως ‘διαγωνίζοντας’ το διαφημιστικό slot σε χιλιοστά του δευτερολέπτου με βάση την επιθυμητότητα των λέξεων-κλειδιών και άλλους παράγοντες.
Από τότε που σχεδόν όλα τα συστήματα μπλοκαρίσματος διαφημίσεων βασίζονται σε υλικό τρίτων μερών σε ιστοσελίδες (δηλαδή στοιχεία που φιλοξενούνται σε ‘ξένα’ domaine), οι διαφημιστές έχουν αντιδράσει με τεχνικές CNAME cloaking τα τελευταία πέντε χρόνια. Το CNAME cloaking εξαπατά τους trackers να πιστεύουν ότι ένα υποdomain της ιστοσελίδας (π.χ. πληροφορίες.example.com αντί για example.com) είναι một γνήσιο παράρτημα της ιστοσελίδας, ενώ στην πραγματικότητα είναι ένα μηχανισμό διαφημιστικής εξυπηρέτησης που έχει συμφωνηθεί με τρίτους παρόχους διαφήμισης.
Τον Μάρτιο του 2021, μια μελέτη αποκάλυψε ότι τα περιστατικά CNAME cloaking αυξήθηκαν κατά 22% μεταξύ 2018 και 2020, με σχεδόν 10% από τις κορυφαίες 10.000 ιστοσελίδες του Tranco να χρησιμοποιούν τουλάχιστον einen CNAME-βασισμένο tracker μέχρι τον Οκτώβριο του 2020.
Αποποίηση εμπιστοσύνης στα URL
Οι τεχνικές εξαπάτησης CNAME περιλαμβάνουν τη χειραγώγηση των URL που εμπλέκονται στη διαδικασία εξυπηρέτησης διαφημίσεων. Κάθε σύστημα μπλοκαρίσματος διαφημίσεων που εμπιστεύεται την αλυσίδα URL θα είναι υπόκειται σε χειραγώγηση και αποφυγή. Για αυτό το λόγο, το WebGraph τυχαία αλλάζει τα παρεχόμενα URL σε μια διαδικασία (συμπεριλαμβανομένων των chain query, αριθμού παραμέτρων και ονομάτων παραμέτρων), αναζητώντας μοτίβα χρήσης αντί για συγκεκριμένα απαγορευμένα ή αποδεκτά URL.
Το σύστημα πρέπει να λάβει υπόψη δύο κοινές ρυθμίσεις σε μια αρχιτεκτονική εξυπηρέτησης διαφημίσεων: μία, όπου ο host συνεργάζεται απευθείας με τον διαφημιζόμενο· και μια δεύτερη (περισσότερο συνηθισμένη) περίπτωση όπου ο διαφημιζόμενος παρέχει περιορισμένη συνεργασία λόγω της ανάγκης να προστατεύσει τον εαυτό του από χειραγώγηση από τους πελάτες του.
Στις προσεγγίσεις με λίστες, συμπεριλαμβανομένου του AdGraph, η επιτυχημένη χειραγώγηση URL από το σύστημα εξυπηρέτησης διαφημίσεων είναι σχεδόν μια πλήρης νίκη, αποδίδοντας ‘τοπική’ προέλευση στη διαφήμιση και因此 αποφεύγοντας σχεδόν όλες τις απόπειρες συστηματικού μπλοκαρίσματος διαφημιστικού περιεχομένου.
Τι μένει, ως υπογραφή; Το WebGraph εστιάζει αντίθετα στην ανάγκη των συστημάτων διαφήμισης να μοιράζονται πληροφορίες με διάφορους ημι-αποκρυπτογραφημένους τρόπους, όπως web trackers, επικοινωνίες μεταξύ iframes και web ‘listeners’, οι οποίοι είναι συνεχώς ρωτούν την ζωντανή κατάσταση της ιστοσελίδας για δραστηριότητα που είναι σημαντική σε σχέση με τις μετρήσεις του web για τη διαφήμιση. Τέτοιου είδους δραστηριότητα περιλαμβάνει την αποθήκευση μεταβλητών σε cookies ή HTML5-βασισμένη τοπική αποθήκευση.
Το WebGraph χρησιμοποιεί το Mozilla’s Web Privacy Measurement (OpenWPM framework) για να παρακολουθήσει τέτοιου είδους δραστηριότητα στο Firefox. Καταγράφει όλες τις δραστηριότητες στο επίπεδο JavaScript και όλες τις εξερχόμενες αιτήσεις δικτύου και τις απαντήσεις τους, στο επίπεδο δικτύου.
Αυτή η πρόσθετη επιτήρηση εισάγει νέες ‘πρόσβαση πληροφοριών’ ακμές στο γραφικό δίκτυο που προτάθηκε προηγουμένως από το AdGraph, επιτρέποντας στο WebGraph να καταγράψει και να ποσοτικοποιήσει μοτίβα ανταλλαγής πληροφοριών με βάση την τοπική δραστηριότητα, και ανεξάρτητα από την προέλευση και τον προορισμό URL για τηλεμετρία ή άλλους τύπους επικοινωνιών σε συστήματα εξυπηρέτησης διαφημίσεων.
Αποτελέσματα
Οι ερευνητές χρησιμοποίησαν μια επεκταμένη έκδοση του OpenWPM για να κάνουν συστηματική περιήγηση σε 10.000 ιστοσελίδες από τις 100.000 κορυφαίες ιστοσελίδες του Alexa, και ένα τυχαίο δείγμα 9.000 ιστοσελίδων που κατατάσσονται μεταξύ 1k-100k, αποθηκεύοντας τις γραφικές τους αναπαραστάσεις πριν τις περάσουν σε einen decision tree classifier μοντελοποιημένο με βάση το αρχικό σχέδιο του AdGraph, και χρησιμοποιώντας δημοφιλείς λίστες φίλτρων διαφημίσεων ως ground truth. Με αυτόν τον τρόπο, κατασκευάστηκε ένα σύνολο δεδομένων για την εκπαίδευση του πυρήνα του μοντέλου.
Το σύστημα πέτυχε συγκρίσιμα αποτελέσματα με το AdGraph, με 92.33% ακρίβεια. Ωστόσο, η ανθεκτικότητα του νέου συστήματος στην αντιπαλική αντίσταση αυξήθηκε από ένα σχεδόν πλήρως αποτυχημένο ποσοστό για το AdGraph σε μόλις 8% ευαλωτότητα υπό το WebGraph.
Μελλοντικές Κατευθύνσεις
Το έγγραφο υποστηρίζει ότι τα δίκτυα διαφήμισης θα χρειαζόταν να ανασχεδιάσουν σημαντικά τα συστήματα τους για να αποφύγουν την ανίχνευση απέναντι στην προσέγγιση του WebGraph, και προτείνει ότι τέτοιες αλλαγές θα απαιτούσαν μια ανασκόπηση της τρέχουσας σχέσης εμπιστοσύνης μεταξύ τρίτων διαφημιστών και των ιστοσελίδων στις οποίες εμφανίζονται οι διαφημίσεις τους.
Το έγγραφο σημειώνει επίσης ότι το WebGraph δεν λαμβάνει υπόψη τεχνικές παρακολούθησης χωρίς κατάσταση, όπως η αποτύπωση του browser (μέσω του στοιχείου Canvas), οι οποίες χρησιμοποιούν APIs που το σύστημα δεν παρακολουθεί目前. Οι ερευνητές προτείνουν ότι το WebGraph μπορεί να επεκταθεί στο μέλλον για να λάβει υπόψη και αυτούς τους τύπους αλληλεπιδράσεων και σημαδούρες τοπικής αποθήκευσης.












