Bezpieczeństwo cybernetyczne
Metoda uczenia maszynowego blokująca reklamy w oparciu o zachowanie lokalnej przeglądarki
Naukowcy ze Szwajcarii i USA opracowali nowe podejście do wykrywania materiałów reklamowych witryn internetowych oparte na uczeniu maszynowym, które opiera się na sposobie interakcji takiego materiału z przeglądarką, a nie na analizie jego zawartości lub zachowania w sieci – dwa podejścia okazały się nieskuteczne w długoterminowe w obliczu maskowania CNAME (patrz poniżej).
Ochrzczony Wykres WWW, framework wykorzystuje a wykresoparte na sztucznej inteligencji podejście do blokowania reklam w celu wykrywania treści promocyjnych poprzez koncentrację na takich podstawowych działaniach reklamy sieciowej – w tym próbach telemetrii i przechowywaniu w lokalnej przeglądarce – że jedyną skuteczną techniką obejścia byłoby nieprowadzenie tych działań.
Chociaż poprzednie podejścia osiągnęły nieco wyższe współczynniki wykrywalności niż WebGraph, wszystkie z nich są podatne na techniki wymijające, podczas gdy WebGraph jest w stanie osiągnąć 100% integralności w obliczu kontradyktoryjnych reakcji, w tym bardziej wyrafinowanych hipotetycznych odpowiedzi, które mogą się w obliczu tego pojawić nowatorska metoda blokowania reklam.
Artykułem kieruje dwóch badaczy ze Szwajcarskiego Federalnego Instytutu Technologii we współpracy z badaczami z Uniwersytetu Kalifornijskiego w Davis i Uniwersytetu Iowa.
Więcej niż AdGraph
Praca stanowi rozwinięcie inicjatywy badawczej z 2020 roku dotyczącej przeglądarki Brave o nazwie AdGraph, w którym wzięło udział dwóch badaczy biorących udział w nowym artykule.
AdGraph opiera się na treści (reklamowej). cechy, uzyskany z analizy adresów URL, jako klucz do wykrywania materiałów komercyjnych. Jednak te funkcje stanowią pojedynczy potencjalny punkt awarii dla przeciwników chcących wykryć obecność systemów wykrywania reklam i opracowujących metody ich uniknięcia. To uzależnienie od treści niska zabudowa sprawia, że AdGraph jest zasadniczo zmechanizowaną wersją ręcznie wybieranych metod opartych na listach filtrów, dzieląc się ich słabymi stronami.
Maskowanie CNAME
Materiał pochodzący z domeny witryny internetowej zalicza się do kategorii „zaufanych”, o ile sama domena jest zaufana. W przypadku witryny internetowej o dużym autorytecie prowadzenie kampanii reklamowych zawierających takie materiały wiąże się z cenną korzyścią pojawia się być hostowana przez samą witrynę organu władzy, ponieważ takie reklamy są odporne na listy blokowania reklam oparte na filtrach, a nawet na podejście AdGraph 2020.
Jednak niestandardowe kampanie są trudne w negocjacjach, kosztowne we wdrażaniu i sprzeczne z podstawowymi zasadami modelu reklamy sieciowej opracowanego przez ostatnie 25 lat, w którym platforma strony trzeciej wstawia kod bezpośrednio do witryny hosta, zwykle „licytując” czas reklamowy w mikrosekundach na podstawie atrakcyjności słowa kluczowego i różnych innych czynników.
Ponieważ prawie wszystkie systemy blokowania reklam wykorzystują materiały stron trzecich na stronach internetowych (tj. elementy hostowane w „obcych” domenach), reklamodawcy walczą z Techniki maskowania CNAME w ciągu ostatnich pięciu lat. Maskowanie CNAME oszukuje moduły śledzące, wierząc, że poddomena witryny hosta (tj. informacja.example.com zamiast example.com) jest prawdziwym dodatkiem do witryny, podczas gdy w rzeczywistości jest to mechanizm wyświetlania reklam proxy współpracujący z reklamami stron trzecich dostawcy.
W marcu 2021 r. jedno badanie ujawnił że liczba przypadków maskowania CNAME wzrosła o 22% w latach 2018–2020, przy czym do października 10 r. prawie 10,000% z 2020 XNUMX najpopularniejszych witryn internetowych Tranco korzystało z co najmniej jednego modułu śledzącego opartego na CNAME.
Dyskontowanie zaufania do adresów URL
Techniki oszukiwania CNAME obejmują manipulację adresami URL biorącymi udział w procesie wyświetlania reklam. Każdy system blokowania reklam, który ufa łańcuchowi adresów URL, będzie przedmiotem manipulacji i unikania. Dlatego WebGraph losowo zmienia podane adresy URL w procesie (w tym ciągi zapytań, liczbę parametrów i nazwy parametrów), szukając wzorców użycia, a nie konkretnych zabronionych lub zaakceptowanych adresów URL.
System musi wziąć pod uwagę dwie typowe konfiguracje w architekturze wyświetlania reklam: jedną, w której host współpracuje bezpośrednio z reklamodawcą; oraz drugi (częściej spotykany) scenariusz, w którym reklamodawca zapewnia ograniczoną współpracę ze względu na konieczność zabezpieczenia się przed manipulacją ze strony swoich klientów.
W podejściach opartych na listach, w tym AdGraph, udana manipulacja adresami URL przez system wyświetlania reklam jest niemal całkowitym zwycięstwem, przypisując reklamie „lokalne” pochodzenie i tym samym unikając prawie wszystkich prób systematycznego blokowania treści reklamowych.
Co zostało w ramach podpisu? Zamiast tego WebGraph skupia się na potrzebie dzielenia się informacjami przez systemy reklamowe za pomocą różnych, częściowo zaciemnionych środków, takich jak moduły śledzące sieci, komunikacja między ramkami iframe i „słuchaczami” sieci, które stale odpytują stan strony hosta pod kątem aktywności znaczącej z punktu widzenia danych internetowych dotyczących reklamy. Taka aktywność obejmuje przechowywanie zmiennych w plikach cookie lub w pamięci lokalnej opartej na HTML5.
WebGraph korzysta z narzędzia Pomiaru prywatności w Internecie firmy Mozilla (OtwórzWPM framework) do śledzenia takiej aktywności w przeglądarce Firefox. Przechwytuje całą aktywność w warstwie JavaScript oraz wszystkie wychodzące żądania sieciowe i ich odpowiedzi w warstwie sieciowej.
Ta dodatkowa analiza wprowadza nowe krawędzie „przepływu informacji” do sieci grafów zaproponowanej wcześniej przez AdGraph, umożliwiając WebGraph jawne rejestrowanie i ilościowe określanie wzorców udostępniania informacji w oparciu o działalność lokalną oraz niezależnie od początkowego i docelowego adresu URL na potrzeby telemetrii lub innych rodzajów komunikacji wewnętrznej w systemy wyświetlania reklam.
Efekt
Badacze wykorzystali rozszerzoną wersję OpenWPM do systematycznego indeksowania 10,000 100,000 witryn internetowych pobranych ze 9,000 1 najpopularniejszych witryn Alexy oraz losowej próbki 100 XNUMX witryn o rankingu od XNUMX tys. do XNUMX tys., przechowując ich reprezentację graficzną przed przekazaniem wyników do klasyfikatora drzewa decyzyjnego wzorowanego na AdGraph oryginalny projekt i używanie popularnych list filtrów reklam jako podstawy prawdy. W ten sposób skonstruowano zbiór danych do szkolenia modelu podstawowego.
System osiągnął wyniki porównywalne do AdGraph, z dokładnością 92.33%. Jednakże odporność nowego systemu na opór przeciwnika wzrasta z prawie całkowitego wskaźnika awaryjności w przypadku AdGraph do zaledwie 8% podatności w WebGraph.
Przyszłe kierunki
W artykule stwierdzono, że sieci reklamowe musiałyby w szczególności zmienić architekturę swoich systemów, aby uniknąć wykrycia w obliczu podejścia WebGraph, i sugeruje się, że takie zmiany wymagałyby przeglądu obecnie ostrożnej relacji zaufania pomiędzy zewnętrznymi reklamodawcami a witryn hostujących, na których pojawiają się ich reklamy.
W artykule zauważono również, że WebGraph nie uwzględnia bezstanowych technik śledzenia, takich jak odcisk palca przeglądarki (za pośrednictwem elementu Canvas), które korzystają z interfejsów API, których system obecnie nie monitoruje. Naukowcy sugerują, że WebGraph można w przyszłości rozszerzyć, aby uwzględniał także tego rodzaju interakcje i lokalne znaczniki przechowywania.