stub Metoda uczenia maszynowego blokująca reklamy na podstawie zachowania przeglądarki lokalnej – Unite.AI
Kontakt z nami

Bezpieczeństwo cybernetyczne

Metoda uczenia maszynowego blokująca reklamy w oparciu o zachowanie lokalnej przeglądarki

mm

Opublikowany

 on

Naukowcy ze Szwajcarii i USA opracowali nowe podejście do wykrywania materiałów reklamowych witryn internetowych oparte na uczeniu maszynowym, które opiera się na sposobie interakcji takiego materiału z przeglądarką, a nie na analizie jego zawartości lub zachowania w sieci – dwa podejścia okazały się nieskuteczne w długoterminowe w obliczu maskowania CNAME (patrz poniżej).

Ochrzczony Wykres WWW, framework wykorzystuje a wykresoparte na sztucznej inteligencji podejście do blokowania reklam w celu wykrywania treści promocyjnych poprzez koncentrację na takich podstawowych działaniach reklamy sieciowej – w tym próbach telemetrii i przechowywaniu w lokalnej przeglądarce – że jedyną skuteczną techniką obejścia byłoby nieprowadzenie tych działań.

Chociaż poprzednie podejścia osiągnęły nieco wyższe współczynniki wykrywalności niż WebGraph, wszystkie z nich są podatne na techniki wymijające, podczas gdy WebGraph jest w stanie osiągnąć 100% integralności w obliczu kontradyktoryjnych reakcji, w tym bardziej wyrafinowanych hipotetycznych odpowiedzi, które mogą się w obliczu tego pojawić nowatorska metoda blokowania reklam.

Artykułem kieruje dwóch badaczy ze Szwajcarskiego Federalnego Instytutu Technologii we współpracy z badaczami z Uniwersytetu Kalifornijskiego w Davis i Uniwersytetu Iowa.

Więcej niż AdGraph

Praca stanowi rozwinięcie inicjatywy badawczej z 2020 roku dotyczącej przeglądarki Brave o nazwie AdGraph, w którym wzięło udział dwóch badaczy biorących udział w nowym artykule.

Porównanie AdGraph i WebGraph, linie przerywane przedstawiają innowacje architektoniczne w poprzednim podejściu. Źródło: https://arxiv.org/pdf/2107.11309.pdf

Porównanie AdGraph i WebGraph, linie przerywane przedstawiają innowacje architektoniczne w poprzednim podejściu. Źródło: https://arxiv.org/pdf/2107.11309.pdf

AdGraph opiera się na treści (reklamowej). cechy, uzyskany z analizy adresów URL, jako klucz do wykrywania materiałów komercyjnych. Jednak te funkcje stanowią pojedynczy potencjalny punkt awarii dla przeciwników chcących wykryć obecność systemów wykrywania reklam i opracowujących metody ich uniknięcia. To uzależnienie od treści niska zabudowa sprawia, że ​​AdGraph jest zasadniczo zmechanizowaną wersją ręcznie wybieranych metod opartych na listach filtrów, dzieląc się ich słabymi stronami.

Maskowanie CNAME

Materiał pochodzący z domeny witryny internetowej zalicza się do kategorii „zaufanych”, o ile sama domena jest zaufana. W przypadku witryny internetowej o dużym autorytecie prowadzenie kampanii reklamowych zawierających takie materiały wiąże się z cenną korzyścią pojawia się być hostowana przez samą witrynę organu władzy, ponieważ takie reklamy są odporne na listy blokowania reklam oparte na filtrach, a nawet na podejście AdGraph 2020.

Jednak niestandardowe kampanie są trudne w negocjacjach, kosztowne we wdrażaniu i sprzeczne z podstawowymi zasadami modelu reklamy sieciowej opracowanego przez ostatnie 25 lat, w którym platforma strony trzeciej wstawia kod bezpośrednio do witryny hosta, zwykle „licytując” czas reklamowy w mikrosekundach na podstawie atrakcyjności słowa kluczowego i różnych innych czynników.

Ponieważ prawie wszystkie systemy blokowania reklam wykorzystują materiały stron trzecich na stronach internetowych (tj. elementy hostowane w „obcych” domenach), reklamodawcy walczą z Techniki maskowania CNAME w ciągu ostatnich pięciu lat. Maskowanie CNAME oszukuje moduły śledzące, wierząc, że poddomena witryny hosta (tj. informacja.example.com zamiast example.com) jest prawdziwym dodatkiem do witryny, podczas gdy w rzeczywistości jest to mechanizm wyświetlania reklam proxy współpracujący z reklamami stron trzecich dostawcy.

W marcu 2021 r. jedno badanie ujawnił że liczba przypadków maskowania CNAME wzrosła o 22% w latach 2018–2020, przy czym do października 10 r. prawie 10,000% z 2020 XNUMX najpopularniejszych witryn internetowych Tranco korzystało z co najmniej jednego modułu śledzącego opartego na CNAME.

Dyskontowanie zaufania do adresów URL

Techniki oszukiwania CNAME obejmują manipulację adresami URL biorącymi udział w procesie wyświetlania reklam. Każdy system blokowania reklam, który ufa łańcuchowi adresów URL, będzie przedmiotem manipulacji i unikania. Dlatego WebGraph losowo zmienia podane adresy URL w procesie (w tym ciągi zapytań, liczbę parametrów i nazwy parametrów), szukając wzorców użycia, a nie konkretnych zabronionych lub zaakceptowanych adresów URL.

System musi wziąć pod uwagę dwie typowe konfiguracje w architekturze wyświetlania reklam: jedną, w której host współpracuje bezpośrednio z reklamodawcą; oraz drugi (częściej spotykany) scenariusz, w którym reklamodawca zapewnia ograniczoną współpracę ze względu na konieczność zabezpieczenia się przed manipulacją ze strony swoich klientów.

W podejściach opartych na listach, w tym AdGraph, udana manipulacja adresami URL przez system wyświetlania reklam jest niemal całkowitym zwycięstwem, przypisując reklamie „lokalne” pochodzenie i tym samym unikając prawie wszystkich prób systematycznego blokowania treści reklamowych.

Co zostało w ramach podpisu? Zamiast tego WebGraph skupia się na potrzebie dzielenia się informacjami przez systemy reklamowe za pomocą różnych, częściowo zaciemnionych środków, takich jak moduły śledzące sieci, komunikacja między ramkami iframe i „słuchaczami” sieci, które stale odpytują stan strony hosta pod kątem aktywności znaczącej z punktu widzenia danych internetowych dotyczących reklamy. Taka aktywność obejmuje przechowywanie zmiennych w plikach cookie lub w pamięci lokalnej opartej na HTML5.

WebGraph korzysta z narzędzia Pomiaru prywatności w Internecie firmy Mozilla (OtwórzWPM framework) do śledzenia takiej aktywności w przeglądarce Firefox. Przechwytuje całą aktywność w warstwie JavaScript oraz wszystkie wychodzące żądania sieciowe i ich odpowiedzi w warstwie sieciowej.

Ta dodatkowa analiza wprowadza nowe krawędzie „przepływu informacji” do sieci grafów zaproponowanej wcześniej przez AdGraph, umożliwiając WebGraph jawne rejestrowanie i ilościowe określanie wzorców udostępniania informacji w oparciu o działalność lokalną oraz niezależnie od początkowego i docelowego adresu URL na potrzeby telemetrii lub innych rodzajów komunikacji wewnętrznej w systemy wyświetlania reklam.

Efekt

Badacze wykorzystali rozszerzoną wersję OpenWPM do systematycznego indeksowania 10,000 100,000 witryn internetowych pobranych ze 9,000 1 najpopularniejszych witryn Alexy oraz losowej próbki 100 XNUMX witryn o rankingu od XNUMX tys. do XNUMX tys., przechowując ich reprezentację graficzną przed przekazaniem wyników do klasyfikatora drzewa decyzyjnego wzorowanego na AdGraph oryginalny projekt i używanie popularnych list filtrów reklam jako podstawy prawdy. W ten sposób skonstruowano zbiór danych do szkolenia modelu podstawowego.

System osiągnął wyniki porównywalne do AdGraph, z dokładnością 92.33%. Jednakże odporność nowego systemu na opór przeciwnika wzrasta z prawie całkowitego wskaźnika awaryjności w przypadku AdGraph do zaledwie 8% podatności w WebGraph.

Przyszłe kierunki

W artykule stwierdzono, że sieci reklamowe musiałyby w szczególności zmienić architekturę swoich systemów, aby uniknąć wykrycia w obliczu podejścia WebGraph, i sugeruje się, że takie zmiany wymagałyby przeglądu obecnie ostrożnej relacji zaufania pomiędzy zewnętrznymi reklamodawcami a witryn hostujących, na których pojawiają się ich reklamy.

W artykule zauważono również, że WebGraph nie uwzględnia bezstanowych technik śledzenia, takich jak odcisk palca przeglądarki (za pośrednictwem elementu Canvas), które korzystają z interfejsów API, których system obecnie nie monitoruje. Naukowcy sugerują, że WebGraph można w przyszłości rozszerzyć, aby uwzględniał także tego rodzaju interakcje i lokalne znaczniki przechowywania.

 

Pisarz na temat uczenia maszynowego, sztucznej inteligencji i dużych zbiorów danych.
Strona osobista: martinanderson.ai
Kontakt: [email chroniony]
Twitter: @manders_ai