stub Walka z blokowaniem reklam za pomocą uczenia maszynowego - Unite.AI
Kontakt z nami

Bezpieczeństwo cybernetyczne

Walka z blokowaniem reklam za pomocą uczenia maszynowego

mm

Opublikowany

 on

W ramach nowej inicjatywy badawczej ze Stanów Zjednoczonych i Pakistanu opracowano metodę opartą na uczeniu maszynowym, która umożliwia identyfikowanie witryn internetowych odpornych na blokowanie reklam i inne technologie chroniące prywatność, a także dekonstrukcję technik stosowanych przez te witryny w celu „łączenia” pochodzenia reklam i prawdziwą treść, tak że treści nie można oglądać, jeśli reklamy są zablokowane.

Nowe technologie blokowania reklam opracowane na podstawie ustaleń mogą położyć kres przypadkom, w których główna treść artykułu nie jest widoczna po zablokowaniu reklam, zapewniając zautomatyzowaną metodę oddzielania zasobów reklam i skryptów zamiast ręcznego podejścia stosowanego obecnie w popularnych platformach blokowania reklam .

Autorzy przeprowadzili zakrojone na szeroką skalę badanie „mieszanych zasobów” na 100,000 17 witryn internetowych i odkryli, że 48% domen, 6% nazw hostów, 9% skryptów i XNUMX% metod dostarczania treści celowo łączy funkcje śledzenia (tj. reklamy) z procesami dostarczającymi prawdziwą treść. W takich przypadkach treść artykułu zniknie dla użytkowników korzystających z oprogramowania blokującego reklamy lub zapobiegającego śledzeniu, co zmusi użytkownika do wyłączenia tych zabezpieczeń w celu wyświetlenia treści.

W większości przypadków oznacza to nie tylko, że reklamy będą ponownie widoczne, ale także, że użytkownicy będą zmuszeni z powrotem korzystać z systemów śledzenia w wielu domenach, które zaciekłych działaczy na rzecz prywatności w ostatnich latach.

Nowe badania oferują system, który jest w stanie oddzielić elementy „mieszanych” zasobów internetowych z dokładnością do 98%, dzięki czemu rozwiązania blokujące reklamy i zapobiegające śledzeniu mają szansę na rozplątanie strumieni w późniejszych iteracjach oprogramowania i ponownie umożliwiają dostęp do treści na stronach z blokadą reklam.

Połączenia nowy papier jest zatytułowany TrackerSift: Rozwikłanie mieszanego śledzenia i funkcjonalnych zasobów internetowychi pochodzi od badaczy z Virginia Tech i UoC Davis w USA oraz FAST NUCES i Lahore University of Management Sciences (LUMS) w Pakistanie.

Wojny Adblocków

Systemy blokowania reklam opierają się na ogół na tym, że treści reklamowe na stronie internetowej muszą pochodzić z określonych, dedykowanych domen – zazwyczaj platform adtech z nazwami domen i/lub adresami IP, które można sklasyfikować jako „reklamy stron trzecich”, umożliwiając rozwój listy blokowania, które nie będą renderować treści z tych źródeł na stronie internetowej.

Ponadto nazwy zasobów specyficznych dla reklam, takich jak skrypty, można dodać do list zablokowanych, dzięki czemu nie będą one uruchamiane nawet w przypadku, gdy ich pochodzenie zostało celowo ukryte. Schematy nazewnictwa takich systematycznie generowanych skryptów są często spójne, co umożliwia rozpoznawanie i umieszczanie na listach blokowanych.

Ponieważ reklama wyświetlana na stronie internetowej jest często wybierana w ciągu ostatnich kilku milisekund ładowania strony dynamiczne procesy aukcyjne (na podstawie słów kluczowych znalezionych na stronie, wskaźników celu kampanii i wielu innych czynników) przechowywanie reklam w domenie hosta jest niepraktyczne, co teoretycznie utrudniałoby programom blokującym reklamy ukrywanie treści komercyjnych.

Coraz częściej strony internetowe walczą z blokowaniem reklam Maskowanie CNAME – wykorzystanie subdomen domeny „autentycznej” jako serwerów proxy dla serwerów reklamowych (tj. content.example.com będzie wyświetlać reklamy w witrynie example.com, mimo że subdomena nie ma innego celu niż wyświetlanie reklam i nie jest utrzymywana przez witrynę hostującą, ale raczej jej reklamodawców).

Metodę tę można jednak określić ilościowo i zablokować, rozróżniając zawartość subdomeny jako reklamę lub stosując techniki analizy sieci w celu zidentyfikowania anomalnego i nieregularnego związku subdomeny z domeną rdzeniową.

TrackerSift

W artykule autorów zaproponowano TrackerSift, platformę do analizy zasobów sieciowych pobieranych przez strony internetowe, a następnie ponownej kategoryzacji zasobów mieszanych na „treść” i „reklama”. Na najbardziej ogólnym poziomie analizy TrackerSift rejestruje podstawowe żądania sieciowe dotyczące zasobów, takich jak treści reklam pobrane z sieci dostarczania treści (CDN) lub platformy reklamowej; ale następnie szczegółowo analizuje zawartość pobranych zasobów, przeprowadza analizę na poziomie kodu i rozróżnia funkcje różnych typów wywołań kodu i procedur.

Hierarchia analiz TrackerSift, od zasobów śledzenia (czerwony) po niezbędne zasoby funkcjonalne (zielony). Zasoby mieszane, które mogą prowadzić do zaciemnienia treści (kolor żółty) poddawane są głębszej analizie. Źródło: https://arxiv.org/pdf/2108.13923.pdf

Hierarchia analiz TrackerSift, od zasobów śledzenia (czerwony) po niezbędne zasoby funkcjonalne (zielony). Zasoby mieszane, które mogą prowadzić do zaciemnienia treści (kolor żółty) poddawane są głębszej analizie. Źródło: https://arxiv.org/pdf/2108.13923.pdf

Dane

Aby uzyskać zbiór danych obsługujący TrackerSift, autorzy przeszukali 100,000 2018 losowo wybranych stron internetowych z badania z XNUMX r. Lista największych milionów Tranco. Selen Do wykonania zadania wykorzystano automatyzację przeglądarki wraz z przeglądarką Google Chrome.

Sieć do przeszukiwania Internetu opierała się na ośrodkach uniwersyteckich w Ameryce Północnej i składała się z 13-węzłowego klastra ze 112 rdzeniami, 52 terabajtami pamięci masowej i 823 gigabajtami operacyjnej pamięci RAM w całym systemie.

Każdy węzeł znajdował się w kontenerze Dockera i był przeznaczony do przeszukiwania podzbioru wybranych 100,000 XNUMX stron internetowych, z programowymi przerwami w celu zapewnienia zrównoważonego rozwoju i całkowitym usuwaniem wszystkich plików cookie i identyfikatorów podczas ładowania nowej domeny, aby mieć pewność, że poprzednie sesje i stany nie miały wpływu na czytelność kolejnej domeny.

Skrypty mieszane

Wyniki wskazują na szerokie wykorzystanie łączenie skryptów, w przypadku których platformy reklamowe i hosty treści celowo łączą skrypty oparte na treści i reklamach w „uberscripts”, które w przypadku zablokowania będą utrudniać wyświetlanie treści. Autorzy zauważają na przykład, że pressl.co udostępnia skrypt internetowy dołączony za pośrednictwem Pakiet Web Platforma konkatenatora JavaScript, która zawiera piksel śledzący Facebooka, a także kod umożliwiający renderowanie rzeczywistej treści.

Ponadto w artykule zauważono, że wiele domen jest skłonnych osadzać skrypty bezpośrednio w kodzie stron internetowych, co powoduje, że struktury blokujące reklamy muszą uwzględniać funkcjonalność skryptów, a nie po prostu zapobiegać ładowaniu skryptu w oparciu o jego trzecią URL źródła strony.

Lokalizowanie tych metod otwiera drogę do systematycznego podziału takiego kodu na kategorie treści i reklam oraz potencjalnego przywrócenia wyświetlania treści w środowiskach z blokadą reklam.

Chociaż istniejące rozwiązania do blokowania reklam, takie jak NoScript, AdGuard, uBlock Origin i Firefox Smartblock, korzystają ze skryptów zastępczych, które rozkładają takie scalone skrypty na możliwe do zablokowania skrypty składowe, zależą one od ręczne przepisywanie skryptów, co prowadzi do ciągłej zimnej wojny pomiędzy blokerami a ciągle zmieniającymi się technikami, które je łamią. Z kolei TrackerSift oferuje potencjalną metodę programową do rozkładu zawartości mieszanej.