stub Uczenie maszynowe a systemy zgody na pliki cookie – Unite.AI
Kontakt z nami

Artificial Intelligence

Uczenie maszynowe a systemy zgody na pliki cookie

mm
Zaktualizowano on
Jedna z tajemniczych kostek z serii Hellraiser.

Nowa współpraca badawcza pomiędzy Uniwersytetem Wisconsin i Google stawia uczenie maszynowe w obliczu jednej z najbardziej znanych irytacji użytkowników sieci ostatniej dekady – nieprzejrzystości i cynicznego niewłaściwego użycia banerów zgody na pliki cookie zgodnych z RODO.

pod tytulem Moduł plików cookie, wykorzystuje nowe ramy Semantyczne zrozumienie tekstu przeanalizować znaczenie i użyteczność kodu źródłowego znajdującego się za wyskakującym okienkiem lub banerem wyrażającym zgodę na pliki cookie, aby zapewnić użytkownikowi brakujące rozwiązanie „jednym kliknięciem” umożliwiające wyłączenie wszystkich naprawdę „niepotrzebnych” plików cookie – w tym tych, które właściciele domen mogą obecne jako „niezbędne”, nawet jeśli takie nie są.

CookieEnforcer sprawdza kod zgody na pliki cookie ze strony internetowej www.askubuntu.com. Źródło: https://arxiv.org/pdf/2204.04221.pdf

CookieEnforcer sprawdza kod zgody na pliki cookie ze strony internetowej www.askubuntu.com. Źródło: https://arxiv.org/pdf/2204.04221.pdf

System jest wdrażany poprzez instalowaną przez użytkownika wtyczkę do przeglądarki internetowej, która jednym kliknięciem umożliwia zastosowanie zdefiniowanych przez użytkownika reguł. Gdy w witrynie internetowej pojawi się struktura zgody na pliki cookie, użytkownik może aktywować wtyczkę, która następnie przeszuka kod zgody na pliki cookie pod kątem potencjalnych działań, zanim wygeneruje odpowiedni kod JavaScript umożliwiający dokonanie wyborów w imieniu użytkownika.

Wtyczkę można ustawić tak, aby automatycznie wymuszała preferencje użytkownika lub też rozpatrywała przypadki indywidualnie, umożliwiając użytkownikowi dostosowanie ustawień przed ostatecznym przesłaniem.

Strażnik plików cookie w akcji. Jeśli wolisz, wtyczka Chrome może całkowicie zautomatyzować ten proces, bez dodatkowego udziału użytkownika. Aby uzyskać więcej szczegółów, zobacz później osadzony film. Źródło: https://www.youtube.com/watch?v=5NI6Q981quc

Strażnik plików cookie w akcji. Jeśli wolisz, wtyczka Chrome może całkowicie zautomatyzować ten proces, bez dodatkowego udziału użytkownika. Aby uzyskać więcej szczegółów, zobacz później osadzony film. Źródło: https://www.youtube.com/watch?v=5NI6Q981quc

Wyzwanie polegające na przeanalizowaniu możliwych opcji „braku zgody”, które zazwyczaj są ukryte w tajemniczych i pracochłonnych grupach ustawień (zamiast przyjaznego dla użytkownika Akceptuj wszystkie typowe dla ram zgody) jest modelowany jako: sekwencja do sekwencji zadaniem.

W ramach kompleksowej oceny dokładności narzędzie CookieEnforcer było w stanie wygenerować wszystkie niezbędne kroki w celu obejścia procedur wyrażania zgody na tajemnicze pliki cookie w 91% zbadanych przypadków w domenach, które nie były widziane podczas szkolenia modelu uczenia maszynowego systemu. Badanie użytkowników wykazało ponadto, że system znacznie zmniejsza wysiłek użytkownika związany z poruszaniem się po modułach zgody.

Połączenia papier prezentująca metodę nosi tytuł CookieEnforcer: automatyczna analiza i egzekwowanie powiadomień o plikach cookiei pochodzi od trzech badaczy z Uniwersytetu Wisconsin w Madison i jednego z Google Inc.

Arcane Roads do zgody na pliki cookie

Od czasu wejścia w życie ogólnego rozporządzenia o ochronie danych (`RODO) w 2016 r. i zgodnie z kalifornijską ustawą o ochronie prywatności konsumentów (CCPA) z 2018 r. strony internetowe chcące angażować użytkowników z obszarów objętych tymi przepisami były zobowiązane do zapewnienia mechanizmów preferencji dotyczących plików cookie (zwykle opartych na wykrywaniu adresu IP użytkownika jako serwera proxy dla jego kraj pochodzenia).

Ponieważ jednak właściciele domen od dawna byli przyzwyczajeni do gromadzenia cennych i przydatnych danych użytkowników z nieprzejrzystej i zwykle niewidocznej implementacji plików cookie, okazali niechęć do zapewniania łatwych możliwości rezygnacji swoim nowo uprawnionym użytkownikom.

Domyślny interfejs użytkownika dla interfejsów zgody na pliki cookie (pojawiających się, gdy użytkownik odwiedza domenę po raz pierwszy lub jeśli użytkownik usunął pliki cookie dla tej domeny) szybko się przyjął ciemne wzory zaprojektowane tak, aby męczyć widza szczegółowymi, czasochłonnymi i rozbudowanymi wyborami w przypadku, gdyby chciał skorzystać ze swojego prawa do wyrażenia zgody; lub też prosty i łatwo dostępny przycisk, który pozwala użytkownikowi na korzystanie ze wszystkich plików cookie, które właściciel domeny chciał uruchomić. Tę kulturę labiryntowych wyborów interfejsu użytkownika opisano w jednym z badań przeprowadzonych w 2020 r. jako: „polowanie na padlinożerców”.

W nowym wydaniu gazety komentuje:

„[Użytkownicy] mogą mieć trudności ze świadomą kontrolą plików cookie w witrynach zawierających skomplikowane powiadomienia. O wiele częściej polegają na domyślnych konfiguracjach niż na dostosowywaniu ustawień plików cookie dla każdej [strony internetowej]. W kilku przypadkach te ustawienia domyślne naruszają prywatność i faworyzują dostawców usług, co skutkuje [zagrożeniem] prywatności”.

Komentarz do jednego popularny wpis na forum w odniesieniu do tych praktyk określił je jako „złośliwe przestrzeganie”. Irytacja użytkowników związana z zasadami wyrażania zgody na pliki cookie to temat, który powoduje konflikty z głównymi wydawcami, którzy zwykle mogliby pozwolić sobie na dalsze omówienie, gdyby nie byli tak osobiście narażeni na skutki swoich własnych praktyk w tym zakresie.

Typowy labirynt opcji prezentowany w tym przypadku przez serwis TechCrunch, jak na ironię, jako przedmowa do artykułu na temat zmieniającego się podejścia UE do tego, czym jest zgoda na pliki cookie. Dołączone identyfikatory URL i elementy haczyki zaprojektowane w celu dalszego umożliwienia śledzenia liczyły 262 znaki (tutaj usunięte). Przycisk „odrzuć wszystko”, choć jest dostępny dla niektórych kategorii plików cookie, nie jest dostępny dla całego zestawu możliwych plików cookie; w tych wyjątkowych przypadkach użytkownik musi obsługiwać każdy „przełącznik”.

Typowy labirynt opcji prezentowany w tym przypadku przez witrynę TechCrunch, jak na ironię, jako wstęp do artykuł na temat zmieniającego się podejścia UE do tego, co stanowi zgodę na pliki cookie. Dołączone identyfikatory URL i elementy haczyki zaprojektowane w celu dalszego umożliwienia śledzenia liczyły 262 znaki (tutaj usunięte). Przycisk „odrzuć wszystko”, choć jest dostępny dla niektórych kategorii plików cookie, nie jest dostępny dla całego zestawu możliwych plików cookie; w tych wyjątkowych przypadkach użytkownik musi obsługiwać każdy „przełącznik”.

A Papier 2019 z Niemiec ustaliło, że większość osób odwiedzających strony w badanych domenach „namawiano” do szerokiej zgody i że tylko jedna trzecia stron internetowych faktycznie wyjaśniła cele praktyk gromadzenia danych.

W ostatnich latach pojawiło się wiele wtyczek, dodatków i rozszerzeń do przeglądarek internetowych, które mają rozwiązać ten problem, np Menedżer plików cookie rozszerzenie przeglądarki Firefox i a Szeroki zakres alternatyw dla Chrome, podczas gdy Unia Europejska chcąc się zamknąć luki w przepisach dotyczące architektur zgody na pliki cookie.

Metoda i dane

Badacze pracujący nad nowym dokumentem byli zdeterminowani stworzyć solidniejsze ramy zarządzania zgodą na pliki cookie, unikając polegania na słowach kluczowych lub ręcznie opracowanych regułach, co stanowi główne podejście w wielu niedawnych podobnych Wspomagane ML projektowanie.

CookieEnforcer ma trzy cele: tłumaczenie powiadomień i interfejsów dotyczących plików cookie na format nadający się do odczytu maszynowego; identyfikacji konfiguracji ustawień plików cookies w sposób uniemożliwiający obsługę nieistotnych plików cookies; oraz automatyczne stosowanie dodatkowych ograniczeń bez dalszego udziału użytkownika, jeśli użytkownik sobie tego życzy.

System składa się z komponentu backendowego, który wykrywa i analizuje powiadomienia o plikach cookie, oraz komponentu frontendowego w postaci rozszerzenia przeglądarki, który generuje i powoduje wyłączenie nieistotnych plików cookies (tj. plików cookies, które nie będą utrudniać nawigacji lub dostępu do domena, jeśli jest zablokowana).

Struktura jest zawarta w lokalnie zainstalowanym rozszerzeniu specyficznym dla przeglądarki Chrome, które korzysta z Selen biblioteka do testowania sieci w ramach Sterownik Chrome Ramy.

Sekcja backendu zawiera moduły do ​​wykrywania, analizy i modelu decyzyjnego. Moduł analizy uwzględnia zmiany w kodzie wprowadzone przez interakcję użytkownika, dzięki czemu początkowy zrzut kodu nie zostaje unieważniony w wyniku symulowanej eksploracji użytkownika.

Zrozumienie naturalnego języka

Po ujawnieniu kodu ważne jest, aby CookieEnforcer rozumiał istniejący stan możliwych działań, jakie może podjąć, ponieważ język przycisków przełączania może być niejednoznaczny pod względem korzyści dla użytkownika końcowego.

W tym celu naukowcy przeszkolili m.in Transformator transferu tekstu na tekst Model (T5) dla jego komponentu decyzyjnego. Model T5-Large, który zawiera 770 milionów parametrów, został dostrojony w oparciu o niestandardową bazę danych zawierającą kod wejścia/wyjścia (tj. kod opisujący i umożliwiający funkcjonalność przełączania opcji).

Przykładowe formatowanie (powyżej) i dane treningowe (poniżej) dla modelu T5. Przykładowe dane pochodzą z www.askubuntu.com.

Przykładowe formatowanie (powyżej) i dane treningowe (poniżej) dla modelu T5. Przykładowe dane pochodzą z www.askubuntu.com.

Zbiór danych utworzono na podstawie próby 300 witryn internetowych zawierających powiadomienia o plikach cookie wybranych z witryny Tranco 50 tys. najpopularniejszych witryn internetowych lista. Moduły detektora i analizatora wyodrębniły opcje zgody na pliki cookie z kodu źródłowego środowiska wykonawczego i oceniły ich stany domyślne.

Następnie jeden z badaczy ręcznie oznaczył zinterpretowaną serię kliknięć niezbędnych do wyłączenia nieistotnych plików cookie dla wszystkich badanych witryn, co dało 300 w pełni oznaczonych domen.

Różnorodność rozmieszczenia kodu źródłowego w przykładach z niestandardowego zestawu danych.

Różnorodność rozmieszczenia kodu źródłowego w przykładach z niestandardowego zestawu danych.

60 witryn internetowych zostało odłożonych na zestaw testowy, a model T5-Large został przeszkolony z szybkością uczenia się 0.003 przy wielkości partii 16 w 20 epokach, przy maksymalnej długości sekwencji wejściowej wynoszącej 256 tokenów i maksymalnej długości sekwencji docelowej z 64. Tokeny zostały utworzone z słów podrzędnych ustalonych przez Google Fragment zdania tokenizator.

Na koniec przetworzone informacje są przechowywane w lokalnej bazie danych i udostępniane na froncie systemu. Autorzy opowiadali się za querySelector () Funkcja HTML w języku XML Path Language (XPath) podejście przyjęte w niektórych poprzednich podobnych projektach, ponieważ ścieżki XPath dla powiadomień o plikach cookie są podatne na aktualizacje DOM (tj. kod może zmienić się po początkowym załadowaniu w odpowiedzi na interakcje użytkownika). W ten sposób ścieżki elementów mogą zostać zachowane nawet wtedy, gdy są dynamiczne i reagują na czynniki zewnętrzne.

Testowanie i wydajność

W praktyce narzędzie CookieEnforcer okazało się zdolne do poruszania się po niektórych z najciemniejszych ciemnych wzorców w zbiorze danych, takich jak ukryta opcja w ramach zgody na pliki cookie Nowy naukowiec który jest zasłonięty przez JavaScript, dopóki użytkownik wyraźnie nie zażąda jego wyświetlenia.

Autorzy komentują:

„Użytkownicy mogą łatwo przeoczyć tę opcję, ponieważ aby ją zobaczyć, muszą rozwinąć dodatkową ramkę. CookieEnforcer nie tylko znajduje tę opcję, ale także rozumie semantykę i decyduje się sprzeciwić. Te przykłady pokazują, że model uczy się kontekstu i uogólnia na nowe przykłady.

Badacze przeprowadzili trzy testy, w tym kompleksową ocenę wydajności frameworka w 500 niewidzianych domenach (tj. witrynach, dla których CookieEnforcer nie został specjalnie przeszkolony), z których autorzy podają, że może on skutecznie wyłączyć niepotrzebne pliki cookie w 91% witryn.

Drugi test obejmował badanie użytkowników online obejmujące 14 witryn internetowych i wykorzystanie Skali Użyteczności Systemu (wynik) w porównaniu z ręcznym poziomem bazowym. W przypadku tego testu autorzy podają, że CookieEnforcer uzyskał o 15% wyższy wynik niż wartość bazowa.

CookieEnforcer umożliwia uzyskanie o 15% wyższego wyniku w porównaniu z bazowym (niewspomaganym) użyciem, jednocześnie automatyzując irytujący proces.

CookieEnforcer umożliwia uzyskanie o 15% wyższego wyniku w porównaniu z bazowym (niewspomaganym) użyciem, jednocześnie automatyzując irytujący proces.

Na koniec przetestowano wyszkolone parametry narzędzia CookieEnforcer w porównaniu z 5000 najpopularniejszych witryn internetowych w USA i Europie, aby określić jego zdolność do poruszania się po powiadomieniach o plikach cookie. Autorzy stwierdzają:

„Chociaż pomiary na taką skalę przeprowadzano już wcześniej, CookieEnforcer pozwala na głębsze zrozumienie opcji wykraczających poza heurystykę opartą na słowach kluczowych. W szczególności odkryliśmy, że 16.7% witryn w Wielkiej Brytanii wyświetlających powiadomienia o plikach cookie włączyło co najmniej jeden, nieistotny plik cookie. Ta sama liczba w przypadku witryn internetowych w USA wynosi 22%.

Autorzy opublikowali na YouTube krótki film prezentujący CookieEnforcer w akcji:

Moduł Cookie Enforcer wyłączający niepotrzebne pliki cookie na stronie Askubuntu.com

 

Opublikowano po raz pierwszy 12 kwietnia 2022 r.