Artificial Intelligence
Uczenie maszynowe a systemy zgody na pliki cookie
Nowa współpraca badawcza pomiędzy Uniwersytetem Wisconsin i Google stawia uczenie maszynowe w obliczu jednej z najbardziej znanych irytacji użytkowników sieci ostatniej dekady – nieprzejrzystości i cynicznego niewłaściwego użycia banerów zgody na pliki cookie zgodnych z RODO.
pod tytulem Moduł plików cookie, wykorzystuje nowe ramy Semantyczne zrozumienie tekstu przeanalizować znaczenie i użyteczność kodu źródłowego znajdującego się za wyskakującym okienkiem lub banerem wyrażającym zgodę na pliki cookie, aby zapewnić użytkownikowi brakujące rozwiązanie „jednym kliknięciem” umożliwiające wyłączenie wszystkich naprawdę „niepotrzebnych” plików cookie – w tym tych, które właściciele domen mogą obecne jako „niezbędne”, nawet jeśli takie nie są.
System jest wdrażany poprzez instalowaną przez użytkownika wtyczkę do przeglądarki internetowej, która jednym kliknięciem umożliwia zastosowanie zdefiniowanych przez użytkownika reguł. Gdy w witrynie internetowej pojawi się struktura zgody na pliki cookie, użytkownik może aktywować wtyczkę, która następnie przeszuka kod zgody na pliki cookie pod kątem potencjalnych działań, zanim wygeneruje odpowiedni kod JavaScript umożliwiający dokonanie wyborów w imieniu użytkownika.
Wtyczkę można ustawić tak, aby automatycznie wymuszała preferencje użytkownika lub też rozpatrywała przypadki indywidualnie, umożliwiając użytkownikowi dostosowanie ustawień przed ostatecznym przesłaniem.
Wyzwanie polegające na przeanalizowaniu możliwych opcji „braku zgody”, które zazwyczaj są ukryte w tajemniczych i pracochłonnych grupach ustawień (zamiast przyjaznego dla użytkownika Akceptuj wszystkie typowe dla ram zgody) jest modelowany jako: sekwencja do sekwencji zadaniem.
W ramach kompleksowej oceny dokładności narzędzie CookieEnforcer było w stanie wygenerować wszystkie niezbędne kroki w celu obejścia procedur wyrażania zgody na tajemnicze pliki cookie w 91% zbadanych przypadków w domenach, które nie były widziane podczas szkolenia modelu uczenia maszynowego systemu. Badanie użytkowników wykazało ponadto, że system znacznie zmniejsza wysiłek użytkownika związany z poruszaniem się po modułach zgody.
Połączenia papier prezentująca metodę nosi tytuł CookieEnforcer: automatyczna analiza i egzekwowanie powiadomień o plikach cookiei pochodzi od trzech badaczy z Uniwersytetu Wisconsin w Madison i jednego z Google Inc.
Arcane Roads do zgody na pliki cookie
Od czasu wejścia w życie ogólnego rozporządzenia o ochronie danych (`RODO) w 2016 r. i zgodnie z kalifornijską ustawą o ochronie prywatności konsumentów (CCPA) z 2018 r. strony internetowe chcące angażować użytkowników z obszarów objętych tymi przepisami były zobowiązane do zapewnienia mechanizmów preferencji dotyczących plików cookie (zwykle opartych na wykrywaniu adresu IP użytkownika jako serwera proxy dla jego kraj pochodzenia).
Ponieważ jednak właściciele domen od dawna byli przyzwyczajeni do gromadzenia cennych i przydatnych danych użytkowników z nieprzejrzystej i zwykle niewidocznej implementacji plików cookie, okazali niechęć do zapewniania łatwych możliwości rezygnacji swoim nowo uprawnionym użytkownikom.
Domyślny interfejs użytkownika dla interfejsów zgody na pliki cookie (pojawiających się, gdy użytkownik odwiedza domenę po raz pierwszy lub jeśli użytkownik usunął pliki cookie dla tej domeny) szybko się przyjął ciemne wzory zaprojektowane tak, aby męczyć widza szczegółowymi, czasochłonnymi i rozbudowanymi wyborami w przypadku, gdyby chciał skorzystać ze swojego prawa do wyrażenia zgody; lub też prosty i łatwo dostępny przycisk, który pozwala użytkownikowi na korzystanie ze wszystkich plików cookie, które właściciel domeny chciał uruchomić. Tę kulturę labiryntowych wyborów interfejsu użytkownika opisano w jednym z badań przeprowadzonych w 2020 r. jako: „polowanie na padlinożerców”.
W nowym wydaniu gazety komentuje:
„[Użytkownicy] mogą mieć trudności ze świadomą kontrolą plików cookie w witrynach zawierających skomplikowane powiadomienia. O wiele częściej polegają na domyślnych konfiguracjach niż na dostosowywaniu ustawień plików cookie dla każdej [strony internetowej]. W kilku przypadkach te ustawienia domyślne naruszają prywatność i faworyzują dostawców usług, co skutkuje [zagrożeniem] prywatności”.
Komentarz do jednego popularny wpis na forum w odniesieniu do tych praktyk określił je jako „złośliwe przestrzeganie”. Irytacja użytkowników związana z zasadami wyrażania zgody na pliki cookie to temat, który powoduje konflikty z głównymi wydawcami, którzy zwykle mogliby pozwolić sobie na dalsze omówienie, gdyby nie byli tak osobiście narażeni na skutki swoich własnych praktyk w tym zakresie.
A Papier 2019 z Niemiec ustaliło, że większość osób odwiedzających strony w badanych domenach „namawiano” do szerokiej zgody i że tylko jedna trzecia stron internetowych faktycznie wyjaśniła cele praktyk gromadzenia danych.
W ostatnich latach pojawiło się wiele wtyczek, dodatków i rozszerzeń do przeglądarek internetowych, które mają rozwiązać ten problem, np Menedżer plików cookie rozszerzenie przeglądarki Firefox i a Szeroki zakres alternatyw dla Chrome, podczas gdy Unia Europejska chcąc się zamknąć luki w przepisach dotyczące architektur zgody na pliki cookie.
Metoda i dane
Badacze pracujący nad nowym dokumentem byli zdeterminowani stworzyć solidniejsze ramy zarządzania zgodą na pliki cookie, unikając polegania na słowach kluczowych lub ręcznie opracowanych regułach, co stanowi główne podejście w wielu niedawnych podobnych Wspomagane ML projektowanie.
CookieEnforcer ma trzy cele: tłumaczenie powiadomień i interfejsów dotyczących plików cookie na format nadający się do odczytu maszynowego; identyfikacji konfiguracji ustawień plików cookies w sposób uniemożliwiający obsługę nieistotnych plików cookies; oraz automatyczne stosowanie dodatkowych ograniczeń bez dalszego udziału użytkownika, jeśli użytkownik sobie tego życzy.
System składa się z komponentu backendowego, który wykrywa i analizuje powiadomienia o plikach cookie, oraz komponentu frontendowego w postaci rozszerzenia przeglądarki, który generuje i powoduje wyłączenie nieistotnych plików cookies (tj. plików cookies, które nie będą utrudniać nawigacji lub dostępu do domena, jeśli jest zablokowana).
Struktura jest zawarta w lokalnie zainstalowanym rozszerzeniu specyficznym dla przeglądarki Chrome, które korzysta z Selen biblioteka do testowania sieci w ramach Sterownik Chrome Ramy.
Sekcja backendu zawiera moduły do wykrywania, analizy i modelu decyzyjnego. Moduł analizy uwzględnia zmiany w kodzie wprowadzone przez interakcję użytkownika, dzięki czemu początkowy zrzut kodu nie zostaje unieważniony w wyniku symulowanej eksploracji użytkownika.
Zrozumienie naturalnego języka
Po ujawnieniu kodu ważne jest, aby CookieEnforcer rozumiał istniejący stan możliwych działań, jakie może podjąć, ponieważ język przycisków przełączania może być niejednoznaczny pod względem korzyści dla użytkownika końcowego.
W tym celu naukowcy przeszkolili m.in Transformator transferu tekstu na tekst Model (T5) dla jego komponentu decyzyjnego. Model T5-Large, który zawiera 770 milionów parametrów, został dostrojony w oparciu o niestandardową bazę danych zawierającą kod wejścia/wyjścia (tj. kod opisujący i umożliwiający funkcjonalność przełączania opcji).
Zbiór danych utworzono na podstawie próby 300 witryn internetowych zawierających powiadomienia o plikach cookie wybranych z witryny Tranco 50 tys. najpopularniejszych witryn internetowych lista. Moduły detektora i analizatora wyodrębniły opcje zgody na pliki cookie z kodu źródłowego środowiska wykonawczego i oceniły ich stany domyślne.
Następnie jeden z badaczy ręcznie oznaczył zinterpretowaną serię kliknięć niezbędnych do wyłączenia nieistotnych plików cookie dla wszystkich badanych witryn, co dało 300 w pełni oznaczonych domen.
60 witryn internetowych zostało odłożonych na zestaw testowy, a model T5-Large został przeszkolony z szybkością uczenia się 0.003 przy wielkości partii 16 w 20 epokach, przy maksymalnej długości sekwencji wejściowej wynoszącej 256 tokenów i maksymalnej długości sekwencji docelowej z 64. Tokeny zostały utworzone z słów podrzędnych ustalonych przez Google Fragment zdania tokenizator.
Na koniec przetworzone informacje są przechowywane w lokalnej bazie danych i udostępniane na froncie systemu. Autorzy opowiadali się za querySelector () Funkcja HTML w języku XML Path Language (XPath) podejście przyjęte w niektórych poprzednich podobnych projektach, ponieważ ścieżki XPath dla powiadomień o plikach cookie są podatne na aktualizacje DOM (tj. kod może zmienić się po początkowym załadowaniu w odpowiedzi na interakcje użytkownika). W ten sposób ścieżki elementów mogą zostać zachowane nawet wtedy, gdy są dynamiczne i reagują na czynniki zewnętrzne.
Testowanie i wydajność
W praktyce narzędzie CookieEnforcer okazało się zdolne do poruszania się po niektórych z najciemniejszych ciemnych wzorców w zbiorze danych, takich jak ukryta opcja w ramach zgody na pliki cookie Nowy naukowiec który jest zasłonięty przez JavaScript, dopóki użytkownik wyraźnie nie zażąda jego wyświetlenia.
Autorzy komentują:
„Użytkownicy mogą łatwo przeoczyć tę opcję, ponieważ aby ją zobaczyć, muszą rozwinąć dodatkową ramkę. CookieEnforcer nie tylko znajduje tę opcję, ale także rozumie semantykę i decyduje się sprzeciwić. Te przykłady pokazują, że model uczy się kontekstu i uogólnia na nowe przykłady.
Badacze przeprowadzili trzy testy, w tym kompleksową ocenę wydajności frameworka w 500 niewidzianych domenach (tj. witrynach, dla których CookieEnforcer nie został specjalnie przeszkolony), z których autorzy podają, że może on skutecznie wyłączyć niepotrzebne pliki cookie w 91% witryn.
Drugi test obejmował badanie użytkowników online obejmujące 14 witryn internetowych i wykorzystanie Skali Użyteczności Systemu (wynik) w porównaniu z ręcznym poziomem bazowym. W przypadku tego testu autorzy podają, że CookieEnforcer uzyskał o 15% wyższy wynik niż wartość bazowa.
Na koniec przetestowano wyszkolone parametry narzędzia CookieEnforcer w porównaniu z 5000 najpopularniejszych witryn internetowych w USA i Europie, aby określić jego zdolność do poruszania się po powiadomieniach o plikach cookie. Autorzy stwierdzają:
„Chociaż pomiary na taką skalę przeprowadzano już wcześniej, CookieEnforcer pozwala na głębsze zrozumienie opcji wykraczających poza heurystykę opartą na słowach kluczowych. W szczególności odkryliśmy, że 16.7% witryn w Wielkiej Brytanii wyświetlających powiadomienia o plikach cookie włączyło co najmniej jeden, nieistotny plik cookie. Ta sama liczba w przypadku witryn internetowych w USA wynosi 22%.
Autorzy opublikowali na YouTube krótki film prezentujący CookieEnforcer w akcji:
Opublikowano po raz pierwszy 12 kwietnia 2022 r.