ciot Învățare automată vs. Sisteme de consimțământ pentru cookie-uri - Unite.AI
Conectează-te cu noi

Inteligenta Artificiala

Învățare automată vs. sisteme de consimțământ pentru cookie-uri

mm
Actualizat on
Unul dintre cuburile criptice din franciza Hellraiser.

O nouă colaborare de cercetare între Universitatea din Wisconsin și Google stabilește învățarea automată împotriva uneia dintre cele mai notorii supărări ale utilizatorilor web din ultimul deceniu – opacitatea și utilizarea abuzivă cinică a bannerelor de consimțământ pentru cookie-uri conforme cu GDPR.

intitulat CookieEnforcer, noul cadru folosește Înțelegerea textului semantic pentru a analiza semnificația și utilitatea codului care stau la baza ferestrei pop-up sau a bannerului de consimțământ pentru cookie-uri, pentru a oferi utilizatorului soluția lipsă „un singur clic” pentru a dezactiva toate cookie-urile cu adevărat „nenecesare” – inclusiv pe cele pe care proprietarii de domenii le pot prezente ca fiind „esențiale”, chiar dacă nu sunt.

CookieEnforcer examinează codul de consimțământ pentru cookie-uri de pe site-ul web www.askubuntu.com. Sursa: https://arxiv.org/pdf/2204.04221.pdf

CookieEnforcer examinează codul de consimțământ pentru cookie-uri de pe site-ul web www.askubuntu.com. Sursă: https://arxiv.org/pdf/2204.04221.pdf

Sistemul este implementat printr-un plugin de browser web instalat de utilizator, care este capabil să aplice reguli definite de utilizator cu un singur clic. Odată ce un cadru de consimțământ pentru cookie-uri apare pe site-ul web, utilizatorul poate activa pluginul, care va căuta apoi codul de consimțământ pentru cookie-uri pentru acțiuni potențiale înainte de a genera JavaScript adecvat pentru a pune în aplicare alegeri în numele utilizatorului.

Pluginul poate fi setat să impună automat preferințele utilizatorului sau să ia cazurile individual, permițând utilizatorului să ajusteze setările înainte de trimiterea finală.

Aplicatorul cookie-urilor în acțiune. Dacă se preferă, pluginul Chrome poate automatiza complet acest proces, fără contribuția suplimentară a utilizatorului. Vedeți videoclipul încorporat ulterior pentru mai multe detalii. Sursa: https://www.youtube.com/watch?v=5NI6Q981quc

Aplicatorul cookie-urilor în acțiune. Dacă se preferă, pluginul Chrome poate automatiza complet acest proces, fără contribuția suplimentară a utilizatorului. Vedeți videoclipul încorporat ulterior pentru mai multe detalii. Sursa: https://www.youtube.com/watch?v=5NI6Q981quc

Provocarea de a analiza posibilele opțiuni „fără consimțământ”, care sunt de obicei ascunse în grupuri de setări arcane și laborioase (mai degrabă decât cele ușor de utilizat accepta toate tipice cadrelor de consimțământ) este modelată ca a secvență la secvență sarcină.

Într-o evaluare end-to-end a acurateței, CookieEnforcer a reușit să genereze toți pașii necesari pentru a evita procedurile criptice de consimțământ pentru cookie-uri în 91% dintre cazurile studiate, pe domenii care nu au fost văzute în timpul antrenării modelului de învățare automată a sistemului. Un studiu asupra utilizatorilor a demonstrat în continuare că sistemul reduce semnificativ efortul utilizatorului în navigarea modulelor de consimțământ.

hârtie prezentarea metodei este intitulată CookieEnforcer: Analiză și aplicare automată a notificărilor privind cookie-urileși provine de la trei cercetători de la Universitatea Wisconsin din Madison și unul de la Google Inc.

Drumuri Arcane către Consimțământul Cookie

De la intrarea în vigoare a Regulamentului general privind protecția datelor (GDPR) în 2016 și Legea privind confidențialitatea consumatorilor din California (CCPA) în 2018, site-urile web care doresc să implice utilizatori din domeniile acoperite de o astfel de legislație au fost obligate să furnizeze mecanisme de preferință pentru cookie-uri (de obicei bazate pe detectarea adresei IP a utilizatorului ca proxy pentru țara de origine).

Cu toate acestea, deoarece proprietarii de domenii au fost obișnuiți de multă vreme să culeagă date valoroase și acționabile ale utilizatorilor din implementarea opace și de obicei nevăzută a cookie-urilor, ei s-au dovedit reticenți în a oferi renunțări simple pentru utilizatorii lor nou împuterniciți.

Interfața de utilizare implicită pentru interfețele de consimțământ pentru cookie-uri (care apar prima dată când un utilizator vizitează un domeniu sau dacă utilizatorul a șters cookie-urile pentru acel domeniu) s-a instalat rapid în modele întunecate conceput pentru a obosi spectatorul cu alegeri granulare, consumatoare de timp și extinse în cazul în care ar dori să-și exercite drepturile la consimțământ; sau altfel un buton simplu și ușor accesibil care a inclus utilizatorul în toate cookie-urile pe care proprietarul domeniului dorea să le ruleze. Această cultură a alegerilor labirintice ale IU a fost descrisă într-un studiu din 2020 ca „o vânătoare de scavenger”.

Noua lucrare comentează:

„[Utilizatorii] le poate fi greu să exercite un control informat asupra cookie-urilor pentru site-urile web cu notificări complicate. Este mult mai probabil să se bazeze pe configurațiile implicite decât să își ajusteze setările cookie-urilor pentru fiecare [site web]. În mai multe cazuri, aceste setări implicite afectează confidențialitatea și favorizează furnizorii de servicii, ceea ce duce la [riscuri] de confidențialitate”.

Un comentariu la unul postare populară pe forum referitor la aceste practici le-a caracterizat drept „conformitate rău intenționată”. Enervarea utilizatorilor cu cadrele de consimțământ pentru cookie-uri este un subiect care pune în conflict editorii majori, care de obicei și-ar putea permite o acoperire suplimentară dacă nu ar fi expuși atât de personal de propriile practici în acest sens.

Un labirint tipic de opțiuni prezentat, în acest caz, de site-ul web TechCrunch, în mod ironic, ca o prefață la un articol despre schimbarea atitudinii UE față de ceea ce reprezintă consimțământul pentru cookie-uri. Identificatorii URL atașați și cârligele concepute pentru a permite în continuare urmărirea aveau 262 de caractere (șterse aici). Un buton „respinge toate”, deși este disponibil pentru anumite categorii de cookie-uri, nu este disponibil pentru întregul set de cookie-uri posibile; în acele cazuri excepționale, utilizatorul trebuie să opereze fiecare „comutator”.

Un labirint tipic de opțiuni prezentat, în acest caz, de site-ul web TechCrunch, în mod ironic ca o prefață la o articol privind schimbarea atitudinii UE față de ceea ce reprezintă consimțământul pentru cookie-uri. Identificatorii URL atașați și cârligele concepute pentru a permite în continuare urmărirea aveau 262 de caractere (șterse aici). Un buton „respinge toate”, deși este disponibil pentru anumite categorii de cookie-uri, nu este disponibil pentru întregul set de cookie-uri posibile; în acele cazuri excepționale, utilizatorul trebuie să opereze fiecare „comutator”.

A Hârtie 2019 din Germania a constatat că majoritatea vizitatorilor site-urilor din domeniile studiate au fost „îndreptați” spre consimțământul larg și că doar o treime dintre site-uri web au explicat de fapt scopurile practicilor de colectare a datelor.

În ultimii ani, au apărut o serie de pluginuri, suplimente și extensii pentru browser web pentru a rezolva problema, cum ar fi Manager rapid de cookie-uri extensia Firefox și a gama larga de alternative Chrome, în timp ce Uniunea Europeană este căutând să se închidă lacunele de conformitate din jurul arhitecturilor de consimțământ pentru cookie-uri.

Metodă și date

Cercetătorii noii lucrări au fost hotărâți să creeze un cadru mai robust de gestionare a consimțământului pentru cookie-uri, evitând dependența de cuvinte cheie sau de reguli realizate manual, abordarea centrală a unui număr de proiecte similare recente. asistat de ML Proiecte.

CookieEnforcer are trei obiective: să traducă notificările și interfețele cookie într-un format care poate fi citit de mașină; pentru a identifica configurația de setare a cookie-urilor într-o manieră care dezactivează cookie-urile neesențiale; și pentru a aplica automat restricții suplimentare fără introducere suplimentară a utilizatorului, dacă acesta dorește.

Sistemul constă dintr-o componentă backend care detectează și analizează notificările cookie și o componentă frontend, sub forma unei extensii de browser, care generează și execută dezactivarea cookie-urilor neesențiale (adică cookie-uri care nu vor împiedica navigarea sau accesul la domeniul dacă este blocat).

Cadrul este încorporat într-o extensie instalată local specifică Chrome, care utilizează Seleniu biblioteca de testare web sub ChromeDriver cadru.

Secțiunea backend include module pentru detectare, analiză și un model de decizie. Modulul de analiză ține cont de modificările de cod introduse de interacțiunea utilizatorului, astfel încât dump-ul inițial de cod să nu fie invalidat prin explorarea simulată a utilizatorului.

Înțelegerea limbajului natural

Odată cu dezvăluirea codului, este important ca CookieEnforcer să înțeleagă starea existentă a posibilelor acțiuni pe care le-ar putea întreprinde, deoarece limba din spatele butoanelor de comutare poate fi ambiguă în ceea ce privește beneficiul utilizatorului final.

În acest scop, cercetătorii au instruit a Transformator de transfer text în text (T5) pentru componenta sa de decizie. Modelul T5-Large, care conține 770 de milioane de parametri, a fost ajustat pe o bază de date personalizată de cod de intrare/ieșire (adică, cod care descrie și activează funcționalitatea opțiunilor de comutare).

Eșantion de formatare (mai sus) și date de antrenament (mai jos) pentru modelul T5. Exemplul de date este de pe www.askubuntu.com.

Eșantion de formatare (mai sus) și date de antrenament (mai jos) pentru modelul T5. Exemplul de date este de pe www.askubuntu.com.

Setul de date a fost creat prin eșantionarea a 300 de site-uri web cu notificări privind cookie-urile selectate de la Tranco top-50k site-uri populare listă. Modulele detector și analizor au extras opțiunile de consimțământ pentru cookie-uri din codul lor sursă de rulare și le-au evaluat stările implicite.

Unul dintre cercetători a etichetat apoi manual seria interpretată de clicuri necesare pentru a dezactiva cookie-urile neesențiale pentru toate site-urile web studiate, rezultând 300 de domenii complet etichetate.

Varietate în dispozițiile codului sursă prin exemple din setul de date personalizat.

Varietate în dispozițiile codului sursă prin exemple din setul de date personalizat.

60 de site-uri web au fost puse deoparte ca set de testare, iar modelul T5-Large a fost antrenat cu o rată de învățare de 0.003 la o dimensiune a lotului de 16 pentru 20 de epoci, cu o lungime maximă a secvenței de intrare de 256 de jetoane și o lungime maximă a secvenței țintă. de 64. Jetoanele erau formate din subcuvinte stabilite de Google SentencePiece tokenizer.

În cele din urmă, informațiile procesate sunt stocate într-o bază de date locală și puse la dispoziția front-end-ului sistemului. Autorii au favorizat querySelector () Funcția HTML peste limbajul de cale XML (XPath) abordare adoptată de unele proiecte similare anterioare, deoarece XPaths pentru notificările cookie sunt vulnerabile la actualizările DOM (adică codul se poate schimba după încărcarea inițială ca răspuns la interacțiunile utilizatorului). În acest fel, traseele elementelor pot fi reținute chiar și atunci când sunt dinamice și receptive la factori externi.

Testare și performanță

În practică, CookieEnforcer s-a dovedit capabil să navigheze în unele dintre cele mai întunecate modele întunecate din setul de date, cum ar fi o opțiune ascunsă în cadrul de consimțământ pentru cookie-uri Noul om de știință care este ascuns de JavaScript până când utilizatorul solicită în mod explicit să îl vadă.

Autorii comentează:

„Această opțiune poate fi ușor ratată de utilizatori, deoarece trebuie să extindă un cadru suplimentar pentru a vedea asta. CookieEnforcer nu numai că găsește această opțiune, dar înțelege și semantica și decide să obiecteze. Aceste exemple arată că modelul învață contextul și generalizează la noi exemple.

Cercetătorii au efectuat trei teste, inclusiv o evaluare end-to-end a performanței cadrului pe 500 de domenii nevăzute (adică site-uri web pentru care CookieEnforcer nu a fost instruit în mod special), unde autorii raportează că ar putea dezactiva cu succes cookie-urile neesențiale pentru 91% a site-urilor.

Al doilea test a cuprins un studiu online al utilizatorilor care acoperă 14 site-uri web și utilizând scara de utilizare a sistemului (scorul) față de o linie de bază manuală. Pentru acest test, autorii raportează că CookieEnforcer a obținut un scor cu 15% mai mare decât valoarea de bază.

CookieEnforcer permite un scor cu 15% mai mare decât utilizarea inițială (neasistată), automatizează în același timp un proces deranjant.

CookieEnforcer permite un scor cu 15% mai mare decât utilizarea inițială (neasistată), automatizează în același timp un proces deranjant.

În cele din urmă, parametrii antrenați de CookieEnforcer au fost testați pe primele 5000 de site-uri web din SUA și Europa, pentru a determina capacitatea acestuia de a naviga în notificările cookie. Autorii afirmă:

„În timp ce măsurătorile la o astfel de scară au fost efectuate înainte, CookieEnforcer permite o înțelegere mai profundă a opțiunilor dincolo de euristica bazată pe cuvinte cheie. În special, constatăm că 16.7% dintre site-urile web din Marea Britanie care afișează notificări privind cookie-urile au activat cel puțin un cookie neesențial. Același număr pentru site-urile web din SUA este de 22%.'

Autorii au lansat un scurt videoclip YouTube care arată CookieEnforcer în acțiune:

Cookie Enforcer dezactivează cookie-urile neesențiale pe askubuntu.com

 

Publicat prima dată pe 12 aprilie 2022.