Unghiul lui Anderson

Cercetătorii în domeniul inteligenței artificiale estimează că 97% din site-urile UE nu respectă cerințele de confidențialitate ale GDPR – în special profilarea utilizatorilor

Publicat 26 noiembrie 2021

Actualizat 24 mai 2026

Martin Anderson

Cercetătorii din Statele Unite au utilizat tehnici de învățare automată pentru a studia politicile de confidențialitate ale GDPR ale peste o mie de site-uri reprezentative cu sediul în UE. Ei au constatat că 97% din site-urile studiate nu respectă cel puțin o cerință a cadrului normativ din 2018 al Uniunii Europene, și că acestea respectă cel mai puțin cerințele legale referitoare la practica de “profilare a utilizatorilor”.

Articolul afirmă:

‘[Deoarece] politica de confidențialitate este canalul esențial de comunicare pentru utilizatori pentru a înțelege și a controla confidențialitatea lor, multe companii și-au actualizat politicile de confidențialitate după ce GDPR a fost pus în aplicare. Cu toate acestea, majoritatea politicilor de confidențialitate sunt verbose, pline de jargon și descriu vag practicile de date ale companiilor și drepturile utilizatorilor. Prin urmare, nu este clar dacă acestea respectă GDPR.’

Acesta continuă:

‘Rezultatele noastre arată că, chiar și după ce GDPR a intrat în vigoare, 97% din site-uri nu respectă încă cel puțin o cerință a GDPR.’

Studiul este intitulat Detectarea automată a cerințelor de divulgare ale GDPR în politicile de confidențialitate utilizând învățarea activă profundă și provine de la trei cercetători de la Universitatea din Virginia din Charlottesville.

Confidențialitatea pe ultimul loc

Zona cu cea mai mică conformitate, conform studiului, se referă la prevederile GDPR privind profilarea utilizatorilor, autorii afirmând că doar 15,3% din site-urile studiate respectă pe deplin această regulă particulară.

Un grafic al conformității cu GDPR în rândul site-urilor studiate pentru cercetare. Sursă: https://arxiv.org/pdf/2111.04224.pdf

Un grafic al conformității cu politicile de confidențialitate ale GDPR studiate pentru cercetare. Sursă: https://arxiv.org/pdf/2111.04224.pdf

Profilarea utilizatorilor (unde interacțiunea unei persoane cu site-urile este înregistrată și adesea utilizată pentru a “ținti” aceste persoane în alte contexte online, cum ar fi publicitatea) a devenit una dintre cele mai fierbinți controverse în tehnologie de la scandalul Cambridge Analytica.

Marți, un comitet cheie al Parlamentului European a adoptat prima etapă a noii legi privind piețele digitale (DMA) care ar interzice țintirea comportamentală a minorilor, impunând amenzi de până la 20% din vânzările anuale globale pentru companiile care încalcă regulile.

Deși actul a fost primit de mass-media ca o reacție directă la influența tot mai mare a gigantilor tehnologici precum Facebook și Google, amploarea non-conformității reprezentate de noua cercetare sugerează că majoritatea covârșitoare a companiilor UE (inclusiv birourile rezidente ale companiilor americane care fac comerț în Europa) sunt expuse la amenzi GDPR.

În plus, Italia a impus această săptămână amendă maximă de 10 milioane de euro ($11,2 milioane USD) împotriva Apple și Google pentru exploatarea profilării utilizatorilor, printre alte încălcări.

Date

Site-urile examinate în noua cercetare au fost selectate din top 10.000 de site-uri listate în Quantcast, politicile de confidențialitate în limba engleză ale cărora au fost extrase prin căutări Yandex pe VPN-uri cu sediul în Regatul Unit (pentru a se asigura că politicile nu erau blocate geografic).

Site-urile UE au fost obligate să furnizeze politici de confidențialitate prescrise, care acoperă 18 cerințe centrale (a se vedea graficul de mai sus) de la intrarea în vigoare a Regulamentului general privind protecția datelor (GDPR) în mai 2018.

Cercetătorii și-au limitat extragerea politicilor de confidențialitate la o perioadă care a început în august 2018, pentru a permite un timp rezonabil pentru domenii să publice politicile cerute (o cerință pe care o aveau cunoștință din timp, având în vedere faza de dezvoltare a GDPR de doi ani, începând cu 2016).

Procesul de filtrare a produs un corpus de politici de confidențialitate de 9.761 de politici, din care 1.080 de politici au fost selectate aleatoriu de către cercetători.

Pre-procesare

Echipa a angajat doi experți în drept pentru a instrui patru annotatori umani să eticheteze fiecare dintre cele 18 politici de confidențialitate posibile impuse de GDPR.

Unele dintre “jargonul” din politicile acoperă mai mult de una dintre cele 18 cerințe, făcând necesară utilizarea unei rețele neuronale convolutive (CNN) pentru a detecta caracteristicile lingvistice asociate fiecărei politici.

O încercare inițială de a antrena un model pentru a identifica conformitatea pe baza limbajului a atins un succes de 80,5%. Pentru a îmbunătăți aceste rezultate, cercetătorii au aplicat învățarea activă pentru a consolida performanța modelului utilizând mai puține date etichetate. Prin aceste mijloace a fost posibilă antrenarea clasificatorului CNN până la o acuratețe de 89,2%, cu un scor F1 de 0,88 (unde “1” reprezintă succesul complet).

Pentru a se asigura că încorporarea cuvintelor este specifică politicii de confidențialitate, cercetătorii au antrenat un model de încorporare a cuvintelor nesupravegheat utilizând biblioteca Python FastText a Facebook.

Conform practicii standard, datele finale au fost împărțite 80/20 între datele de antrenare și datele de testare (adică date selectate aleatoriu împotriva cărora se va evalua acuratețea algoritmului). O măsurători umană în buclă a fost adăugată arhitecturii pentru a evalua calitatea rezultatelor.

Arhitectura sistemului de clasificare.

În cursul fluxului de lucru, au fost produse 11.271 de segmente de politici de confidențialitate etichetate de către oameni, fiecare dintre acestea fiind revizuită de patru annotatori umani care fuseseră instruiți de cei doi experți în drept implicați în studiu. În caz de dezacord, a fost necesară o rată de acord de 75% pentru a nu respinge datele din includere.

Oameni în buclă – nu a fost posibil să se automateze complet etichetarea datelor politicii, deși învățarea activă a permis un flux de lucru bazat pe pool care a făcut proiectul fezabil.

Pe lângă rezultatele menționate anterior, utilizatorii au constatat că portabilitatea – dreptul prevăzut de GDPR de a transfera sau exporta date deținute de o companie – a fost aproape la fel de slab servită ca și profilarea.

Cercetătorii concluzionează:

‘[Cerințe] cum ar fi dreptul utilizatorilor la portabilitate și furnizarea informațiilor de contact ale ofițerului de protecție a datelor (contact DPO) sunt acoperite de 15,5% și, respectiv, 16,4% site-uri. Alte cerințe primare, cum ar fi dreptul utilizatorilor de a depune o plângere, de a retrage consimțământul, de a se opune și de a lua decizii privind adecvarea, sunt acoperite de 17-20% site-uri.’

…și continuă:

‘Pare că doar 3% din site-uri respectă pe deplin cele 18 cerințe. Aceste constatări indică faptul că multe site-uri nu respectă încă cerințele GDPR.’

7pm 26/11/2021 – Clarificat prima legendă a graficului. – MA

Martin Anderson

Scriitor pe machine learning, specialist în domeniul sintezei de imagini umane. Foster head of research content la Metaphysic.ai.

Unite.AI

Cercetătorii în domeniul inteligenței artificiale estimează că 97% din site-urile UE nu respectă cerințele de confidențialitate ale GDPR – în special profilarea utilizatorilor

Confidențialitatea pe ultimul loc

Date

Pre-procesare

You may like