Kunstig intelligens
AI-forskere estimerer, at 97% af EU’s websites ikke opfylder GDPR’s krav til privatliv – især brugerprofiler

Forskere i USA har brugt maskinelærings-teknikker til at studere GDPR’s privatlivspolitik på over 1.000 repræsentative websites baseret i EU. De fandt ud af, at 97% af de undersøgte sites ikke opfylder mindst ét krav i Den Europæiske Unions reguleringsramme fra 2018, og at de især ikke opfylder reguleringskravene omkring “brugerprofiler”.
Papiret siger:
‘[Siden] privatlivspolitikken er den essentielle kommunikationskanal for brugere til at forstå og kontrollere deres privatliv, har mange virksomheder opdateret deres privatlivspolitik efter, at GDPR blev gennemført. Men de fleste privatlivspolitikker er verbale, fulde af jargon og beskriver vagt virksomhedernes datapraksis og brugernes rettigheder. Derfor er det uklart, om de overholder GDPR.’
Det fortsætter:
‘Vores resultater viser, at selv efter GDPR trådte i kraft, fejler 97% af websites stadig at opfylde mindst ét krav i GDPR.’
Den studie har titlen Automatisk registrering af GDPR-disclosure-krav i privatlivspolitikker ved hjælp af Deep Active Learning og kommer fra tre forskere ved University of Virginia at Charlottesville.
Privatliv sidst
Området med lavest overensstemmelse, ifølge studiet, vedrører GDPR’s bestemmelser om brugerprofiler, hvor forfatterne siger, at kun 15,3% af de undersøgte sites var i fuld overensstemmelse med denne specifikke regel.

Et graf over overensstemmelse blandt websites’ GDPR-policys, der blev studeret for forskningen. Kilde: https://arxiv.org/pdf/2111.04224.pdf
Brugerprofiler (hvor en persons interaktion med websites bliver registreret og ofte brugt til at “målrette” dem i andre online-kontekster, såsom reklamer) er blevet en af de hotteste kontroverser i tech, siden Cambridge Analytica-skandalen.
Onsdag passede en nøglekomité i Den Europæiske Parlament den første fase af den nye Digital Markets Act (DMA) lovgivning, som ville forbyde målrettet reklame til mindreårige, med bøder på op til 20% af globale årlige salg for selskaber, der overtræder loven.
Selv om loven er blevet modtaget af medierne som en direkte reaktion på de voksende tech-giganter som Facebook og Google, viser den nye forskning, at den overvældende majoritet af EU-virksomheder (herunder EU-residentkontorer for amerikanske virksomheder, der handler i Europa) er juridisk udsat for GDPR-bøder.
Derudover har Italien denne uge pålagt den maksimale tilladte bøde på 10 millioner euro (11,2 millioner USD) mod Apple og Google for at udnytte brugerprofiler, blandt andet overtrædelser.
Data
De websites, der blev undersøgt i den nye forskning, blev valgt fra de top 10.000 websites, der er listet i Quantcast, og deres engelsksprogede privatlivspolitikker blev hentet gennem Yandex-søgninger på UK-baserede VPN’er (for at sikre, at politikkerne ikke var geo-blokering).
EU-websites har været forpligtet til at give foreskrevne privatlivspolitikker, der dækker 18 centrale krav (se graf ovenfor), siden Den Generelle Databeskyttelsesforordning (GDPR) trådte i kraft i maj 2018.
Forskerne begrænsede deres udtrækning af privatlivspolitikker til en periode fra august 2018 og frem, for at give rimelig tid til domænerne til at have offentliggjort de nødvendige politikker (et krav, de havde forhåndskendskab til i mindst et år af de to års udviklingsfase af GDPR siden 2016).
Filterprocessen producerede en privatlivskorpus på 9.761 politikker, hvorfra 1.080 politikker blev tilfældigt valgt af forskerne.
Forbearbejdning
Teamet ansatte to juridiske eksperter til at træne fire menneskelige annotatorer til at mærke hver af de 18 mulige privatlivspolitikker, der er påkrævet af GDPR.
Nogle af de juridiske udtryk i politikkerne dækkede mere end ét af de 18 krav, hvilket gjorde det nødvendigt at bruge en Convolutional Neural Network (CNN) til at registrere sprogfunktioner, der er forbundet med hver politik.
En første forsøg på at træne en model til at identificere overensstemmelse baseret på sprog opnåede 80,5% succes. For at forbedre disse resultater anvendte forskerne Active Learning for at styrke modellens præstation ved hjælp af mindre mærket data. Ved disse midler var det muligt at træne klassificator-CNN op til en nøjagtighed på 89,2%, med en F1-score på 0,88 (hvor ‘1’ er fuld succes).
For at sikre, at ordindlejningerne var specifikke for privatlivspolitik, trænede forskerne en ubetjent ordindlejningsmodel ved hjælp af Facebooks FastText Python-bibliotek.
Ifølge standardpraksis blev den endelige data delt 80/20 mellem trænet data og testdata (dvs. tilfældigt valgt data, som algoritmens nøjagtighed vil blive vurderet mod). En menneske-i-løkken-målingsstudie blev tilføjet til arkitekturen for at evaluere resultaternes kvalitet.

Arkitekturen for klassificatorsystemet.
I løbet af arbejdsgangen blev 11.271 menneske-mærkede privatlivspolitik-segmenter produceret, hver af dem blev gennemgået af fire menneskelige annotatorer, der var trænet af de to juridiske eksperter, der deltog i studiet. Hvor uenighed opstod, var en 75%-enighedsratio nødvendig for ikke at afvise data fra inklusion.

Mennesker-i-løkken – det var ikke muligt at fuldstændigt automatisere mærkning af politikdata, selv om Active Learning enablede en pool-baseret arbejdsgang, der gjorde projektet gennemførligt.
Ud over de allerede nævnte resultater fandt brugerne ud af, at portabilitet – retten under GDPR til at flytte eller eksportere data, der holdes af et selskab – var næsten lige så dårligt betjent som profilering.
Forskerne konkluderer:
‘[Krav] såsom brugernes ret til portabilitet og til at give kontaktoplysninger om Data Protection Officer (DPO-kontakt) er dækket af 15,5% og 16,4% websites, respectively. Andre primære krav, såsom brugernes ret til at indgive klage, tilbagekaldelse af samtykke, ret til at modsætte sig og Adequacy Decision, er dækket af 17-20% websites.’
…og fortsætter:
‘Det ser ud til, at kun 3% af websites fuldt ud overholder de 18 krav. Disse resultater indikerer, at mange websites stadig ikke følger GDPR’s krav.’
19:00 26/11/2021 – Klaret første graf-kaption. – MA












