Kunstmatige intelligentie

AI-onderzoekers schatten dat 97% van de EU-websites niet voldoet aan de GDPR-privacyeisen – met name gebruikersprofielen

mm

Onderzoekers in de VS hebben machine learning-technieken gebruikt om de GDPR-privacybeleid van meer dan duizend representatieve websites in de EU te bestuderen. Zij ontdekten dat 97% van de onderzochte websites niet voldeed aan ten minste één vereiste van het EU-regelgevingskader van 2018 en dat zij het minst voldeden aan de regelgevingsvereisten rond de praktijk van ‘gebruikersprofielen’.

Het paper vermeldt:

‘[Aangezien] het privacybeleid het essentiële communicatiekanaal is voor gebruikers om hun privacy te begrijpen en te controleren, hebben veel bedrijven hun privacybeleid bijgewerkt nadat de GDPR van kracht werd. Echter, de meeste privacybeleid zijn verwarrend, vol met jargon en beschrijven de gegevenspraktijken van bedrijven en de rechten van gebruikers vaag. Daarom is het onduidelijk of zij voldoen aan de GDPR.’

Het gaat verder:

‘Onze resultaten laten zien dat zelfs na de inwerkingtreding van de GDPR, 97% van de websites nog steeds niet voldoet aan ten minste één vereiste van de GDPR.’

De studie heeft als titel Automated Detection of GDPR Disclosure Requirements in Privacy Policies using Deep Active Learning en komt van drie onderzoekers aan de University of Virginia at Charlottesville.

Privacy als laatste

Het gebied met de minste naleving, volgens de studie, betreft de bepalingen van de GDPR met betrekking tot gebruikersprofielen, waarbij de auteurs vermelden dat slechts 15,3% van de onderzochte websites volledig voldeden aan deze specifieke regel.

Een grafiek van de naleving onder 9761 websites die voor het onderzoek zijn bestudeerd. Bron: https://arxiv.org/pdf/2111.04224.pdf

Een grafiek van de naleving onder de GDPR-beleid van websites die voor het onderzoek zijn bestudeerd. Bron: https://arxiv.org/pdf/2111.04224.pdf

Gebruikersprofielen (waarbij de interactie van een persoon met websites wordt opgenomen en vaak wordt gebruikt om hen in andere online contexten te ‘targeten’, zoals advertenties) zijn een van de meest omstreden onderwerpen in de technologie sinds het Cambridge Analytica-schandaal.

Op dinsdag heeft een belangrijke commissie van het Europees Parlement goedgekeurd het eerste stadium van de nieuwe Digital Markets Act (DMA) wetgeving, die het gedragsgerichte targeten van minderjarigen verbiedt, met boetes tot 20% van de wereldwijd jaarlijkse omzet voor bedrijven die de regels overtreden.

Hoewel de wetgeving door de media wordt ontvangen als een directe reactie op de groeiende invloed van techreuzen zoals Facebook en Google, suggereert de enorme omvang van de niet-naleving, zoals weergegeven in het nieuwe onderzoek, dat de overgrote meerderheid van de EU-bedrijven (inclusief EU-vestigingen van Amerikaanse bedrijven die in Europa handelen) juridisch kwetsbaar zijn voor GDPR-boetes.

Bovendien heeft Italië deze week de maximale toegestane boete van 10 miljoen euro (11,2 miljoen USD) opgelegd aan Apple en Google vanwege het exploiteren van gebruikersprofielen, onder andere overtredingen.

Gegevens

De onderzochte websites werden geselecteerd uit de top 10.000 websites in Quantcast, waarvan de Engelstalige privacybeleid werden geëxtraheerd via Yandex-zoekopdrachten op UK-gebaseerde VPN’s (om ervoor te zorgen dat de beleid niet werden geblokkeerd op basis van locatie).

EU-websites zijn verplicht om voorgeschreven privacybeleid te verstrekken, dat 18 centrale vereisten dekt (zie grafiek hierboven) sinds de Algemene Verordening Gegevensbescherming (GDPR) in mei 2018 volledig van kracht werd.

De onderzoekers beperkten de extractie van privacybeleid tot een periode vanaf augustus 2018, om een redelijke tijd te geven aan domeinen om de vereiste beleid te publiceren (een vereiste waarvan zij vooraf kennis hadden voor ten minste een jaar van de tweejarige ontwikkelingsfase van de GDPR sinds 2016).

Het filterproces produceerde een privacycorpus van 9.761 beleid, waaruit 1.080 beleid willekeurig werden geselecteerd door de onderzoekers.

Pre-processing

Het team huurde twee juridische experts in om vier menselijke annotators te trainen om elk van de 18 mogelijke privacybeleid die door de GDPR worden voorgeschreven, te labelen.

Sommige van de juridische taal in de beleid dekte meer dan één van de 18 vereisten, waardoor het nodig was om een Convolutional Neural Network (CNN) te gebruiken om taalkenmerken te detecteren die geassocieerd zijn met elk beleid.

Een eerste poging om een model te trainen om naleving te identificeren op basis van taal resulteerde in 80,5% succes. Om deze resultaten te verbeteren, pasten de onderzoekers Active Learning toe om de prestaties van het model te verbeteren met minder gelabelde gegevens. Op deze manier was het mogelijk om de classifier CNN te trainen tot een nauwkeurigheid van 89,2%, met een F1-score van 0,88 (waarbij ‘1’ volledig succes betekent).

Om ervoor te zorgen dat de woordembeddings specifiek waren voor privacybeleid, trainden de onderzoekers een onbegeleide woordembeddingsmodel met behulp van de FastText Python-bibliotheek van Facebook.

Volgens de standaardpraktijk werd de finale gegevens 80/20 gesplitst tussen getrainde gegevens en testgegevens (d.w.z. willekeurig geselecteerde gegevens waartegen de nauwkeurigheid van het algoritme zal worden beoordeeld). Een mens-in-de-lus metingstudie werd toegevoegd aan de architectuur om de kwaliteit van de resultaten te evalueren.

De architectuur voor het classificatiesysteem.

De architectuur voor het classificatiesysteem.

In de loop van de workflow werden 11.271 door mensen gelabelde privacybeleidsegmenten geproduceerd, die elk werden beoordeeld door vier menselijke annotators die waren getraind door de twee juridische experts die bij de studie betrokken waren. Wanneer er onenigheid ontstond, was een overeenstemmingsratio van 75% nodig om de gegevens niet te verwijderen uit de inclusie.

Mensen-in-de-lus – het was niet mogelijk om de labeling van de beleidsgegevens volledig te automatiseren, maar Active Learning maakte een pool-gebaseerd workflow mogelijk die het project haalbaar maakte.

Mensen-in-de-lus – het was niet mogelijk om de labeling van de beleidsgegevens volledig te automatiseren, maar Active Learning maakte een pool-gebaseerd workflow mogelijk die het project haalbaar maakte.

Behalve de reeds genoemde resultaten, ontdekten de onderzoekers dat portabiliteit – het recht onder de GDPR om gegevens die door een bedrijf worden gehouden, te verplaatsen of te exporteren – bijna even slecht werd bediend als profielen.

De onderzoekers concluderen:

‘[Vereisten] zoals het recht van gebruikers op overdraagbaarheid en het verstrekken van contactinformatie van de Functionaris voor Gegevensbescherming (DPO-contact) worden gedekt door respectievelijk 15,5% en 16,4% van de websites. Andere primaire vereisten, zoals het recht van gebruikers om een klacht in te dienen, toestemming in te trekken, het recht om bezwaar te maken en de beslissing over geschiktheid, worden gedekt door 17-20% van de websites.’

…en gaan verder:

‘Het lijkt erop dat slechts 3% van de websites volledig voldoet aan de 18 vereisten. Deze bevindingen geven aan dat veel websites nog steeds niet voldoen aan de vereisten van de GDPR.’

 

 

19:00 26/11/2021 – Eerste grafiekbijschrift verduidelijkt. – MA

Schrijver over machine learning, domeinspecialist in menselijke beeldsynthese. Voormalig hoofd onderzoekscontent bij Metaphysic.ai.