Artificiell intelligens

AI-forskare uppskattar att 97% av EU:s webbplatser inte uppfyller kraven för GDPR:s integritetspolicy – sĂ€rskilt anvĂ€ndarprofiler

mm

Forskare i USA har använt maskinlärningstekniker för att studera GDPR:s integritetspolicy för över tusen representativa webbplatser baserade i EU. De fann att 97% av de undersökta webbplatserna inte uppfyllde minst ett krav i EU:s regleringsram från 2018, och att de uppfyllde kraven minst av allt kring praxis för “användarprofiler”.

Arbetet säger:

‘[Eftersom] integritetspolicyn är den viktigaste kommunikationskanalen för användare att förstå och kontrollera sin integritet, uppdaterade många företag sina integritetspolicys efter att GDPR trädde i kraft. Men de flesta integritetspolicys är verbosa, fulla av jargon och beskriver företagens datapraxis och användarnas rättigheter på ett vagt sätt. Därför är det oklart om de uppfyller GDPR.’

Det fortsätter:

‘Våra resultat visar att även efter att GDPR trädde i kraft, misslyckas fortfarande 97% av webbplatserna med att uppfylla minst ett krav i GDPR.’

Studien, som heter Automated Detection of GDPR Disclosure Requirements in Privacy Policies using Deep Active Learning, kommer från tre forskare vid University of Virginia i Charlottesville.

Integritet sist

Området med minst överensstämmelse, enligt studien, gäller GDPR:s bestämmelser om användarprofiler, där författarna påstår att endast 15,3% av de undersökta webbplatserna var i full överensstämmelse med denna specifika regel.

En graf över överensstÀmmelse bland 9761 webbplatser som studerats för forskningen. KÀlla: https://arxiv.org/pdf/2111.04224.pdf

En graf över överensstämmelse bland webbplatsernas GDPR-policys som studerats för forskningen. Källa: https://arxiv.org/pdf/2111.04224.pdf

Användarprofiler (där en persons interaktion med webbplatser spelas in och ofta används för att “målinrikta” dem i andra online-sammanhang, såsom reklam) har blivit en av de hetaste kontroverserna inom tech sedan Cambridge Analytica-skandalen.

På tisdagen godkände en nyckelkommitté i Europaparlamentet det första steget av den nya Digital Markets Act (DMA) lagstiftning, som skulle förbjuda beteendemässig målinriktning av minderåriga, med böter på upp till 20% av global årlig försäljning för företag som bryter mot reglerna.

Även om lagen har mottagits av media som en direkt reaktion på de växande tech-jättarna som Facebook och Google, tyder den enorma skalan av icke-överensstämmelse som representeras av den nya forskningen på att de allra flesta EU-företag (inklusive EU-baserade kontor för amerikanska företag som handlar i Europa) är lagligen utsatta för GDPR-böter.

Dessutom har Italien denna vecka infört den maximalt tillåtna böter på 10 miljoner euro (11,2 miljoner USD) mot Apple och Google för utnyttjande av användarprofiler, bland annat.

Data

De webbplatser som undersöktes i den nya forskningen sampades från de topp 10 000 webbplatserna listade i Quantcast, vars engelskspråkiga integritetspolicys extraherades genom Yandex-sökningar på UK-baserade VPN:er (för att säkerställa att policysen inte var geo-blockerade).

EU-webbplatser har varit skyldiga att tillhandahålla föreskrivna integritetspolicys, som täcker 18 centrala krav (se graf ovan) sedan den allmänna dataskyddsförordningen (GDPR) trädde i kraft i maj 2018.

Forskarna begränsade sin extraktion av integritetspolicys till en period från augusti 2018 och framåt, för att ge webbplatserna rimlig tid att publicera de krävda policysen (ett krav som de hade kännedom om i förväg under minst ett år av de tvååriga utvecklingsfaserna av GDPR sedan 2016).

Filterprocessen resulterade i en integritetskorpus på 9 761 policys, varav 1 080 policys slumpmässigt valdes ut av forskarna.

Förbearbetning

Teamet anställde två juridiska experter för att utbilda fyra mänskliga annotatorer att märka var och en av de 18 möjliga integritetspolicys som krävs av GDPR.

En del av de juridiska termerna i policysen täckte mer än ett av de 18 kraven, vilket gjorde det nödvändigt att använda en Convolutional Neural Network (CNN) för att upptäcka språkliga funktioner associerade med varje policy.

Ett första försök att träna en modell för att identifiera överensstämmelse baserat på språk uppnådde 80,5% framgång. För att förbättra dessa resultat tillämpade forskarna Active Learning för att förstärka modellens prestanda med mindre märkt data. Genom dessa medel var det möjligt att träna klassificerings-CNN upp till en noggrannhet på 89,2%, med en F1-poäng på 0,88 (där ‘1’ är fullständig framgång).

För att säkerställa att word-embedding var specifika för integritetspolicy, tränade forskarna en oövervakad word-embedding-modell med hjälp av Facebooks FastText Python-bibliotek.

Enligt standardpraxis delades den slutliga datan upp i 80/20 mellan träningsdata och testdata (dvs. slumpmässigt vald data mot vilken algoritmens noggrannhet kommer att bedömas). En mänsklig mätstudie i loop-läget lades till i arkitekturen för att utvärdera resultaten.

Arkitekturen för klassificeringssystemet.

Arkitekturen för klassificeringsystemet.

Under arbetsflödet producerades 11 271 mänskligt annoterade integritetspolicysegment, var och en av vilka granskades av fyra mänskliga annotatorer som hade tränats av de två juridiska experterna som deltog i studien. När oenighet uppstod, behövdes en överenskommelse på 75% för att inte avvisa data från inklusion.

MĂ€nniskor i loopet – det var inte möjligt att helt automatisera mĂ€rkningen av policydata, men Active Learning möjliggjorde en poolbaserad arbetsflöde som gjorde projektet genomförbart.

Människor i loopet – det var inte möjligt att helt automatisera märkningen av policydata, men Active Learning möjliggjorde en poolbaserad arbetsflöde som gjorde projektet genomförbart.

Förutom de redan nämnda resultaten fann användarna att portabilitet – rätten enligt GDPR att flytta eller exportera data som innehas av ett företag – var nästan lika dåligt tillgodosedd som profilering.

Forskarna slutsats:

‘[Kraven] som användarnas rätt till portabilitet och tillhandahållande av kontaktinformation för dataskyddsombud (DPO-kontakt) täcks av 15,5% respektive 16,4% webbplatser. Andra primära krav, som användarnas rätt att lämna in klagomål, återkalla samtycke, rätt att invända och beslut om lämplighet, täcks av 17-20% webbplatser.’

… och fortsätter:

‘Det verkar som att endast 3% av webbplatserna uppfyller fullständigt alla 18 kraven. Dessa resultat tyder på att många webbplatser fortfarande inte följer GDPR:s krav.’

 

 

19.00 26/11/2021 – Förtydligade första grafens undertext. – MA

Författare pÄ maskinlÀrande, domÀnspecialist inom mÀnsklig bildsyntes. Före detta chef för forskningsinnehÄll pÄ Metaphysic.ai.