Connect with us

Artificiell intelligens

Analys av 25 års integritetspolicys med maskinlärande

mm

En nyligen genomförd studie har använt maskinlärande analysmetoder för att kartlägga läsbarheten, användbarheten, längden och komplexiteten hos över 50 000 integritetspolicys på populära webbplatser under en period som omfattar 25 år från 1996 till 2021. Forskningen visar att den genomsnittlige läsaren skulle behöva ägna 400 timmar av “årlig lästid” (mer än en timme om dagen) för att tränga igenom de ökande ordantal, förvirrande språk och otydliga språkanvändningar som kännetecknar de moderna integritetspolicysen för några av de mest besökta webbplatserna.

Rapporten hävdar:

‘Den genomsnittliga policyslängden har nästan dubblats under de senaste tio åren, med 2159 ord i mars 2011 och 4191 ord i mars 2021, och nästan fyrdubblats sedan 2000 (1146 ord).’

Den genomsnittliga ordmängden och meningsmängden bland den studerade korpusen, under en period av 25 år.

Den genomsnittliga ordmängden och meningsmängden bland den studerade korpusen, under en period av 25 år. Källa: https://arxiv.org/pdf/2201.08739.pdf

Även om ökningstakten i längd sköt i höjden när GDPR och den kaliforniska konsumentdataskyddslagen (CCPA) skydd trädde i kraft, avfärdar artikeln dessa variationer som “små effektstorlekar” som verkar vara obetydliga mot den breda långsiktiga trenden. Men GDPR identifieras som en möjlig orsak till ökande “otydliga” språk i policys (se nedan).

Antagande en läshastighet på 250 ord per minut, hävdar artikeln att den genomsnittliga integritetspolicyn nu tar 17 minuter att läsa, medan mer populära policys (dvs. policys som är associerade med ett stort antal användare) tar 23 minuter att slutföra.

Den längsta policyn i datamängden, från Microsoft, kräver 152 minuter att konsumera, enligt forskningen, som använde ett antal varianter på Googles BERT-språkmodell.

Tillväxt i takten av årliga timmar som behövs för att läsa moderna integritetspolicys, med antagande att läsaren besöker 1462 unika webbplatser per år.

Tillväxt i takten av årliga timmar som behövs för att läsa moderna integritetspolicys, med antagande att läsaren besöker 1462 unika webbplatser per år.

Mycket av den senaste ökningen i verbositet och tvetydighet i integritetspolicys tillskrivs av artikeln som en reaktion på försök under de senaste två decennierna att införa regleringar, men också till den oärliga användningen av krav på regelefterlevnad som en ursäkt för att smygande öka omfattningen och otydligheten i integritetspolicys.

‘Sammanfattningsvis visar våra resultat att de senaste integritetsregleringarna inte har förbättrat användarnas integritet på internet i någon större utsträckning, utan snarare lett till mer svullna integritetspolicys som beskriver alltmer invasiva datapraxis.’

Även om ett antal artiklar om naturlig språkbehandling (NLP) har behandlat läsbarheten och andra aspekter av integritetspolicys under de senaste åren, anser författaren att detta är det första projektet av sitt slag som ger en sådan bred översikt av policyutvecklingen under de senaste decennierna.

Artikeln heter Integritetspolicys över åldrarna: Innehåll och läsbarhet av integritetspolicys 1996–2021, och kommer från Isabel Wagner vid Cyber Technology Institute vid De Montfort University i Storbritannien.

Elliptiskt språk

Rapporten föreslår också att det genomsnittliga antalet “förvirrande ord” (dvs. acceptabel, signifikant, huvudsakligen, och andra ord som inte ger någon bestämd betydelse) i integritetspolicys ökade stadigt fram till 2018, men sedan sköt i höjden från en median på 227 runt mars 2018 till 304 i juni 2020.

Författaren hävdar att denna ökning är till följd av effekterna av GDPR, och artikeln finner att över två tredjedelar (72%) av meningarna i de studerade integritetspolicysen innehöll minst ett förvirrande ord.

Läsbarhet

Över tre vanliga mått på lässvårighet, fann studien att integritetspolicys har blivit allt svårare att läsa över åren. Författarna uppskattar att 41% av de nu tillämpliga policysen som fanns tillgängliga 2021 hade en median Flesch Reading Ease (FRE, högre är bättre) på endast 31,8, med författaren observerande ‘Detta betyder en mycket svår text som bäst förstås av universitetsutbildade’.

Samtidigt uppnådde endast 6,7% av policysen en FRE-poäng över 45 (vilket, enligt rapporten, är läsnivån som krävs för försäkringspolicys i delstaten Florida).

Medvetenhet om policyändringar

Arbetet behandlar också i vilken utsträckning integritetspolicys innehåller information om hur den potentiella samtyckaren kommer att meddelas i händelse av efterföljande uppdateringar, som kan påverka användarens villighet att upprätthålla avtalet.

Författaren observerar:

‘2021 innehöll 73% av policysen en uttalande om policyändring. Av dessa angav 34% att ändringar skulle meddelas genom ett meddelande i integritetspolicyn, 37% skulle publicera ett meddelande på webbplatsen, och 22% skulle skicka ett personligt meddelande (de återstående policysen lämnade meddelandetypen ospecificerad).’

‘Som ett resultat är de flesta användare osannolika att bli medvetna om ändringar i integritetspolicys.

‘Dessutom erbjuds användare nästan inget meningsfullt val när policysen ändras. Av de policys som meddelar användaren om ändringar, erbjuder endast 12% ett nytt samtycke, medan 34% ger inget val och 54% lämnar det ospecificerat.’

Artikelns resultat om de beskrivna metoderna för att meddela användare om policyändringar.

Artikelns resultat om de beskrivna metoderna för att meddela användare om policyändringar.

Begränsat val avseende spårning

Enligt studien erbjuds ett mycket större antal mekanismer i integritetspolicys för att komma åt användarkontoinformation än för att komma åt användarprofildata. Profildata kan skapas och uppdateras genom automatiserade och otydliga mekanismer, medan användarkontodata inte bara uttryckligen beviljas av användaren, utan också är skyldigt att vara redigerbart enligt regleringar i olika jurisdiktioner.

Användarval avseende cookie-samtycke i integritetspolicys (ett ämne som har väckt hett debatt sedan införandet av GDPR som har lett till hundratusentals cookie-samtyckespopup-fönster för EU-instanser av internationella och europeiska webbplatser) behandlas vanligtvis i policysen, men döljer ett viktigare lager av mindre tillgängliga data*:

‘[Valet] avseende cookies är otillräckligt för att skydda användare från all spårning eftersom val eller kontrollmekanismer sällan erbjuds för datorinformation, enhetsidentifierare, och personliga identifierare, som tillåter spårning av användare via fingeravtryck.’

En skarp kontrast i den tillgängliga kontrollnivån som beviljas av integritetspolicys mellan profildata (som kan erhållas genom implicita eller smygande medel) och användarkontodata (där någon form av kontroll ofta krävs av GDPR, den kaliforniska konsumentdataskyddslagen (CCPA) och liknande nationella och regionala mekanismer).

En skarp kontrast i den tillgängliga kontrollnivån som beviljas av integritetspolicys mellan profildata (som kan erhållas genom implicita eller smygande medel) och användarkontodata (där någon form av kontroll ofta krävs av GDPR, den kaliforniska konsumentdataskyddslagen (CCPA) och liknande nationella och regionala mekanismer).

Data

För att erhålla data för studien, crawlade författaren webbplatser för länkar till deras integritetspolicys, ofta med behov av att utöka omfattningen bortom det initiala resultatet, på grund av antalet icke-integrerade policys som länkar till ytterligare policys (var och en med potential att ändras antingen i takt med eller oberoende av den överordnade eller relaterade policyn).

Wayback Machine användes för att erhålla historiska policys, även om det var nödvändigt att ta hänsyn till policys som hade blockerats från crawlning eller arkivering via en robots.txt-konfigurationsfil (en liten textfil som innehåller instruktioner till web-crawling-indexeringsagenter om sidor och andra enheter som de inte ska inkludera i en offentlig index).

En ögonblicksbild per månad erhölls från Wayback Machine med hjälp av dess CDX API för varje identifierbar och kontinuerlig tillämplig policy, med Firefox under Selenium. Att utföra optisk teckenigenkänning på policys som endast fanns tillgängliga i PDF-format övervägdes inte för projektet, som begränsade sig till det (långt större) antalet tillgängliga HTML-policys.

Ett intressant resultat från projektet är att tydligheten och läsbarheten hos pornografiska webbplatser faktiskt har förbättrats under den studerade perioden – möjligen i förväntan på ökande krav på ökad reglering och tydlighet. För att samla in dessa dokument var det nödvändigt att erhålla dem med ytterligare crawlningar från residens-IP-adresser, på grund av universitetets innehållsblockeringsprotokoll.

Initialt erhölls 1 068 683 dokument, vilket motsvarade 120 265 unika dokument som innehöll i genomsnitt 39,1 policyartiklar eller klausuler och 4,4 unika policytexter för varje länk.

Endast engelska

Liksom i liknande nyliga studier, kunde projektet inte behandla icke-engelska integritetspolicys, som kasserades under datarengöringssteget med hjälp av PYCLD2-paketet.

För att skilja integritetspolicys från andra typer av material, använde projektet en klassificerare utvecklad 2019 som ett gemensamt initiativ från University of Wisconsin och École Polytechnique Fédérale de Lausanne.

Arkitektur för IS-POLICY-klassificeraren. Källa: https://arxiv.org/pdf/1809.08396.pdf

Arkitektur för IS-POLICY-klassificeraren. Källa: https://arxiv.org/pdf/1809.08396.pdf

Även om IS-POLICY-klassificeraren tränades på samma 1 000-dokumentkorpus som i den ursprungliga artikeln, var författaren tvungen att erhålla nya icke-policydokument för utbildning, eftersom de ursprungliga källorna inte var tillgängliga.

Efter filtrering reducerades data till 56 416 unika integritetspolicys.

 

* Artikelns inline-citathänvisning har konverterats till en hyperlänk här, kursivt växling är från artikeln.

Publicerad första gången den 31 januari 2022.

Författare på maskinlärande, domänspecialist inom mänsklig bildsyntes. Före detta chef för forskningsinnehåll på Metaphysic.ai.