Suivez nous sur

Analyser 25 ans de politiques de confidentialité avec l'apprentissage automatique

Intelligence Artificielle

Analyser 25 ans de politiques de confidentialité avec l'apprentissage automatique

mm

Une étude récente a utilisé des techniques d'analyse d'apprentissage automatique pour cartographier la lisibilité, l'utilité, la longueur et la complexité de plus de 50,000 25 politiques de confidentialité sur des sites Web populaires sur une période couvrant 1996 ans, de 2021 à 400. La recherche conclut que le lecteur moyen devrait consacrer XNUMX heures de « temps de lecture annuel » (plus d'une heure par jour) afin de pénétrer le nombre croissant de mots, le langage obscur et l'utilisation d'un langage vague qui caractérisent les politiques de confidentialité modernes de certains des sites Web les plus fréquentés.

Le rapport indique:

« La longueur moyenne des polices d'assurance a presque doublé au cours des dix dernières années, avec 2159 2011 mots en mars 4191 et 2021 2000 mots en mars 1146, et a presque quadruplé depuis XNUMX (XNUMX XNUMX mots). »

Le nombre moyen de mots et de phrases parmi le corpus étudié, sur une période de 25 ans. Source : https://arxiv.org/pdf/2201.08739.pdf

Le nombre moyen de mots et de phrases parmi le corpus étudié, sur une période de 25 ans. Source : https://arxiv.org/pdf/2201.08739.pdf

Bien que le taux d'augmentation de la longueur ait connu un pic avec l'entrĂ©e en vigueur du RGPD et de la loi californienne sur la protection de la vie privĂ©e des consommateurs (CCPA), l'Ă©tude considère ces variations comme des « effets de faible ampleur Â» qui semblent insignifiants par rapport Ă  la tendance gĂ©nĂ©rale Ă  long terme. Cependant, le RGPD est identifiĂ© comme une cause possible de l'utilisation croissante d'un langage « imprĂ©cis Â» dans les politiques (voir ci-dessous).

En supposant une vitesse de lecture de 250 mots par minute, le document affirme que la politique de confidentialité moyenne prend désormais 17 minutes à lire, tandis que les politiques plus populaires (c'est-à-dire les politiques associées à un nombre élevé d'utilisateurs) prennent 23 minutes à compléter.

La politique la plus longue de l'ensemble de données, de Microsoft, nécessite 152 minutes pour être consommée, selon la recherche, qui a tiré parti d'un certain nombre de variantes sur Google Modèle de langage BERT.

Croissance du taux d'heures annuelles nécessaires pour lire les politiques de confidentialité modernes, en supposant que le lecteur visite 1462 sites Web uniques par an.

Croissance du taux d'heures annuelles nécessaires pour lire les politiques de confidentialité modernes, en supposant que le lecteur visite 1462 sites Web uniques par an.

Une grande partie de l'augmentation récente de la verbosité et de l'ambiguïté dans les politiques de confidentialité est attribuée par le document comme une réaction aux tentatives d'imposer des réglementations au cours des deux dernières décennies, mais aussi à l'utilisation malhonnête des exigences de conformité réglementaire comme excuse pour augmenter furtivement la portée et opacité des politiques de confidentialité.

« Dans l’ensemble, nos résultats montrent que les récentes réglementations en matière de confidentialité n’ont pas amélioré de manière substantielle la confidentialité des utilisateurs en ligne, mais ont plutôt conduit à des politiques de confidentialité plus complètes qui décrivent des pratiques de données de plus en plus invasives. »

Bien qu'un certain nombre d'articles sur le traitement du langage naturel (NLP) aient abordé la lisibilité et d'autres aspects des politiques de confidentialité ces dernières années, l'auteur estime qu'il s'agit du premier projet de ce type à fournir un aperçu aussi large de l'évolution des politiques au cours des dernières décennies.

Quand vous vous dĂ©connectez, votre profil papier est intitulĂ© Politiques de confidentialitĂ© Ă  travers les âges : contenu et lisibilitĂ© des politiques de confidentialitĂ© 1996-2021, et vient d'Isabel Wagner au Cyber ​​Technology Institute de l'UniversitĂ© De Montfort au Royaume-Uni.

Langage elliptique

Le rapport suggère également que le nombre moyen de « mots obscurs » (c.-à-d. acceptable, significative, principalement, et d'autres mots qui n'ont pas de sens définitif) dans les politiques de confidentialité ont augmenté régulièrement jusqu'en 2018, mais sont ensuite passés d'une médiane de 227 vers mars 2018 à 304 en juin 2020.

L'auteur soutient que cette augmentation est attribuable aux effets du GDPR, et l'article constate que plus des deux tiers (72%) des phrases des politiques de confidentialité étudiées contenaient au moins un mot obscur.

lisibilité

Ă€ travers trois mesures courantes de la difficultĂ© de lecture, l'Ă©tude a rĂ©vĂ©lĂ© que « Les politiques de confidentialitĂ© sont devenues de plus en plus difficiles Ă  lire au fil des ans ». Les auteurs estiment que 41 % des politiques actuellement applicables disponibles en 2021 avaient une valeur mĂ©diane FacilitĂ© de lecture Flesch (FRE, plus c'est haut, mieux c'est) de seulement 31.8, l'auteur observant « Ce score indique un texte très difficile qui est mieux compris par les diplĂ´mĂ©s universitaires ».

En même temps, seulement 6.7% des polices ont obtenu un score FRE supérieur à 45 (ce qui, selon le rapport, est la norme de lecture requise pour les polices d'assurance dans l'État de Floride).

Sensibilisation au changement de politique

L’étude aborde également la mesure dans laquelle les politiques de confidentialité incluent des détails sur la manière dont le consentement potentiel sera éventuellement notifié en cas de mises à jour ultérieures, qui peuvent affecter la volonté de l’utilisateur de maintenir l’accord.

L'auteur observe :

«En 2021, 73% des politiques incluent une dĂ©claration sur le changement de politique. Parmi ceux-ci, 34 % dĂ©clarent que les modifications seront annoncĂ©es par un avis dans la politique de confidentialitĂ©, 37 % publieront un avis sur le site Web et 22 % enverront un avis personnel (les autres politiques laissent le type de notification non spĂ©cifiĂ©).

"En conséquence, il est peu probable que la plupart des utilisateurs soient informés des modifications des politiques de confidentialité.

De plus, les utilisateurs ne disposent que de peu de choix lorsque les politiques changent. Parmi les politiques qui informent l'utilisateur des modifications, seules 12 % proposent une nouvelle option d'adhésion, tandis que 34 % ne lui donnent aucun choix et 54 % la laissent sans précision.

Les conclusions du document sur les méthodes décrites pour informer les utilisateurs des changements de politique.

Les conclusions de l’article sur les méthodes décrites pour informer les utilisateurs des changements de politique.

Choix limité concernant le suivi

Selon l'étude, un éventail bien plus large de mécanismes est proposé dans les politiques de confidentialité pour accéder aux informations de compte d'utilisateur que pour accéder aux données de profil d'utilisateur. Les données de profil peuvent être créées et mises à jour par le biais de mécanismes automatisés et non évidents, tandis que les données de compte d'utilisateur ne sont pas seulement explicitement accordées par l'utilisateur, mais doivent également être modifiables en vertu des réglementations de diverses juridictions.

Le choix du consommateur sur le consentement aux cookies dans les politiques de confidentialitĂ© (un sujet qui a attirĂ© dĂ©bat houleux depuis l'avènement du RGPD a promulguĂ© des centaines de milliers de fenĂŞtres contextuelles de consentement aux cookies pour les instances europĂ©ennes de sites Web internationaux et europĂ©ens) est gĂ©nĂ©ralement abordĂ© dans les politiques, mais cache une couche plus importante de donnĂ©es moins accessibles* :

"[Les] choix en matière de cookies sont insuffisants pour protéger les utilisateurs de tout traçage car des mécanismes de choix ou de contrôle sont rarement proposés pour informations informatiques, identificateurs d'appareilou identifiants personnels, qui permettent de suivre les utilisateurs via les empreintes digitales.

Un contraste frappant dans le niveau de contrôle disponible accordé par les politiques de confidentialité entre les données de profil (qui peuvent être obtenues par des moyens implicites ou furtifs) et les données de compte d'utilisateur (où une certaine mesure de contrôle est fréquemment mandatée par le GDPR, le California Consumer Privacy Act (CCPA ) et mécanismes nationaux et régionaux similaires).

Un contraste frappant dans le niveau de contrôle disponible accordé par les politiques de confidentialité entre les données de profil (qui peuvent être obtenues par des moyens implicites ou furtifs) et les données de compte d'utilisateur (où une certaine mesure de contrôle est fréquemment mandatée par le GDPR, le California Consumer Privacy Act (CCPA ) et mécanismes nationaux et régionaux similaires).

Date

Pour obtenir les données de l'étude, l'auteur a exploré des sites Web à la recherche de liens vers leurs politiques de confidentialité, jugeant souvent nécessaire d'élargir la portée au-delà du résultat initial, en raison du nombre de politiques non intégrales liées à d'autres politiques (chacune des qui a le potentiel de changer en tandem avec ou indépendamment de la politique mère ou connexe).

Quand vous vous déconnectez, votre profil Wayback Machine a été utilisé pour obtenir des politiques historiques, bien qu'il ait été nécessaire, lors de l'examen des résultats, de tenir compte des politiques dont l'exploration ou l'archivage avaient été bloqués via un fichier de configuration robots.txt (un petit fichier texte contenant des instructions aux agents d'indexation d'exploration Web concernant les pages et autres entités qu'ils ne doivent pas inclure dans un index public).

Un instantané par mois a été obtenu à partir de la Wayback Machine par son API CDX pour chaque politique applicable identifiable et continue, en utilisant Firefox sous Sélénium. L'exécution de la reconnaissance optique de caractères sur des politiques uniquement disponibles au format PDF n'a pas été envisagée pour le projet, qui s'est limité au nombre (bien supérieur) de politiques HTML disponibles.

Un résultat intéressant du projet est que la clarté et la lisibilité des sites web pornographiques se sont améliorées au cours de la période étudiée, probablement en prévision des appels croissants à une réglementation et une clarté accrues. Pour collecter ces documents, il a été nécessaire de les obtenir par des explorations supplémentaires à partir d'adresses IP résidentielles, en raison des protocoles de blocage de contenu de l'université.

Au départ, 1,068,683 120,265 39.1 documents ont été obtenus, ce qui équivaut à 4.4 XNUMX documents uniques contenant en moyenne XNUMX articles ou clauses de politique et XNUMX textes de politique uniques pour chaque lien.

Que l'anglais

Comme c'est souvent le cas dans des études récentes similaires, le projet n'a pas été en mesure d'aborder les politiques de confidentialité non anglaises, qui ont été rejetées lors de l'étape de nettoyage des données à l'aide du PYCLD2 paquet.

Pour distinguer les politiques de confidentialité des autres types de matériel, le projet a utilisé un classificateur développé en 2019 dans le cadre d'une initiative conjointe de l'Université du Wisconsin et de l'École Polytechnique Fédérale de Lausanne.

Architecture du classifieur IS-POLICY. Source : https://arxiv.org/pdf/1809.08396.pdf

Architecture du classifieur IS-POLICY. Source : https://arxiv.org/pdf/1809.08396.pdf

Bien que le classificateur IS-POLICY ait été formé sur le même corpus de 1,000 XNUMX documents que dans l'article d'origine, l'auteur a dû obtenir de nouveaux documents non stratégiques pour la formation, car les sources originales n'étaient pas disponibles.

Après filtrage, les données ont été réduites à 56,416 XNUMX politiques de confidentialité uniques.

 

* La citation en ligne du document est convertie en hyperlien ici, le basculement en italique provient du document.

Première publication le 31 janvier 2022.