Intelligence artificielle
Les chercheurs en IA estiment que 97% des sites Web de l’UE ne respectent pas les exigences de confidentialité du RGPD – en particulier le profilage des utilisateurs

Les chercheurs aux États-Unis ont utilisé des techniques d’apprentissage automatique pour étudier les politiques de confidentialité du RGPD de plus de mille sites Web représentatifs basés dans l’UE. Ils ont constaté que 97 % des sites étudiés ne respectaient pas au moins une exigence du cadre réglementaire de l’Union européenne de 2018, et qu’ils respectaient le moins les exigences réglementaires autour de la pratique du « profilage des utilisateurs ».
Le document indique :
‘[Puisque] la politique de confidentialité est le canal de communication essentiel pour que les utilisateurs comprennent et contrôlent leur confidentialité, de nombreuses entreprises ont mis à jour leurs politiques de confidentialité après que le RGPD ait été appliqué. Cependant, la plupart des politiques de confidentialité sont verbeuses, remplies de jargon et décrivent de manière vague les pratiques de données des entreprises et les droits des utilisateurs. Par conséquent, il n’est pas clair s’ils respectent le RGPD.’
Il continue :
‘Nos résultats montrent que même après que le RGPD est entré en vigueur, 97 % des sites Web ne respectent toujours pas au moins une exigence du RGPD.’
L’étude étude est intitulée Détection automatisée des exigences de divulgation du RGPD dans les politiques de confidentialité à l’aide de l’apprentissage actif profond, et provient de trois chercheurs de l’Université de Virginie à Charlottesville.
Confidentialité dernière
Le domaine de la moindre conformité, selon l’étude, concerne les stipulations du RGPD sur le profilage des utilisateurs, les auteurs déclarant que seulement 15,3 % des sites étudiés étaient en pleine conformité avec cette règle particulière.

Un graphique de la conformité parmi les politiques de confidentialité des sites Web étudiés pour la recherche. Source : https://arxiv.org/pdf/2111.04224.pdf
Le profilage des utilisateurs (où l’interaction d’une personne avec les sites Web est enregistrée et souvent utilisée pour « cibler » les utilisateurs dans d’autres contextes en ligne, tels que la publicité) est devenu l’une des controverses les plus chaudes dans la technologie depuis le scandale Cambridge Analytica.
Mardi, un comité clé du Parlement européen a adopté le premier stade de la nouvelle législation sur les marchés numériques (DMA) qui interdirait le ciblage comportemental des mineurs, imposant des amendes pouvant aller jusqu’à 20 % des ventes annuelles mondiales pour les entreprises contrevenantes.
Bien que l’Acte ait été reçu par les médias comme une réponse directe à l’influence croissante des géants de la technologie tels que Facebook et Google, l’ampleur de la non-conformité représentée par la nouvelle recherche suggère que la grande majorité des entreprises de l’UE (y compris les bureaux de l’UE pour les entreprises américaines qui opèrent en Europe) sont exposées aux amendes du RGPD.
En outre, l’Italie a imposé cette semaine l’amende maximale autorisée de 10 millions d’euros (11,2 millions de dollars américains) contre Apple et Google pour avoir exploité le profilage des utilisateurs, entre autres infractions.
Données
Les sites examinés dans la nouvelle recherche ont été échantillonnés à partir des 10 000 premiers sites Web répertoriés dans Quantcast, dont les politiques de confidentialité en anglais ont été extraites via des recherches Yandex sur des VPN basés au Royaume-Uni (afin de garantir que les politiques ne soient pas géo-bloquées).
Les sites Web de l’UE sont tenus de fournir des politiques de confidentialité prescrites, couvrant 18 exigences centrales (voir graphique ci-dessus) depuis que le Règlement général sur la protection des données (RGPD) est entré pleinement en vigueur en mai 2018.
Les chercheurs ont limité l’extraction des politiques de confidentialité à une période à partir d’août 2018, pour permettre un délai raisonnable aux domaines pour avoir publié les politiques requises (une exigence dont ils avaient connaissance à l’avance pour au moins un an de la phase de développement de deux ans du RGPD depuis 2016).
Le processus de filtrage a produit un corpus de confidentialité de 9 761 politiques, dont 1 080 politiques ont été sélectionnées aléatoirement par les chercheurs.
Prétraitement
L’équipe a employé deux experts juridiques pour former quatre annotateurs humains pour étiqueter chacune des 18 politiques de confidentialité possibles prescrites par le RGPD.
Certains des termes juridiques dans les politiques couvraient plus d’une des 18 exigences, ce qui a rendu nécessaire l’utilisation d’un réseau de neurones convolutifs (CNN) pour détecter les fonctionnalités linguistiques associées à chaque politique.
Une tentative initiale pour former un modèle pour identifier la conformité sur la base du langage a atteint un succès de 80,5 %. Pour améliorer ces résultats, les chercheurs ont appliqué l’apprentissage actif pour renforcer les performances du modèle à l’aide de moins de données étiquetées. Par ces moyens, il a été possible de former le classificateur CNN jusqu’à une précision de 89,2 %, avec un score F1 de 0,88 (où « 1 » est un succès complet).
Pour garantir que les embeddings de mots soient spécifiques aux politiques de confidentialité, les chercheurs ont formé un modèle d’embedding de mots non supervisé en utilisant la bibliothèque Python FastText de Facebook.
Comme il est d’usage, les données finales ont été divisées 80/20 entre les données formées et les données de test (c’est-à-dire les données sélectionnées aléatoirement contre lesquelles la précision de l’algorithme sera jugée). Une étude de mesure avec un humain dans la boucle a été ajoutée à l’architecture afin d’évaluer la qualité des résultats.

L’architecture du système de classificateur.
Au cours du workflow, 11 271 segments de politiques de confidentialité annotés par des humains ont été produits, chacun desquels a été examiné par quatre annotateurs humains qui ont été formés par les deux experts juridiques impliqués dans l’étude. Lorsqu’il y avait un désaccord, un ratio d’accord de 75 % était nécessaire pour ne pas rejeter les données de l’inclusion.

Des humains dans la boucle – il n’a pas été possible d’automatiser entièrement l’étiquetage des données de politique, bien que l’apprentissage actif ait permis un workflow basé sur un pool qui a rendu le projet réalisable.
Outre les résultats déjà mentionnés, les utilisateurs ont constaté que la portabilité – le droit en vertu du RGPD de translocaliser ou d’exporter les données détenues par une entreprise – était presque aussi mal servie que le profilage.
Les chercheurs concluent :
‘[Les exigences] telles que le droit à la portabilité des utilisateurs et la fourniture des coordonnées du délégué à la protection des données (contact DPO) sont couvertes par 15,5 % et 16,4 % des sites Web, respectivement. D’autres exigences principales, telles que le droit des utilisateurs de déposer une plainte, de retirer leur consentement, de s’opposer et de prendre une décision d’adéquation, sont couvertes par 17-20 % des sites Web.’
…et continuent :
‘Il semble que seuls 3 % des sites Web respectent pleinement les 18 exigences. Ces résultats indiquent que de nombreux sites Web ne suivent toujours pas les exigences du RGPD.’
19h 26/11/2021 – Clarifié la première légende de graphique. – MA












