Τεχνητή νοημοσύνη
Ερευνητές του AI εκτιμούν ότι το 97% των ιστοσελίδων της ΕΕ δεν συμμορφώνεται με τις απαιτήσεις GDPR για την προστασία της ιδιωτικής ζωής – Ιδιαίτερα η προφίλωση χρηστών

Ερευνητές στις Ηνωμένες Πολιτείες έχουν χρησιμοποιήσει τεχνικές μηχανικής μάθησης για να μελετήσουν τις πολιτικές προστασίας της ιδιωτικής ζωής GDPR περισσότερων από χιλιάδες αντιπροσωπευτικών ιστοσελίδων που βρίσκονται στην ΕΕ. Βρήκαν ότι το 97% των ιστοσελίδων που μελετήθηκαν δεν συμμορφώνονταν με τουλάχιστον μία απαιτηση του κανονιστικού πλαισίου της Ευρωπαϊκής Ένωσης του 2018 και ότι συμμορφώνονταν λιγότερο από όλα με τις κανονιστικές απαιτήσεις γύρω από την πρακτική της “προφίλωση χρηστών”.
Το έγγραφο αναφέρει:
‘[Από] την πολιτική προστασίας της ιδιωτικής ζωής είναι το βασικό κανάλι επικοινωνίας για τους χρήστες για να κατανοήσουν και να ελέγξουν την προστασία της ιδιωτικής ζωής τους. Πολυάριθμες εταιρείες ενημέρωσαν τις πολιτικές προστασίας της ιδιωτικής ζωής τους μετά τη θέση σε ισχύ του GDPR. Ωστόσο, οι περισσότερες πολιτικές προστασίας της ιδιωτικής ζωής είναι περιεκτικές, γεμάτες με τεχνική ορολογία και περιγράφουν αμυδρά τις πρακτικές δεδομένων των εταιρειών και τα δικαιώματα των χρηστών. Συνεπώς, δεν είναι σαφές αν συμμορφώνονται με το GDPR.’
Συνεχίζει:
‘Τα αποτελέσματά μας δείχνουν ότι ακόμη και μετά τη θέση σε ισχύ του GDPR, το 97% των ιστοσελίδων δεν συμμορφώνεται με τουλάχιστον μία απαιτηση του GDPR.’
Η μελέτη έχει τον τίτλο Αυτόματη ανίχνευση απαιτήσεων GDPR στις πολιτικές προστασίας της ιδιωτικής ζωής χρησιμοποιώντας Deep Active Learning και προέρχεται από τρεις ερευνητές στο Πανεπιστήμιο της Βιρτζίνια στο Σάρλοτσβιλ.
Η προστασία της ιδιωτικής ζωής τελευταία
Η περιοχή της ελάχιστης συμμόρφωσης, σύμφωνα με τη μελέτη, αφορά τις διατάξεις του GDPR σχετικά με την προφίλωση χρηστών, με τους συγγραφείς να αναφέρουν ότι μόνο το 15,3% των ιστοσελίδων που μελετήθηκαν συμμορφώνονταν πλήρως με αυτήν την ιδιαίτερη κανόνα.

Ένα γράφημα της συμμόρφωσης μεταξύ των πολιτικών GDPR που μελετήθηκαν για την έρευνα. Πηγή: https://arxiv.org/pdf/2111.04224.pdf
Η προφίλωση χρηστών (όπου η αλληλεπίδραση ενός ατόμου με ιστοσελίδες καταγράφεται και συχνά χρησιμοποιείται για να “στοχεύσει” τους χρήστες σε άλλους διαδικτυακούς контекστ, όπως διαφήμιση) έχει γίνει μια από τις πιο καυτές διαμάχες στη τεχνολογία από το σκάνδαλο του Cambridge Analytica.
Την Τρίτη, μια κρίσιμη επιτροπή του Ευρωπαϊκού Κοινοβουλίου έπασσε το πρώτο στάδιο της νέας νομοθεσίας για την Ψηφιακή Αγορά (DMA), η οποία θα απαγορεύσει την συμπεριφορική στοχεύωση ανηλίκων, επιβάλλοντας πρόστιμα μέχρι 20% των παγκόσμιων ετήσιων πωλήσεων για τις εταιρείες που παραβαίνουν.
Αν και ο νόμος έχει ληφθεί από τα μέσα ενημέρωσης ως μια άμεση απάντηση στην αυξανόμενη επιρροή των τεχνολογικών γιγάντων όπως η Facebook και η Google, η απίστευτη κλίμακα της μη συμμόρφωσης που αντιπροσωπεύεται από την καινούρια έρευνα υποδηλώνει ότι η συντριπτική πλειοψηφία των εταιρειών της ΕΕ (συμπεριλαμβανομένων των γραφείων της ΕΕ για τις αμερικανικές εταιρείες που εμπορεύονται στην Ευρώπη) είναι νομικά εκτεθειμένες σε πρόστιμα GDPR.
Επιπλέον, η Ιταλία έχει επιβάλει αυτή την εβδομάδα το μέγιστο επιτρεπόμενο πρόστιμο των 10 εκατομμυρίων ευρώ ($11,2 εκατομμύρια USD) κατά της Apple και της Google για την εκμετάλλευση της προφίλωση χρηστών, μεταξύ άλλων παραβάσεων.
Δεδομένα
Οι ιστοσελίδες που εξετάστηκαν στην καινούρια έρευνα δειγματολήφθηκαν από τις 10.000 κορυφαίες ιστοσελίδες που αναφέρονται στο Quantcast, τις αγγλικές πολιτικές προστασίας της ιδιωτικής ζωής των οποίων εξήχθησαν μέσω αναζητήσεων Yandex σε UK-βασισμένα VPN (για να διασφαλιστεί ότι οι πολιτικές δεν ήταν geo-μπλοκ).
Οι ιστοσελίδες της ΕΕ έχουν υποχρεωθεί να παρέχουν προκαθορισμένες πολιτικές προστασίας της ιδιωτικής ζωής, που καλύπτουν 18 κεντρικές απαιτήσεις (βλέπε γράφημα παραπάνω) από τότε που ο κανονισμός GDPR τέθηκε πλήρως σε ισχύ τον Μάιο του 2018.
Οι ερευνητές περιόρισαν την εξαγωγή των πολιτικών προστασίας της ιδιωτικής ζωής σε μια περίοδο από τον Αύγουστο του 2018 και μετά, για να επιτρέψουν εύλογο χρόνο για τους τομείς να έχουν δημοσιεύσει τις απαιτούμενες πολιτικές (μία απαιτηση που είχαν προηγουμένως γνώση για τουλάχιστον ένα χρόνο της δύο ετών φάσης ανάπτυξης του GDPR από το 2016).
Η διαδικασία φιλτράρισματος παρήγαγε ένα σώμα πολιτικών προστασίας της ιδιωτικής ζωής 9.761 πολιτικών, από τις οποίες 1.080 πολιτικές επιλέχθηκαν τυχαία από τους ερευνητές.
Προεπεξεργασία
Η ομάδα χρησιμοποίησε δύο νομικούς εμπειρογνώμονες για να εκπαιδεύσει τέσσερις ανθρώπινους annotators να επισημάνουν κάθε μία από τις 18 πιθανές πολιτικές προστασίας της ιδιωτικής ζωής που απαιτούνται από το GDPR.
Μερικά από τα νομικά κείμενα στις πολιτικές καλύπτουν περισσότερες από μία από τις 18 απαιτήσεις, καθιστώντας αναγκαίο να χρησιμοποιηθεί ένα Convolutional Neural Network (CNN) για να ανιχνεύσει γλωσσικές λειτουργίες που σχετίζονται με κάθε πολιτική.
Μια αρχική προσπάθεια να εκπαιδεύσει ένα μοντέλο για να αναγνωρίσει τη συμμόρφωση με βάση τη γλώσσα έφτασε στο 80,5% επιτυχίας. Για να βελτιώσουν αυτά τα αποτελέσματα, οι ερευνητές applied Active Learning για να ενισχύσουν την απόδοση του μοντέλου χρησιμοποιώντας λιγότερα δεδομένα. Με αυτά τα μέσα ήταν δυνατό να εκπαιδευτεί ο ταξινομητής CNN μέχρι μια ακρίβεια του 89,2%, με ένα F1 score του 0,88 (όπου ‘1’ είναι πλήρης επιτυχία).
Για να διασφαλιστεί ότι οι ενσωματώσεις λέξεων ήταν συγκεκριμένες στις πολιτικές προστασίας της ιδιωτικής ζωής, οι ερευνητές εκπαίδευσαν ένα ανοικτό μοντέλο ενσωματώσεων λέξεων χρησιμοποιώντας τη βιβλιοθήκη FastText της Facebook.
Κατά την τυπική πρακτική, τα τελικά δεδομένα χωρίστηκαν 80/20 μεταξύ εκπαιδευμένων δεδομένων και δεδομένων δοκιμής (δηλαδή τυχαία επιλεγμένα δεδομένα κατά τα οποία η ακρίβεια του αλγορίθμου θα κριθεί). Eine μελέτη μετρήσεων με ανθρώπινη συμμετοχή προστέθηκε στην αρχιτεκτονική για να αξιολογήσει την ποιότητα των αποτελεσμάτων.

Η αρχιτεκτονική για το σύστημα ταξινομητή.
Κατά τη διάρκεια της ροής εργασίας, παράχθηκαν 11.271 ανθρώπινες annotaciones τμήματα πολιτικών προστασίας της ιδιωτικής ζωής, κάθε μία από τις οποίες εξετάστηκε από τέσσερις ανθρώπινους annotators που είχαν εκπαιδευτεί από τους δύο νομικούς εμπειρογνώμονες που συμμετείχαν στη μελέτη. Όπου συνέβη διαφωνία, ήταν απαραίτητο ένα ποσοστό συμφωνίας 75% για να μην απορριφθεί η δεδομένα από την ένταξη.

Άνθρωποι στη ροή – δεν ήταν δυνατό να αυτοματοποιηθεί πλήρως η σήμανση των δεδομένων πολιτικής, αν και το Active Learning επέτρεψε μια ροή που βασίζεται σε πισίνα που έκανε το έργο εφικτό.
Εκτός από τα αποτελέσματα που αναφέρθηκαν ήδη, οι χρήστες βρήκαν ότι η μεταφερσιμότητα – το δικαίωμα σύμφωνα με το GDPR να μετακινήσετε ή να εξαγάγετε δεδομένα που κατέχονται από μια εταιρεία – ήταν σχεδόν τόσο καλά εξυπηρετημένο όσο και η προφίλωση.
Οι ερευνητές καταλήγουν:
‘[Απαιτήσεις] όπως το δικαίωμα των χρηστών στη μεταφερσιμότητα και την παροχή των στοιχείων επικοινωνίας του Αξιωματούχου Προστασίας Δεδομένων (DPO contact) καλύπτονται από 15,5% και 16,4% ιστοσελίδες, αντίστοιχα. Άλλες πρωταρχικές απαιτήσεις, όπως το δικαίωμα των χρηστών να καταθέσουν καταγγελία, να ανακαλέσουν τη συγκατάθεση, το δικαίωμα να αντιταχθούν και η απόφαση επαρκούς προστασίας, καλύπτονται από 17-20% ιστοσελίδες.’
…και συνεχίζουν:
‘Φαίνεται ότι μόνο το 3% των ιστοσελίδων συμμορφώνονται πλήρως με τις 18 απαιτήσεις. Αυτά τα ευρήματα υποδηλώνουν ότι πολλές ιστοσελίδες δεν ακολουθούν ακόμη τις απαιτήσεις του GDPR.’
7pm 26/11/2021 – Διευκρινίστηκε το πρώτο γράφημα. – MA












