Künstliche Intelligenz
Analyse von 25 Jahren Datenschutzrichtlinien mit Machine Learning

Eine kürzlich durchgeführte Studie hat mithilfe von Machine-Learning-Analysetechniken die Lesbarkeit, Nützlichkeit, Länge und Komplexität von über 50.000 Datenschutzrichtlinien auf beliebten Websites in einem Zeitraum von 25 Jahren von 1996 bis 2021 untersucht. Die Forschung kommt zu dem Schluss, dass der durchschnittliche Leser 400 Stunden “jährlicher Lesezeit” (mehr als eine Stunde pro Tag) aufwenden müsste, um die wachsende Wortanzahl, die verwirrende Sprache und die vagen Sprachverwendungen zu durchdringen, die die modernen Datenschutzrichtlinien einiger der meistbesuchten Websites kennzeichnen.
Der Bericht stellt fest:
‘Die durchschnittliche Richtlinienlänge hat sich in den letzten zehn Jahren fast verdoppelt, mit 2159 Wörtern im März 2011 und 4191 Wörtern im März 2021, und fast vervierfacht seit 2000 (1146 Wörter).’

Die mittlere Wortanzahl und Satzanzahl unter den untersuchten Korpora, über einen Zeitraum von 25 Jahren. Quelle: https://arxiv.org/pdf/2201.08739.pdf
Obwohl die Rate des Anstiegs der Länge auffällig war, als die Datenschutz-Grundverordnung (DSGVO) und der California Consumer Privacy Act (CCPA) in Kraft traten, betrachtet die Studie diese Variationen als “kleine Effektgrößen”, die gegenüber dem breiteren langfristigen Trend unbedeutend erscheinen. Die DSGVO wird jedoch als mögliche Ursache für die zunehmende “vage” Sprache in den Richtlinien identifiziert (siehe unten).
Wenn man von einer Lesegeschwindigkeit von 250 Wörtern pro Minute ausgeht, behauptet die Studie, dass die durchschnittliche Datenschutzrichtlinie jetzt 17 Minuten zum Lesen benötigt, während beliebtere Richtlinien (d. h. Richtlinien, die mit einer hohen Anzahl von Benutzern verbunden sind) 23 Minuten zum Abschließen benötigen.
Die längste Richtlinie im Datensatz, von Microsoft, erfordert 152 Minuten zum Verbrauch, laut der Forschung, die eine Reihe von Varianten auf Googles BERT-Sprachmodell nutzte.

Wachstum der Rate der jährlichen Stunden, die zum Lesen moderner Datenschutzrichtlinien benötigt werden, unter der Annahme, dass der Leser 1462 eindeutige Websites pro Jahr besucht.
Ein großer Teil des jüngsten Anstiegs der Wortanzahl und der Mehrdeutigkeit in den Datenschutzrichtlinien wird von der Studie als Reaktion auf die Bemühungen der letzten zwei Jahrzehnte zur Einführung von Vorschriften zurückgeführt, aber auch auf die unredliche Verwendung von Vorschriften zur Einhaltung der Datenschutzvorschriften als Vorwand, um die Reichweite und Undurchsichtigkeit der Datenschutzrichtlinien heimlich zu erhöhen.
‘Insgesamt zeigen unsere Ergebnisse, dass die jüngsten Datenschutzvorschriften die Privatsphäre der Benutzer im Internet nicht wesentlich verbessert haben, sondern zu aufgeblähten Datenschutzrichtlinien geführt haben, die invasivere Datenpraktiken beschreiben.’
Obwohl eine Reihe von NLP-Papieren (Natural Language Processing) in den letzten Jahren die Lesbarkeit und andere Aspekte von Datenschutzrichtlinien behandelt haben, glaubt der Autor, dass dies das erste Projekt dieser Art ist, das einen so umfassenden Überblick über die Entwicklung von Richtlinien in den letzten Jahrzehnten bietet.
Das Papier trägt den Titel Privacy Policies Across the Ages: Content and Readability of Privacy Policies 1996–2021 und stammt von Isabel Wagner am Cyber Technology Institute der De Montfort University im Vereinigten Königreich.
Elliptische Sprache
Der Bericht legt auch nahe, dass die durchschnittliche Anzahl von “verwirrenden Wörtern” (d. h. akzeptabel, bedeutend, hauptsächlich und anderen Wörtern, die keine definitive Bedeutung haben) in den Datenschutzrichtlinien stetig bis 2018 anstieg, aber dann von einem Median von 227 im März 2018 auf 304 im Juni 2020 sprunghaft anstieg.
Der Autor behauptet, dass dieser Anstieg auf die Auswirkungen der DSGVO zurückzuführen ist, und die Studie findet heraus, dass über zwei Drittel (72%) der Sätze in den untersuchten Datenschutzrichtlinien mindestens ein verwirrendes Wort enthielten.
Lesbarkeit
Über drei gängige Maße für die Leseschwierigkeit hinweg fand die Studie heraus, dass ‘Datenschutzrichtlinien im Laufe der Jahre immer schwerer zu lesen geworden sind’. Die Autoren schätzen, dass 41% der aktuellen anwendbaren Richtlinien, die 2021 verfügbar waren, einen Median Flesch-Reading-Ease (FRE, höher ist besser) von nur 31,8 hatten, wobei der Autor bemerkt ‘Dieser Wert weist auf einen sehr schwierigen Text hin, der am besten von Universitätsabsolventen verstanden wird’.
Zur gleichen Zeit erreichten nur 6,7% der Richtlinien einen FRE-Wert über 45 (was, wie der Bericht feststellt, der Lesestandard für Versicherungspolicen im Bundesstaat Florida ist).
Bewusstsein für Richtlinienänderungen
Die Arbeit behandelt auch das Ausmaß, in dem Datenschutzrichtlinien Details über die Art und Weise enthalten, wie der potenzielle Zustimmer eventually über nachfolgende Änderungen benachrichtigt wird, die die Bereitschaft des Benutzers, die Vereinbarung aufrechtzuerhalten, beeinflussen können.
Der Autor bemerkt:
‘2021 enthalten 73% der Richtlinien eine Aussage über Richtlinienänderungen. Von diesen geben 34% an, dass Änderungen durch eine Mitteilung in der Datenschutzrichtlinie angekündigt werden, 37% werden eine Mitteilung auf der Website veröffentlichen und 22% werden eine persönliche Mitteilung senden (die verbleibenden Richtlinien lassen die Art der Benachrichtigung unbestimmt).
‘Infolgedessen ist es für die meisten Benutzer unwahrscheinlich, dass sie von Änderungen in den Datenschutzrichtlinien erfahren.
‘Darüber hinaus haben die Benutzer fast keine bedeutungsvolle Wahl, wenn sich die Richtlinien ändern. Von den Richtlinien, die den Benutzer über Änderungen benachrichtigen, bieten nur 12% eine neue Zustimmung an, während 34% keine Wahl anbieten und 54% sie unbestimmt lassen.’

Die Ergebnisse der Studie zu den beschriebenen Methoden für die Benachrichtigung von Benutzern über Richtlinienänderungen.
Begrenzte Wahl bei der Nachverfolgung
Laut der Studie werden in den Datenschutzrichtlinien eine viel größere Anzahl von Mechanismen für den Zugriff auf Benutzerkontoinformationen angeboten als für den Zugriff auf Benutzerprofilinformationen. Benutzerprofilinformationen können durch automatisierte und nicht offensichtliche Mechanismen erstellt und aktualisiert werden, während Benutzerkontoinformationen nicht nur ausdrücklich vom Benutzer gewährt werden, sondern auch gemäß den Vorschriften verschiedener Gerichtsbarkeiten editierbar sein müssen.
Die Wahl der Verbraucher bei der Cookie-Zustimmung in den Datenschutzrichtlinien (ein Thema, das seit der Einführung der DSGVO heftig diskutiert wurde, als Hunderttausende von Cookie-Zustimmungspopups für EU-Instanzen internationaler und europäischer Websites entstanden) wird im Allgemeinen in den Richtlinien behandelt, verbirgt aber eine wichtigere Ebene weniger zugänglicher Daten*:
‘[Die] Wahlmöglichkeiten bei Cookies sind unzureichend, um die Benutzer vor allen Nachverfolgungen zu schützen, da Wahl- oder Kontrollmechanismen selten für Computerinformationen, Geräteidentifikatoren und personenbezogene Identifikatoren angeboten werden, die eine Nachverfolgung der Benutzer durch Fingerabdrücke ermöglichen.’

Ein krasser Kontrast im verfügbaren Kontrollniveau, das von den Datenschutzrichtlinien zwischen Profildaten (die auf implizite oder heimliche Weise erlangt werden können) und Benutzerkontodaten (bei denen ein gewisses Maß an Kontrolle häufig von der DSGVO, dem California Consumer Privacy Act (CCPA) und ähnlichen nationalen und regionalen Mechanismen vorgeschrieben wird) gewährt wird.
Daten
Um die Daten für die Studie zu erhalten, crawlte der Autor Websites nach Links zu ihren Datenschutzrichtlinien, wobei es häufig notwendig war, den Umfang über das ursprüngliche Ergebnis hinaus zu erweitern, aufgrund der Anzahl der nicht integralen Richtlinien, die auf weitere Richtlinien verweisen (von denen jede das Potenzial hat, sich entweder im Einklang mit oder unabhängig von der Eltern- oder verwandten Richtlinie zu ändern).
Die Wayback Machine wurde verwendet, um historische Richtlinien zu erhalten, obwohl es notwendig war, bei der Betrachtung der Ergebnisse die Richtlinien zu berücksichtigen, die durch eine robots.txt-Konfigurationsdatei (eine kleine Textdatei mit Anweisungen für Web-Crawling-Indexierungsagenten bezüglich der Seiten und anderen Entitäten, die sie nicht in einem öffentlichen Index enthalten sollten) vom Crawling oder Archivieren ausgeschlossen wurden.
Ein Snapshot pro Monat wurde von der Wayback Machine über ihre CDX-API für jede identifizierbare und kontinuierliche anwendbare Richtlinie unter Verwendung von Firefox unter Selenium abgerufen. Die Durchführung einer optischen Zeichenerkennung auf Richtlinien, die nur im PDF-Format verfügbar waren, wurde für das Projekt nicht in Betracht gezogen, das sich auf die (viel größere) Anzahl der verfügbaren HTML-Richtlinien beschränkte.
Ein interessantes Ergebnis des Projekts ist, dass die Klarheit und Lesbarkeit von pornografischen Websites tatsächlich über den untersuchten Zeitraum hinweg verbessert wurde – möglicherweise in Erwartung einer zunehmenden Regulierung und Klarstellung. Um diese Dokumente zu sammeln, war es notwendig, sie mit zusätzlichen Crawls von Wohnungs-IP-Adressen zu erhalten, aufgrund der Content-Blocking-Protokolle der Universität.
Anfangs wurden 1.068.683 Dokumente abgerufen, was 120.265 eindeutigen Dokumenten entspricht, die im Durchschnitt 39,1 Richtlinienartikel oder -klauseln und 4,4 eindeutige Richtlinientexte pro Link enthielten.
Englisch nur
Wie in ähnlichen jüngsten Studien üblich, konnte das Projekt keine nicht-englischen Datenschutzrichtlinien berücksichtigen, die während der Datenreinigungsphase unter Verwendung des PYCLD2-Pakets verworfen wurden.
Um Datenschutzrichtlinien von anderen Arten von Materialien zu unterscheiden, verwendete das Projekt einen Klassifizierer aus dem Jahr 2019 als gemeinsame Initiative der University of Wisconsin und der École Polytechnique Fédérale de Lausanne.

Architektur des IS-POLICY-Klassifizierers. Quelle: https://arxiv.org/pdf/1809.08396.pdf
Obwohl der IS-POLICY-Klassifizierer auf demselben 1.000-Dokumente-Korpus trainiert wurde wie im ursprünglichen Papier, musste der Autor neue nicht-Richtlinien-Dokumente für die Schulung erhalten, da die ursprünglichen Quellen nicht verfügbar waren.
Nach der Filterung wurde die Datenmenge auf 56.416 eindeutige Datenschutzrichtlinien reduziert.
* Die Zitation im Papier wird hier in einen Hyperlink umgewandelt, die Kursivtoggling ist aus dem Papier.
Erstveröffentlichung am 31. Januar 2022.












