Künstliche Intelligenz

KI-Forscher schätzen, dass 97% der EU-Websites die Datenschutzanforderungen der DSGVO nicht erfüllen – insbesondere die Nutzerprofilerstellung

Published November 26, 2021

Updated April 28, 2026

Martin Anderson

Forscher in den USA haben maschinelle Lernalgorithmen verwendet, um die Datenschutzrichtlinien von über tausend repräsentativen Websites mit Sitz in der EU zu untersuchen. Sie fanden heraus, dass 97% der untersuchten Websites nicht mindestens einer Anforderung des regulatorischen Rahmens der Europäischen Union von 2018 entsprachen und dass sie am wenigsten den regulatorischen Anforderungen an die Praxis der “Nutzerprofilerstellung” entsprachen.

Die Studie besagt:

‘[Da] die Datenschutzrichtlinie der wesentliche Kommunikationskanal für Nutzer ist, um ihre Privatsphäre zu verstehen und zu kontrollieren, haben viele Unternehmen ihre Datenschutzrichtlinien nach Inkrafttreten der DSGVO aktualisiert. Allerdings sind die meisten Datenschutzrichtlinien umfangreich, voller Fachjargon und beschreiben die Datenpraktiken von Unternehmen und die Rechte von Nutzern vage. Daher ist es unklar, ob sie der DSGVO entsprechen.’

Es wird weiter ausgeführt:

‘Unsere Ergebnisse zeigen, dass sogar nach Inkrafttreten der DSGVO 97% der Websites nicht mindestens einer Anforderung der DSGVO entsprechen.’

Die Studie trägt den Titel Automatisierte Erkennung von DSGVO-Offenlegungsanforderungen in Datenschutzrichtlinien unter Verwendung von Deep Active Learning und stammt von drei Forschern der University of Virginia at Charlottesville.

Datenschutz letzte Priorität

Der Bereich mit der geringsten Einhaltung war laut Studie die DSGVO-Vorschriften über die Nutzerprofilerstellung, wobei die Autoren angaben, dass nur 15,3% der untersuchten Websites dieser spezifischen Regel vollständig entsprachen.

Ein Graph der Einhaltung unter den 9761 für die Forschung untersuchten Websites. Quelle: https://arxiv.org/pdf/2111.04224.pdf

Ein Graph der Einhaltung unter den Datenschutzrichtlinien der für die Forschung untersuchten Websites. Quelle: https://arxiv.org/pdf/2111.04224.pdf

Die Nutzerprofilerstellung (bei der die Interaktion einer Person mit Websites aufgezeichnet und oft verwendet wird, um sie in anderen Online-Kontexten wie der Werbung “zu zielen”) ist seit dem Cambridge-Analytica-Skandal zu einem der umstrittensten Themen in der Technologiebranche geworden.

Am Dienstag verabschiedete ein wichtiger Ausschuss des Europäischen Parlaments den ersten Schritt des neuen Digital Markets Act (DMA)-Gesetzes, das das verhaltensbedingte Targeting von Minderjährigen verbieten und Unternehmen, die gegen das Gesetz verstoßen, mit Bußgeldern von bis zu 20% des globalen Jahresumsatzes belegen würde.

Obwohl das Gesetz von den Medien als direkte Reaktion auf den wachsenden Einfluss von Technologie-Giganten wie Facebook und Google wahrgenommen wird, deutet die enorme Größe der Nichteinhaltung, die durch die neue Forschung dargestellt wird, darauf hin, dass die überwiegende Mehrheit der EU-Unternehmen (einschließlich der in Europa ansässigen Niederlassungen amerikanischer Unternehmen, die in Europa tätig sind) rechtlich anfällig für DSGVO-Bußgelder sind.

Darüber hinaus hat Italien in dieser Woche das höchstmögliche Bußgeld von 10 Millionen Euro (11,2 Millionen USD) gegen Apple und Google wegen der Ausbeutung der Nutzerprofilerstellung und anderer Verstöße verhängt.

Daten

Die in der neuen Forschung untersuchten Websites wurden aus den Top 10.000 Websites ausgewählt, die in Quantcast aufgeführt sind, deren englischsprachige Datenschutzrichtlinien durch Yandex-Suchen auf UK-basierten VPNs extrahiert wurden (um sicherzustellen, dass die Richtlinien nicht geo-blockiert waren).

EU-Websites sind seit Mai 2018 verpflichtet, vorgeschriebene Datenschutzrichtlinien bereitzustellen, die 18 zentrale Anforderungen abdecken (siehe Graphik oben).

Die Forscher beschränkten ihre Extraktion von Datenschutzrichtlinien auf einen Zeitraum ab August 2018, um den Domains eine angemessene Zeit zu lassen, um die erforderlichen Richtlinien zu veröffentlichen (eine Anforderung, von der sie im Voraus Kenntnis hatten, mindestens ein Jahr der zweijährigen Entwicklungsphase der DSGVO seit 2016).

Der Filterprozess produzierte einen Datenschutzkorpus von 9.761 Richtlinien, aus denen die Forscher 1.080 Richtlinien zufällig auswählten.

Vorverarbeitung

Das Team beschäftigte zwei Rechtsexperten, um vier menschliche Annotatoren zu trainieren, um jede der 18 möglichen Datenschutzrichtlinien, die von der DSGVO vorgeschrieben sind, zu kennzeichnen.

Ein Teil der Fachsprache in den Richtlinien deckte mehr als eine der 18 Anforderungen ab, was es notwendig machte, ein Convolutional Neural Network (CNN) zu verwenden, um Sprachmerkmale zu erkennen, die mit jeder Richtlinie verbunden sind.

Ein erster Versuch, ein Modell zu trainieren, um die Einhaltung auf der Grundlage von Sprache zu erkennen, erreichte 80,5% Erfolg. Um diese Ergebnisse zu verbessern, wendeten die Forscher Active Learning an, um die Leistung des Modells mit weniger gekennzeichneten Daten zu stärken. Auf diese Weise konnte der Klassifizierer-CNN auf eine Genauigkeit von 89,2% trainiert werden, mit einem F1-Score von 0,88 (wobei “1” vollständiger Erfolg ist).

Um sicherzustellen, dass die Wort-Einbettungen spezifisch für Datenschutzrichtlinien sind, trainierten die Forscher ein unüberwachtes Wort-Einbettungsmodell mit der FastText-Bibliothek von Facebook.

Wie bei Standardpraktiken üblich, wurde die endgültige Datenmenge im Verhältnis 80/20 zwischen Trainingsdaten und Testdaten (d. h. zufällig ausgewählten Daten, gegen die die Genauigkeit des Algorithmus beurteilt wird) aufgeteilt. Ein menschliches Messstudie-System wurde der Architektur hinzugefügt, um die Qualität der Ergebnisse zu bewerten.

Die Architektur für das Klassifizierungssystem.

Im Laufe des Arbeitsablaufs wurden 11.271 menschlich gekennzeichnete Datenschutzrichtlinien-Segmente produziert, von denen jeder von vier menschlichen Annotatoren überprüft wurde, die von den zwei an der Studie beteiligten Rechtsexperten trainiert worden waren. Wenn Uneinigkeit bestand, wurde ein Übereinstimmungsverhältnis von 75% benötigt, um die Daten nicht von der Aufnahme auszuschließen.

Menschen im Arbeitsablauf – es war nicht möglich, die Kennzeichnung der Richtliniendaten vollständig zu automatisieren, obwohl Active Learning einen poolbasierten Arbeitsablauf ermöglichte, der das Projekt machbar machte.

Neben den bereits erwähnten Ergebnissen fanden die Nutzer heraus, dass Portabilität – das Recht nach der DSGVO, Daten, die von einem Unternehmen gespeichert werden, zu übertragen oder zu exportieren – fast so schlecht wie die Profilerstellung bedient wurde.

Die Forscher kommen zu dem Schluss:

‘[Anforderungen] wie das Recht der Nutzer auf Portabilität und die Bereitstellung der Kontaktdaten des Datenschutzbeauftragten (DPO-Kontakt) werden von 15,5% bzw. 16,4% der Websites abgedeckt. Andere primäre Anforderungen, wie das Recht der Nutzer, eine Beschwerde einzureichen, die Einwilligung zurückzuziehen, das Recht, Einspruch zu erheben, und die Angemessenheitsentscheidung, werden von 17-20% der Websites abgedeckt.’

…und fahren fort:

‘Es scheint, dass nur 3% der Websites allen 18 Anforderungen vollständig entsprechen. Diese Ergebnisse deuten darauf hin, dass viele Websites die Anforderungen der DSGVO immer noch nicht einhalten.’

19:00 Uhr, 26.11.2021 – Erster Graph-Beschriftung geklärt. – MA

Martin Anderson

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.

Unite.AI

KI-Forscher schätzen, dass 97% der EU-Websites die Datenschutzanforderungen der DSGVO nicht erfüllen – insbesondere die Nutzerprofilerstellung

Datenschutz letzte Priorität

Daten

Vorverarbeitung

You may like