Stummel KI-Forscher schätzen, dass 97 % der EU-Websites die DSGVO-Datenschutzanforderungen nicht erfüllen – insbesondere die Benutzerprofilerstellung – Unite.AI
Vernetzen Sie sich mit uns

Artificial Intelligence

KI-Forscher schätzen, dass 97 % der EU-Websites die Datenschutzanforderungen der DSGVO nicht erfüllen – insbesondere die Erstellung von Benutzerprofilen

mm
Aktualisiert on

Forscher in den USA haben Techniken des maschinellen Lernens eingesetzt, um die DSGVO-Datenschutzrichtlinien von über tausend repräsentativen Websites mit Sitz in der EU zu untersuchen. Sie stellten fest, dass 97 % der untersuchten Websites mindestens eine Anforderung des Regulierungsrahmens der Europäischen Union aus dem Jahr 2018 nicht erfüllten und dass sie am allerwenigsten die regulatorischen Anforderungen im Zusammenhang mit der Praxis der „Benutzerprofilierung“ erfüllten.

Das Papier sagt:

„[Da] die Datenschutzrichtlinie der wesentliche Kommunikationskanal für Benutzer ist, um ihre Privatsphäre zu verstehen und zu kontrollieren, haben viele Unternehmen ihre Datenschutzrichtlinien nach der Durchsetzung der DSGVO aktualisiert.“ Die meisten Datenschutzrichtlinien sind jedoch ausführlich, voller Fachjargon und beschreiben die Datenpraktiken der Unternehmen und die Rechte der Benutzer nur vage. Daher ist unklar, ob sie der DSGVO entsprechen.“

Es geht weiter:

„Unsere Ergebnisse zeigen, dass auch nach Inkrafttreten der DSGVO 97 % der Websites immer noch nicht mindestens eine Anforderung der DSGVO erfüllen.“

Das Studie ist betitelt Automatisierte Erkennung von DSGVO-Offenlegungsanforderungen in Datenschutzrichtlinien mithilfe von Deep Active Learning, und stammt von drei Forschern der University of Virginia in Charlottesville.

Datenschutz zuletzt

Der Bereich mit der geringsten Compliance betraf der Studie zufolge die DSGVO Bestimmungen zum Thema Benutzerprofilierung, wobei die Autoren angaben, dass nur 15.3 % der untersuchten Websites diese spezielle Regel vollständig einhielten.

Ein Diagramm der Compliance von 9761 Websites, die für die Studie untersucht wurden. Quelle: https://arxiv.org/pdf/2111.04224.pdf

Ein Diagramm zur Einhaltung der DSGVO-Richtlinien von Websites, die für die Studie untersucht wurden. Quelle: https://arxiv.org/pdf/2111.04224.pdf

Das Erstellen von Benutzerprofilen (wobei die Interaktion einer Person mit Websites aufgezeichnet und häufig dazu verwendet wird, sie in anderen Online-Kontexten, beispielsweise für Werbung, gezielt anzusprechen) ist seit dem Cambridge-Analytica-Skandal zu einer der heißesten Kontroversen im Technologiebereich geworden.

Am Dienstag tagt ein Schlüsselausschuss des Europaparlaments Bestanden die erste Stufe des neuen Gesetzes über digitale Märkte (DMA) Gesetzgebung, die das Verhaltens-Targeting von Minderjährigen verbieten und Geldstrafen von bis zu 20 % verhängen würde globale Jahresumsatz für rechtsverletzende Unternehmen.

Obwohl das Gesetz von den Medien als direkte Reaktion auf den wachsenden Einfluss von Technologiegiganten wie Facebook und Google aufgefasst wurde, deutet das schiere Ausmaß der Nichteinhaltung, das die neue Studie darstellt, darauf hin, dass die überwiegende Mehrheit der EU-Unternehmen (einschließlich EU-Unternehmen) Wohnsitzbüros amerikanischer Unternehmen, die in Europa handeln) unterliegen rechtlich den DSGVO-Bußgeldern.

Darüber hinaus hat Italien diese Woche die maximal zulässige Geldstrafe verhängt von 10 Millionen Euro (11.2 Millionen US-Dollar) gegen Apple und Google wegen Ausnutzung von Benutzerprofilen und anderen Verstößen.

Datum

Die in der neuen Untersuchung untersuchten Websites wurden aus den 10,000 in Quantcast aufgeführten Top-Websites ausgewählt, deren englischsprachige Datenschutzrichtlinien durch Yandex-Suchen in britischen VPNs extrahiert wurden (um sicherzustellen, dass die Richtlinien nicht geoblockt wurden). .

Seit Inkrafttreten der Datenschutz-Grundverordnung (DSGVO) im Mai 18 sind EU-Websites verpflichtet, vorgeschriebene Datenschutzrichtlinien bereitzustellen, die 2018 zentrale Anforderungen abdecken (siehe Grafik oben).

Die Forscher beschränkten die Extraktion von Datenschutzrichtlinien auf einen Zeitraum ab August 2018, um den Domains eine angemessene Zeit für die Veröffentlichung der erforderlichen Richtlinien zu geben (eine Voraussetzung, über die sie während der zweijährigen Entwicklungsphase von mindestens einem Jahr im Voraus Bescheid wussten). DSGVO seit 2016).

Durch den Filterprozess entstand ein Datenschutzkorpus von 9,761 Richtlinien, aus denen die Forscher 1,080 Richtlinien zufällig ausgewählt haben.

Vorverarbeitung

Das Team beschäftigte zwei Rechtsexperten, um vier menschliche Annotatoren darin zu schulen, jede der 18 möglichen Datenschutzrichtlinien zu kennzeichnen, die von der DSGVO vorgeschrieben werden.

Einige der in den Richtlinien enthaltenen Rechtstexte deckten mehr als eine der 18 Anforderungen ab, was den Einsatz eines Convolutional Neural Network (CNN) erforderlich machte, um mit jeder Richtlinie verknüpfte Sprachmerkmale zu erkennen.

Ein erster Versuch, ein Modell zu trainieren, um Compliance anhand der Sprache zu identifizieren, erzielte einen Erfolg von 80.5 %. Um diese Ergebnisse zu verbessern, wandten sich die Forscher an Aktives Lernen um die Leistung des Modells durch weniger gekennzeichnete Daten zu steigern. Dadurch war es möglich, den Klassifikator CNN mit einer Genauigkeit von 89.2 % zu trainieren F1-Punktzahl von 0.88 (wobei „1“ für vollständigen Erfolg steht).

Um sicherzustellen, dass die Worteinbettungen spezifisch für die Datenschutzrichtlinie waren, trainierten die Forscher mithilfe von Facebook ein unbeaufsichtigtes Worteinbettungsmodell FastText Python-Bibliothek.

Gemäß der Standardpraxis wurden die endgültigen Daten zu 80/20 zwischen trainierten Daten und Testdaten (dh zufällig ausgewählten Daten, anhand derer die Genauigkeit des Algorithmus beurteilt wird) aufgeteilt. Um die Qualität der Ergebnisse zu bewerten, wurde die Architektur um eine Human-in-the-Loop-Messstudie erweitert.

Die Architektur für das Klassifikatorsystem.

Die Architektur für das Klassifikatorsystem.

Im Laufe des Workflows wurden 11,271 von Menschen kommentierte Datenschutzrichtliniensegmente erstellt, die jeweils von vier menschlichen Kommentatoren überprüft wurden, die von den beiden an der Studie beteiligten Rechtsexperten geschult worden waren. Bei Meinungsverschiedenheiten war eine Zustimmungsquote von 75 % erforderlich, um die Daten nicht von der Aufnahme abzulehnen.

Humans-in-the-Loop – es war nicht möglich, die Kennzeichnung der Richtliniendaten vollständig zu automatisieren, obwohl Active Learning einen poolbasierten Workflow ermöglichte, der das Projekt machbar machte.

Humans-in-the-Loop – es war nicht möglich, die Kennzeichnung der Richtliniendaten vollständig zu automatisieren, obwohl Active Learning einen poolbasierten Workflow ermöglichte, der das Projekt machbar machte.

Neben den bereits erwähnten Ergebnissen fanden die Benutzer auch Folgendes heraus Portabilität – das Recht gemäß DSGVO, von einem Unternehmen gespeicherte Daten zu translozieren oder zu exportieren – wurde fast ebenso schlecht berücksichtigt wie Profiling.

Die Forscher kommen zu dem Schluss:

„[Anforderungen] wie das Recht der Nutzer auf Portabilität und die Bereitstellung der Kontaktinformationen des Datenschutzbeauftragten (DSB-Kontakt) werden von 15.5 % bzw. 16.4 % der Websites abgedeckt. Andere primäre Anforderungen, wie das Recht der Nutzer, eine Beschwerde einzureichen, die Einwilligung zu widerrufen, das Recht auf Widerspruch und die Angemessenheitsentscheidung, werden von 17–20 % der Websites abgedeckt.

…und fortsetzen:

„Es scheint, dass nur 3 % der Websites 18 Anforderungen vollständig erfüllen.“ „Diese Ergebnisse deuten darauf hin, dass viele Websites immer noch nicht den Anforderungen der DSGVO entsprechen.“

 

 

7, 26 Uhr – Klarstellung der ersten Grafikbeschriftung. – MA