Штучний інтелект

Дослідники штучного інтелекту оцінюють, що 97% веб-сайтів ЄС не відповідають вимогам конфіденційності GDPR – особливо профайлінгу користувачів

Published November 26, 2021

Updated April 28, 2026

Martin Anderson

Дослідники в США використали техніки машинного навчання для вивчення політики конфіденційності GDPR понад тисячі представницьких веб-сайтів, розташованих в ЄС. Вони виявили, що 97% вивчених сайтів не відповідали至少 одній вимозі регуляторної бази Європейського Союзу 2018 року, і що вони відповідали найменше вимогам щодо практики “профайлінгу користувачів”.

Папера заявляє:

‘[Відтоді] політика конфіденційності є основним каналом спілкування для користувачів, щоб зрозуміти і контролювати свою конфіденційність, багато компаній оновили свої політики конфіденційності після введення GDPR. Однак більшість політик конфіденційності є розгорнутими, повними жаргону, і нечітко описують практику даних компаній і права користувачів. Тому неясно, чи вони відповідають вимогам GDPR.’

Це продовжується:

‘Наші результати показують, що навіть після введення GDPR 97% веб-сайтів все ще не відповідають至少 одній вимозі GDPR.’

Дослідження відома як Автоматичне виявлення вимог розкриття GDPR у політиках конфіденційності з використанням глибокого активного навчання, і походять від трьох дослідників Університету Вірджинії в Шарлоттсвіллі.

Конфіденційність остання

Область найменшої відповідності, згідно з дослідженням, стосується вимог GDPR щодо профайлінгу користувачів, при цьому автори заявляють, що лише 15,3% вивчених сайтів повністю відповідали цьому конкретному правилу.

Графік відповідності серед 9761 веб-сайтів, вивчених для дослідження. Джерело: https://arxiv.org/pdf/2111.04224.pdf

Графік відповідності серед політик конфіденційності веб-сайтів, вивчених для дослідження. Джерело: https://arxiv.org/pdf/2111.04224.pdf

Профайлінг користувачів (де взаємодія людини з веб-сайтами реєструється і часто використовується для “цільової реклами” в інших онлайн-контекстах) став одним із найбільш спірних питань у сфері технологій після скандалу з Cambridge Analytica.

У вівторок ключовий комітет Європейського парламенту прийняв перший етап нового законодавства про цифрові ринки (DMA), яке забороняє поведінкову цільову рекламу для неповнолітніх, вводячи штрафи до 20% від глобального річного обсягу продаж для компаній, які порушують законодавство.

Хоча акт був прийнятий засобами масової інформації як прямий відповідь на зростаючий вплив технологічних гігантів, таких як Facebook і Google, масштаб недотримання, представлений новим дослідженням, свідчить про те, що більша частина компаній ЄС (включаючи офіси американських компаній, що торгують в Європі) юридично підлягає штрафам GDPR.

Крім того, Італія цього тижня ввела максимально допустимий штраф у розмірі 10 мільйонів євро ($11,2 мільйона США) проти Apple і Google за використання профайлінгу користувачів, серед інших порушень.

Дані

Веб-сайти, вивчені в новому дослідженні, були вибрані з першої десятки тисяч веб-сайтів, перелічених у Quantcast, англійські політики конфіденційності яких були витягнуті через пошук Yandex на основі VPN у Великій Британії (щоб забезпечити те, що політики не були геоблоковані).

Веб-сайти ЄС зобов’язані надавати передбачені політики конфіденційності, що охоплюють 18 центральних вимог (див. графік вище) з моменту введення Генеральної директиви про захист даних (GDPR) у травні 2018 року.

Дослідники обмежили витягування політик конфіденційності періодом з серпня 2018 року, щоб дозволити розумний час для доменів опублікувати необхідні політики (вимогу, про яку вони мали попередню інформацію щонайменше рік двох років розвитку GDPR з 2016 року).

Процес фільтрації дав політику конфіденційності з 9 761 політики, з яких 1 080 політик були випадково вибрані дослідниками.

Попередня обробка

Команда використала двох юридичних експертів для навчання чотирьох людей-анотаторів для маркування кожної з 18 можливих політик конфіденційності, передбачених GDPR.

Деякі юридичні терміни в політиках охоплювали більше однієї з 18 вимог, що робило необхідним використання Конволюційної нейронної мережі (CNN) для виявлення мовних особливостей, пов’язаних з кожною політикою.

Перша спроба тренування моделі для визначення відповідності на основі мови досягла 80,5% успіху. Для поліпшення цих результатів дослідники застосовували Активне навчання, щоб підвищити продуктивність моделі з меншим кільком маркованих даних. За допомогою цих засобів було можливо тренувати класифікатор CNN до точності 89,2%, з F1 балом 0,88 (де “1” – повний успіх).

Щоб забезпечити те, що вкладення слів були специфічними для політики конфіденційності, дослідники тренували несупервізований модель вкладення слів з використанням бібліотеки FastText від Facebook.

Як стандартної практики, остаточні дані були розділені 80/20 між тренованими даними і тестовими даними (тобто випадково вибраними даними, проти яких буде оцінена точність алгоритму). Людина в циклі вимірювання була додана до архітектури для оцінки якості результатів.

Архітектура класифікатора системи.

У ході робочого процесу було створено 11 271 людьми-анотованих сегментів політики конфіденційності, кожен з яких був переглянутий чотирма людьми-анотаторами, яких тренували два юридичні експерти, залучені до дослідження. Коли виникла розбіжність, потрібний був рівень згоди 75%, щоб не відхилити дані від включення.

Людина в циклі – не було можливості повністю автоматизувати маркування даних політики, хоча Активне навчання дозволило використовувати робочий потік, який зробив проект здійсненним.

Крім вже згаданих результатів, користувачі виявили, що переносимість – право згідно з GDPR на перенесення або експорт даних, що зберігаються компанією – була майже так само погано обслужена, як і профайлінг.

Дослідники роблять висновок:

‘[Вимоги] такі, як право користувачів на переносимість і надання контактної інформації офіцера з захисту даних (контакт DPO), покриті 15,5% і 16,4% веб-сайтів, відповідно. Інші основні вимоги, такі як право користувачів на подання скарги, відкликання згоди, право на заперечення та рішення про адекватність, покриті 17-20% веб-сайтів.’

…і продовжують:

‘Здається, що лише 3% веб-сайтів повністю відповідають 18 вимогам. Ці результати свідчать про те, що багато веб-сайтів все ще не слідують вимогам GDPR.’

7 вечора 26/11/2021 – КапTION першого графікаІ. – MA

Martin Anderson

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]

Unite.AI

Дослідники штучного інтелекту оцінюють, що 97% веб-сайтів ЄС не відповідають вимогам конфіденційності GDPR – особливо профайлінгу користувачів

Конфіденційність остання

Дані

Попередня обробка

You may like