Штучний інтелект
Дослідники штучного інтелекту оцінюють, що 97% веб-сайтів ЄС не відповідають вимогам конфіденційності GDPR – особливо профайлінгу користувачів

Дослідники в США використали техніки машинного навчання для вивчення політики конфіденційності GDPR понад тисячі представницьких веб-сайтів, розташованих в ЄС. Вони виявили, що 97% вивчених сайтів не відповідали至少 одній вимозі регуляторної бази Європейського Союзу 2018 року, і що вони відповідали найменше вимогам щодо практики “профайлінгу користувачів”.
Папера заявляє:
‘[Відтоді] політика конфіденційності є основним каналом спілкування для користувачів, щоб зрозуміти і контролювати свою конфіденційність, багато компаній оновили свої політики конфіденційності після введення GDPR. Однак більшість політик конфіденційності є розгорнутими, повними жаргону, і нечітко описують практику даних компаній і права користувачів. Тому неясно, чи вони відповідають вимогам GDPR.’
Це продовжується:
‘Наші результати показують, що навіть після введення GDPR 97% веб-сайтів все ще не відповідають至少 одній вимозі GDPR.’
Дослідження відома як Автоматичне виявлення вимог розкриття GDPR у політиках конфіденційності з використанням глибокого активного навчання, і походять від трьох дослідників Університету Вірджинії в Шарлоттсвіллі.
Конфіденційність остання
Область найменшої відповідності, згідно з дослідженням, стосується вимог GDPR щодо профайлінгу користувачів, при цьому автори заявляють, що лише 15,3% вивчених сайтів повністю відповідали цьому конкретному правилу.

Графік відповідності серед політик конфіденційності веб-сайтів, вивчених для дослідження. Джерело: https://arxiv.org/pdf/2111.04224.pdf
Профайлінг користувачів (де взаємодія людини з веб-сайтами реєструється і часто використовується для “цільової реклами” в інших онлайн-контекстах) став одним із найбільш спірних питань у сфері технологій після скандалу з Cambridge Analytica.
У вівторок ключовий комітет Європейського парламенту прийняв перший етап нового законодавства про цифрові ринки (DMA), яке забороняє поведінкову цільову рекламу для неповнолітніх, вводячи штрафи до 20% від глобального річного обсягу продаж для компаній, які порушують законодавство.
Хоча акт був прийнятий засобами масової інформації як прямий відповідь на зростаючий вплив технологічних гігантів, таких як Facebook і Google, масштаб недотримання, представлений новим дослідженням, свідчить про те, що більша частина компаній ЄС (включаючи офіси американських компаній, що торгують в Європі) юридично підлягає штрафам GDPR.
Крім того, Італія цього тижня ввела максимально допустимий штраф у розмірі 10 мільйонів євро ($11,2 мільйона США) проти Apple і Google за використання профайлінгу користувачів, серед інших порушень.
Дані
Веб-сайти, вивчені в новому дослідженні, були вибрані з першої десятки тисяч веб-сайтів, перелічених у Quantcast, англійські політики конфіденційності яких були витягнуті через пошук Yandex на основі VPN у Великій Британії (щоб забезпечити те, що політики не були геоблоковані).
Веб-сайти ЄС зобов’язані надавати передбачені політики конфіденційності, що охоплюють 18 центральних вимог (див. графік вище) з моменту введення Генеральної директиви про захист даних (GDPR) у травні 2018 року.
Дослідники обмежили витягування політик конфіденційності періодом з серпня 2018 року, щоб дозволити розумний час для доменів опублікувати необхідні політики (вимогу, про яку вони мали попередню інформацію щонайменше рік двох років розвитку GDPR з 2016 року).
Процес фільтрації дав політику конфіденційності з 9 761 політики, з яких 1 080 політик були випадково вибрані дослідниками.
Попередня обробка
Команда використала двох юридичних експертів для навчання чотирьох людей-анотаторів для маркування кожної з 18 можливих політик конфіденційності, передбачених GDPR.
Деякі юридичні терміни в політиках охоплювали більше однієї з 18 вимог, що робило необхідним використання Конволюційної нейронної мережі (CNN) для виявлення мовних особливостей, пов’язаних з кожною політикою.
Перша спроба тренування моделі для визначення відповідності на основі мови досягла 80,5% успіху. Для поліпшення цих результатів дослідники застосовували Активне навчання, щоб підвищити продуктивність моделі з меншим кільком маркованих даних. За допомогою цих засобів було можливо тренувати класифікатор CNN до точності 89,2%, з F1 балом 0,88 (де “1” – повний успіх).
Щоб забезпечити те, що вкладення слів були специфічними для політики конфіденційності, дослідники тренували несупервізований модель вкладення слів з використанням бібліотеки FastText від Facebook.
Як стандартної практики, остаточні дані були розділені 80/20 між тренованими даними і тестовими даними (тобто випадково вибраними даними, проти яких буде оцінена точність алгоритму). Людина в циклі вимірювання була додана до архітектури для оцінки якості результатів.

Архітектура класифікатора системи.
У ході робочого процесу було створено 11 271 людьми-анотованих сегментів політики конфіденційності, кожен з яких був переглянутий чотирма людьми-анотаторами, яких тренували два юридичні експерти, залучені до дослідження. Коли виникла розбіжність, потрібний був рівень згоди 75%, щоб не відхилити дані від включення.

Людина в циклі – не було можливості повністю автоматизувати маркування даних політики, хоча Активне навчання дозволило використовувати робочий потік, який зробив проект здійсненним.
Крім вже згаданих результатів, користувачі виявили, що переносимість – право згідно з GDPR на перенесення або експорт даних, що зберігаються компанією – була майже так само погано обслужена, як і профайлінг.
Дослідники роблять висновок:
‘[Вимоги] такі, як право користувачів на переносимість і надання контактної інформації офіцера з захисту даних (контакт DPO), покриті 15,5% і 16,4% веб-сайтів, відповідно. Інші основні вимоги, такі як право користувачів на подання скарги, відкликання згоди, право на заперечення та рішення про адекватність, покриті 17-20% веб-сайтів.’
…і продовжують:
‘Здається, що лише 3% веб-сайтів повністю відповідають 18 вимогам. Ці результати свідчать про те, що багато веб-сайтів все ще не слідують вимогам GDPR.’
7 вечора 26/11/2021 – КапTION першого графікаІ. – MA












