Искусственный интеллект

Исследователи ИИ оценивают, что 97% веб-сайтов ЕС не соответствуют требованиям GDPR по защите конфиденциальности – особенно профилированию пользователей

Published November 26, 2021

Updated April 28, 2026

Martin Anderson

Исследователи в США использовали методы машинного обучения для изучения политики конфиденциальности GDPR более чем тысячи представительных веб-сайтов, базирующихся в ЕС. Они обнаружили, что 97% изученных сайтов не соответствовали хотя бы одному требованию нормативной базы Европейского Союза 2018 года, и что они соответствовали меньше всего нормативным требованиям, касающимся практики “профилирования пользователей”.

Бумага гласит:

‘[Поскольку] политика конфиденциальности является основным каналом связи для пользователей, чтобы понять и контролировать свою конфиденциальность, многие компании обновили свои политики конфиденциальности после вступления GDPR в силу. Однако большинство политик конфиденциальности являются многословными, полными жаргона и неясно описывают практику данных компаний и права пользователей. Следовательно, неясно, соответствуют ли они GDPR.’

Она продолжает:

‘Наши результаты показывают, что даже после вступления GDPR в силу 97% веб-сайтов все еще не соответствуют хотя бы одному требованию GDPR.’

Исследование называется Автоматическое обнаружение требований GDPR к раскрытию информации в политиках конфиденциальности с использованием глубокого активного обучения и было проведено тремя исследователями из Университета Вирджинии в Шарлоттсвилле.

Конфиденциальность последней

Область наименьшего соответствия, согласно исследованию, касалась стипуляций GDPR о профилировании пользователей, при этом авторы заявили, что только 15,3% изученных сайтов полностью соответствовали этому конкретному правилу.

График соответствия среди 9761 веб-сайтов, изученных для исследования. Источник: https://arxiv.org/pdf/2111.04224.pdf

График соответствия среди политик конфиденциальности веб-сайтов, изученных для исследования. Источник: https://arxiv.org/pdf/2111.04224.pdf

Профилирование пользователей (где взаимодействие человека с веб-сайтами записывается и часто используется для “целевой” рекламы в других онлайн-контекстах) стало одним из самых горячих споров в технологической сфере с момента скандала с Cambridge Analytica.

В вторник ключевой комитет Европейского парламента принял первый этап законодательства о новом Законе о цифровых рынках (DMA), который запретит целевую рекламу для несовершеннолетних, налагая штрафы до 20% от глобального годового оборота для компаний, нарушивших закон.

Хотя Закон был воспринят средствами массовой информации как прямая реакция на растущее влияние технологических гигантов, таких как Facebook и Google, масштаб несоответствия, представленный новым исследованием, предполагает, что подавляющее большинство компаний ЕС (включая европейские филиалы американских компаний, торгующих в Европе) юридически подвержены штрафам GDPR.

Кроме того, Италия на этой неделе наложила максимально допустимый штраф в размере 10 миллионов евро ($11,2 миллиона USD) против Apple и Google за эксплуатацию профилирования пользователей, среди других нарушений.

Данные

Изученные веб-сайты были отобраны из топ-10 000 веб-сайтов, перечисленных в Quantcast, англоязычные политики конфиденциальности которых были извлечены через поиск Yandex на британских VPN (чтобы обеспечить, что политики не были геоблокированы).

Веб-сайты ЕС были обязаны предоставлять предписанные политики конфиденциальности, покрывающие 18 центральных требований (см. график выше), с момента вступления Общего регламента по защите данных (GDPR) в силу в мае 2018 года.

Исследователи ограничили извлечение политик конфиденциальности периодом с августа 2018 года, чтобы позволить разумное время для доменов, чтобы опубликовать необходимые политики (требование, о котором они имели предварительные знания не менее чем за год из двухлетней фазы разработки GDPR с 2016 года).

Процесс фильтрации произвел корпус конфиденциальности из 9761 политики, из которых 1080 политик были случайным образом выбраны исследователями.

Предварительная обработка

Команда привлекла двух юридических экспертов для обучения четырех человеческих аннотаторов для маркировки каждой из 18 возможных политик конфиденциальности, предусмотренных GDPR.

Некоторый из юридического языка в политиках покрывал более одного из 18 требований, что сделало необходимым использование свёрточной нейронной сети (CNN) для обнаружения языковых особенностей, связанных с каждой политикой.

Первоначальная попытка обучить модель для определения соответствия на основе языка достигла 80,5% успеха. Чтобы улучшить эти результаты, исследователи применили Активное обучение, чтобы повысить производительность модели с использованием меньше размеченных данных. С помощью этих средств было возможно обучить классификатор CNN до точности 89,2%, с F1-оценкой 0,88 (где ‘1’ является полным успехом).

Чтобы обеспечить, что встроенные слова были специфичны для политики конфиденциальности, исследователи обучили не监督ируемую модель встроенных слов с использованием библиотеки FastText от Facebook.

Согласно стандартной практике, окончательные данные были разделены 80/20 между обученными данными и тестовыми данными (т.е. случайно выбранными данными, против которых будет оценена точность алгоритма). Измерение качества результатов человека в цикле было добавлено к архитектуре для оценки качества результатов.

Архитектура классификатора.

В процессе рабочего потока было произведено 11 271 человеческих аннотированных сегментов политики конфиденциальности, каждый из которых был рассмотрен четырьмя человеческими аннотаторами, обученными двумя юридическими экспертами, участвовавшими в исследовании. Когда возникали разногласия, требовался коэффициент согласия 75%, чтобы не отклонить данные от включения.

Люди в цикле – было невозможно полностью автоматизировать маркировку данных политики, хотя Активное обучение позволило реализовать рабочий процесс на основе пула, который сделал проект осуществимым.

Помимо уже упомянутых результатов, пользователи обнаружили, что передача – право по GDPR на передачу или экспорт данных, хранящихся компанией, – была почти так же плохо обслужена, как и профилирование.

Исследователи заключили:

‘[Требования] такие как право пользователей на передачу и предоставление контактной информации офицера по защите данных (контакт DPO) покрываются 15,5% и 16,4% веб-сайтов соответственно. Другие основные требования, такие как право пользователей на подачу жалобы, отзыв согласия, право на возражение и решение об адекватности, покрываются 17-20% веб-сайтов.’

…и продолжают:

‘Похоже, что только 3% веб-сайтов полностью соответствуют 18 требованиям. Эти результаты указывают на то, что многие веб-сайты все еще не следуют требованиям GDPR.’

7pm 26/11/2021 – Уточнено первое подпись к графику. – MA

Martin Anderson

Писатель о машинном обучении, специалист в области синтеза человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.

Unite.AI

Исследователи ИИ оценивают, что 97% веб-сайтов ЕС не соответствуют требованиям GDPR по защите конфиденциальности – особенно профилированию пользователей

Конфиденциальность последней

Данные

Предварительная обработка

You may like