Взгляд Anderson

Анализ 25 лет политики конфиденциальности с помощью машинного обучения

Опубликовано 31 января 2022

Обновлено 24 мая 2026

Martin Anderson

Недавнее исследование использовало методы анализа машинного обучения для изучения читаемости, полезности, длины и сложности более 50 000 политик конфиденциальности на популярных веб-сайтах за период в 25 лет с 1996 по 2021 год. Исследование заключает, что среднему читателю потребуется потратить 400 часов «годового чтения» (более часа в день), чтобы проникнуть в растущее количество слов, неясный язык и расплывчатое использование языка, характеризующие современные политики конфиденциальности некоторых из наиболее часто посещаемых веб-сайтов.

Отчет гласит:

«Средняя длина политики почти удвоилась за последние десять лет, с 2159 словами в марте 2011 года и 4191 словом в марте 2021 года, и почти утроилась с 2000 года (1146 слов).»

Среднее количество слов и предложений в изучаемом корпусе за 25-летний период. Источник: https://arxiv.org/pdf/2201.08739.pdf

Хотя темп роста длины политики резко увеличился, когда вступили в силу GDPR и Закон о защите потребителей Калифорнии (CCPA), статья отвергает эти вариации как «небольшие эффекты», которые кажутся незначительными по сравнению с более широкой долгосрочной тенденцией. Однако GDPR идентифицируется как возможная причина роста «неясного» языка в политиках (см. ниже).

Предполагая скорость чтения 250 слов в минуту, статья утверждает, что средняя политика конфиденциальности теперь занимает 17 минут на чтение, в то время как более популярные политики (т. е. политики, связанные с большим количеством пользователей) занимают 23 минуты на чтение.

Самая длинная политика в наборе данных, от Microsoft, требует 152 минуты на чтение, согласно исследованию, которое использовало несколько вариантов модели языка BERT от Google.

Рост темпов годовых часов, необходимых для чтения современных политик конфиденциальности, предполагая, что читатель посещает 1462 уникальных веб-сайта в год.

Многое из недавнего увеличения количества слов и неясности в политиках конфиденциальности приписывается статьей как реакция на попытки за последние два десятилетия ввести регулирование, но также и на нечестное использование требований регулирующего соблюдения в качестве оправдания для скрытого увеличения объема и неясности политик конфиденциальности.

«В целом, наши результаты показывают, что недавние регулирования конфиденциальности не существенно улучшили конфиденциальность пользователей в Интернете, а rather привели к более раздутым политикам конфиденциальности, которые описывают более и более навязчивые практики сбора данных».

Хотя несколько работ по обработке естественного языка (NLP) в последние годы рассматривали читаемость и другие аспекты политик конфиденциальности, автор считает, что это первая работа такого типа, которая дает столь широкий обзор развития политик конфиденциальности в последние десятилетия.

Статья называется Политики конфиденциальности на протяжении веков: содержание и читаемость политик конфиденциальности 1996–2021 и исходит от Изабель Вагнер в Институте кибертехнологий Университета Де Монтфорта в Великобритании.

Неясный язык

Отчет также предполагает, что среднее количество «неясных слов» (т. е. приемлемый, значительный, в основном и других слов, которые не дают определенного значения) в политиках конфиденциальности стабильно увеличивалось до 2018 года, но затем резко возросло с медианы 227 около марта 2018 года до 304 в июне 2020 года.

Автор утверждает, что этот рост обусловлен эффектами GDPR, и статья находит, что более двух третей (72%) предложений в изучаемых политиках конфиденциальности содержали не менее одного неясного слова.

Читаемость

По трем общим мерам сложности чтения исследование показало, что «политики конфиденциальности стали все труднее читать с течением лет». Авторы оценивают, что 41% текущих политик конфиденциальности, доступных в 2021 году, имели медиану индекса читаемости Флеша (FRE, чем выше, тем лучше) всего 31,8, при этом автор отмечает «Этот балл указывает на очень трудный текст, который лучше всего понимается университетскими выпускниками».

В то же время только 6,7% политик достигли балла FRE выше 45 (что, как отмечает отчет, является стандартом чтения, необходимым для страховых политик во Флориде).

Осведомленность о изменении политики

Работа также рассматривает, в какой степени политики конфиденциальности содержат детали о том, как потенциальный согласившийся будет в конечном итоге уведомлен в случае последующих обновлений, которые могут повлиять на готовность пользователя поддерживать соглашение.

Автор отмечает:

«В 2021 году 73% политик содержат заявление об изменении политики. Из них 34% заявляют, что изменения будут объявлены уведомлением в политике конфиденциальности, 37% опубликуют уведомление на веб-сайте, и 22% отправят личное уведомление (остальные политики оставляют тип уведомления неуказанным).

«В результате большинство пользователей вряд ли узнают об изменениях в политиках конфиденциальности.

«Кроме того, пользователям практически не предоставляется никакого осмысленного выбора, когда политики меняются. Из политик, которые уведомляют пользователя об изменениях, только 12% предлагают новый опт-ин, в то время как 34% не дают никакого выбора, и 54% оставляют его неуказанным».

Найденные в статье методы уведомления пользователей об изменениях в политиках.

Ограниченный выбор в отношении отслеживания

Согласно исследованию, гораздо больший диапазон механизмов предлагается в политиках конфиденциальности для доступа к информации о пользователе, чем для доступа к данным профиля пользователя. Данные профиля можно создавать и обновлять через автоматические и неочевидные механизмы, в то время как данные учетной записи пользователя не только явно предоставляются пользователем, но и должны быть отредактированы в соответствии с правилами различных юрисдикций.

Выбор потребителя в отношении согласия на файлы cookie в политиках конфиденциальности (тема, которая вызвала ожесточенные дебаты с момента введения GDPR, которое привело к сотням тысяч всплывающих окон согласия на файлы cookie для экземпляров веб-сайтов ЕС) обычно рассматривается в политиках, но скрывает более важный слой менее доступных данных*:

«Выбор в отношении файлов cookie недостаточен для защиты пользователей от всех форм отслеживания, поскольку механизмы выбора или контроля редко предлагаются для информации о компьютере, идентификаторов устройства и персональных идентификаторов, которые позволяют отслеживать пользователей через отпечатки пальцев»

Яркий контраст в уровне контроля, предоставляемого политиками конфиденциальности между данными профиля (которые могут быть получены неявными или скрытыми средствами) и данными учетной записи пользователя (где некоторая мера контроля часто предписывается GDPR, Законом о защите потребителей Калифорнии (CCPA) и аналогичными национальными и региональными механизмами).

Данные

Чтобы получить данные для исследования, автор проанализировал веб-сайты на наличие ссылок на их политики конфиденциальности, часто находя необходимым расширить объем поиска за пределы первоначального результата из-за количества неполных политик, которые ссылаются на дальнейшие политики (каждая из которых имеет потенциал измениться либо вместе с родительской или связанной политикой, либо независимо от нее).

Была использована Машина времени, чтобы получить исторические политики, хотя при рассмотрении результатов было необходимо учитывать политики, которые были заблокированы от краулинга или архивирования через файл конфигурации robots.txt (маленький текстовый файл, содержащий инструкции для веб-краулинговых агентов индексации относительно страниц и других сущностей, которые они не должны включать в публичный индекс).

Был получен один снимок в месяц из Машины времени через CDX API для каждой идентифицируемой и непрерывной применимой политики, используя Firefox под Selenium. Выполнение оптического распознавания символов в политиках, доступных только в формате PDF, не было рассмотрено в проекте, который ограничивался (гораздо большим) количеством доступных HTML-политик.

Одним из интересных результатов проекта является то, что ясность и читаемость веб-сайтов для взрослых на самом деле улучшились за изучаемый период – возможно, в ожидании растущих призывов к увеличению регулирования и ясности. Чтобы собрать эти документы, было необходимо получить их с помощью дополнительных краулов из住宅ных IP-адресов из-за протоколов блокировки контента университета.

Первоначально было получено 1 068 683 документа, что соответствовало 120 265 уникальным документам, содержащим в среднем 39,1 статьи или пункта политики и 4,4 уникальных текста политики для каждой ссылки.

Только английский

Как и в подобных недавних исследованиях, проект не смог рассмотреть политики конфиденциальности на языках, кроме английского, которые были отбрасываются на этапе очистки данных с помощью пакета PYCLD2.

Чтобы различать политики конфиденциальности и другие типы материалов, проект использовал классификатор разработанный в 2019 году в качестве совместной инициативы Университета Висконсина и Эcole Polytechnique Fédérale de Lausanne.

Архитектура классификатора IS-POLICY. Источник: https://arxiv.org/pdf/1809.08396.pdf

Хотя классификатор IS-POLICY был обучен на том же корпусе из 1000 документов, что и в исходной статье, автору пришлось получить новые неполитики документы для обучения, поскольку исходные источники были недоступны.

После фильтрации данные были сокращены до 56 416 уникальных политик конфиденциальности.

* Внутреннее цитирование статьи преобразовано в гиперссылку здесь, переключение курсива из статьи.

Опубликовано впервые 31 января 2022 года.