Свяжитесь с нами:

Анализ 25-летней политики конфиденциальности с помощью машинного обучения

Искусственный интеллект

Анализ 25-летней политики конфиденциальности с помощью машинного обучения

mm

В недавнем исследовании были использованы методы машинного обучения для оценки читабельности, полезности, длины и сложности более 50,000 25 политик конфиденциальности на популярных веб-сайтах за период, охватывающий 1996 лет с 2021 по 400 год. Исследование пришло к выводу, что среднестатистическому читателю необходимо будет посвятить XNUMX часов «ежегодного времени чтения» (более часа в день), чтобы разобраться в растущем количестве слов, запутанном языке и расплывчатом использовании лексики, которые характеризуют современные политики конфиденциальности некоторых наиболее посещаемых веб-сайтов.

В докладе говорится:

«Средний объем полиса за последние десять лет почти удвоился: в марте 2159 года он составлял 2011 слов, а в марте 4191 года — 2021 слово. С 2000 года он вырос почти в четыре раза (1146 слов)».

Среднее количество слов и предложений в изученном корпусе за 25-летний период. Источник: https://arxiv.org/pdf/2201.08739.pdf

Среднее количество слов и предложений в изученном корпусе за 25-летний период. Источник: https://arxiv.org/pdf/2201.08739.pdf

Хотя темпы роста длины резко возросли после вступления в силу GDPR и Закона штата Калифорния о защите прав потребителей (CCPA), в статье эти изменения рассматриваются как «небольшие размеры эффекта», которые, по-видимому, незначительны на фоне более широкой долгосрочной тенденции. Тем не менее, GDPR рассматривается как возможная причина растущей «расплывчатости» формулировок в нормативных актах (см. ниже).

Если предположить, что скорость чтения составляет 250 слов в минуту, в документе утверждается, что в среднем политика конфиденциальности теперь читается за 17 минут, в то время как более популярные политики (т.е. политики, связанные с большим количеством пользователей) занимают 23 минуты.

Самая длинная политика в наборе данных от Microsoft требует 152 минуты для использования, согласно исследованию, в котором использовался ряд варианты на Google языковая модель BERT.

Рост количества часов в год, необходимых для ознакомления с современными политиками конфиденциальности, при условии, что читатель посещает 1462 уникальных веб-сайта в год.

Рост количества часов в год, необходимых для ознакомления с современными политиками конфиденциальности, при условии, что читатель посещает 1462 уникальных сайта в год.

Большая часть недавнего увеличения многословия и двусмысленности в политиках конфиденциальности в документе объясняется реакцией на попытки навязать правила в течение последних двух десятилетий, а также на неискреннее использование требований соответствия нормативным требованиям в качестве предлога для тайного увеличения масштабов и непрозрачность политик конфиденциальности.

«В целом наши результаты показывают, что недавние правила в отношении конфиденциальности не только не улучшили существенно конфиденциальность пользователей в Интернете, но и привели к появлению более раздутых политик конфиденциальности, описывающих все более инвазивные методы работы с данными».

Хотя в последние годы в ряде статей по обработке естественного языка (NLP) рассматривались читабельность и другие аспекты политики конфиденциальности, автор считает, что это первый проект такого типа, в котором представлен такой широкий обзор развития политики за последние десятилетия.

Команда статье называется Политики конфиденциальности на протяжении веков: содержание и удобочитаемость политик конфиденциальности 1996–2021 гг., исходит от Изабель Вагнер из Института кибертехнологий Университета Де Монфор в Великобритании.

Эллиптический язык

В отчете также говорится, что среднее количество «запутывающих слов» (т.е. приемлемый, значительный, в основном, и другие слова, не имеющие точного значения) в политиках конфиденциальности неуклонно росли вплоть до 2018 года, но затем резко подскочили с медианы 227 в марте 2018 года до 304 в июне 2020 года.

Автор утверждает, что это увеличение связано с влиянием GDPR, и в документе обнаружено, что более двух третей (72%) предложений в изученных политиках конфиденциальности содержали как минимум одно запутывающее слово.

читабельность

По трем распространенным показателям трудности чтения исследование показало, что «Политики конфиденциальности становятся все более трудными для понимания с годами». По оценкам авторов, 41% действующих в настоящее время полисов, доступных в 2021 г., имели медианное значение. Легкость чтения Флеша (FRE, чем выше, тем лучше) всего 31.8, при этом автор отмечает «Эта оценка указывает на очень сложный текст, который лучше всего поймут выпускники университетов»..

При этом только 6.7%. из полисов получили оценку FRE выше 45 (что, как отмечается в отчете, является стандартом чтения, необходимым для страховых полисов в штате Флорида).

Осведомленность об изменении политики

В работе также рассматривается вопрос о том, в какой степени политика конфиденциальности включает сведения о том, каким образом потенциальное лицо, дающее согласие, будет уведомлено в случае последующих обновлений, что может повлиять на готовность пользователя сохранять соглашение.

Автор замечает:

«В 2021 году 73% политик включают заявление об изменении политики. Из них 34% заявляют, что об изменениях будет объявлено уведомлением в политике конфиденциальности, 37% опубликуют уведомление на веб-сайте, а 22% отправят личное уведомление (в остальных политиках тип уведомления не указан).

«В результате большинство пользователей вряд ли узнают об изменениях в политике конфиденциальности.

«Кроме того, при изменении политик пользователям практически не предоставляется осмысленного выбора. Из политик, которые уведомляют пользователя об изменениях, только 12% предлагают возможность нового согласия, тогда как 34% не предоставляют выбора, а 54% не указывают его».

Выводы документа об описанных методах уведомления пользователей об изменениях политики.

Выводы статьи относительно описанных методов уведомления пользователей об изменениях политики.

Ограниченный выбор в отношении отслеживания

Согласно исследованию, в политиках конфиденциальности предлагается гораздо больший набор механизмов для доступа к информации об учетной записи пользователя, чем для доступа к данным профиля пользователя. Данные профиля могут создаваться и обновляться с помощью автоматизированных и неочевидных механизмов, в то время как данные учетной записи пользователя не только явно предоставляются пользователем, но и подлежат редактированию в соответствии с правилами различных юрисдикций.

Выбор потребителя вместо согласия на использование файлов cookie в политике конфиденциальности (тема, которая привлекла жаркие споры с момента появления GDPR, обнародовавшего сотни тысяч всплывающих окон с согласием на использование файлов cookie для экземпляров международных и европейских веб-сайтов ЕС), обычно рассматривается в политиках, но скрывает более важный слой менее доступных данных*:

«[Варианты] выбора файлов cookie недостаточны для защиты пользователей от любого отслеживания, потому что механизмы выбора или контроля редко предлагаются для информация о компьютере, идентификаторы устройств и персональные идентификаторы, которые позволяют отслеживать пользователей с помощью отпечатков пальцев.

Резкий контраст в доступном уровне контроля, предоставляемом политиками конфиденциальности, между данными профиля (которые могут быть получены неявными или скрытыми способами) и данными учетной записи пользователя (где некоторая мера контроля часто предписывается GDPR, Калифорнийским законом о конфиденциальности потребителей (CCPA). ) и аналогичные национальные и региональные механизмы).

Резкий контраст в доступном уровне контроля, предоставляемом политиками конфиденциальности, между данными профиля (которые могут быть получены неявными или скрытыми способами) и данными учетной записи пользователя (где некоторая мера контроля часто предписывается GDPR, Калифорнийским законом о конфиденциальности потребителей (CCPA). ) и аналогичные национальные и региональные механизмы).

Цены

Чтобы получить данные для исследования, автор просканировал веб-сайты в поисках ссылок на их политики конфиденциальности, часто обнаруживая необходимость расширить область действия за пределы первоначального результата из-за количества нецелостных политик, которые ссылаются на дополнительные политики (каждая из которая потенциально может измениться либо в тандеме, либо независимо от родительской или связанной с ней политики).

Команда Wayback Machine использовался для получения исторических политик, хотя при рассмотрении результатов было необходимо учитывать политики, которые были заблокированы от сканирования или архивирования с помощью файла конфигурации robots.txt (небольшой текстовый файл, содержащий инструкции для агентов индексирования веб-сканеров в отношении страниц и других данных). объекты, которые они не должны включать в общедоступный индекс).

Один снимок в месяц был получен с Wayback Machine его CDX-API для каждой идентифицируемой и непрерывно применимой политики, используя Firefox под Selenium. Выполнение оптического распознавания символов в политиках, доступных только в формате PDF, не рассматривалось для проекта, который ограничился (гораздо большим) количеством доступных политик HTML.

Один из интересных результатов проекта заключается в том, что ясность и читаемость порнографических сайтов за исследуемый период фактически улучшились – возможно, в преддверии растущих требований к ужесточению регулирования и повышению прозрачности. Для сбора этих документов потребовалось дополнительное сканирование с домашних IP-адресов из-за университетских протоколов блокировки контента.

Первоначально было получено 1,068,683 120,265 39.1 документа, что составляет 4.4 XNUMX уникальных документов, содержащих в среднем XNUMX статей или положений политики и XNUMX уникальных текста политики для каждой ссылки.

Только английский

Как это обычно бывает в подобных недавних исследованиях, проект не смог решить политику конфиденциальности не на английском языке, которая была отброшена на этапе очистки данных с использованием ПИКЛД2 пакет.

Чтобы отличить политику конфиденциальности от других типов материалов, в проекте использовался классификатор разработанный в 2019 как совместная инициатива Университета Висконсина и Федеральной политехнической школы Лозанны.

Архитектура классификатора IS-POLICY. Источник: https://arxiv.org/pdf/1809.08396.pdf

Архитектура классификатора IS-POLICY. Источник: https://arxiv.org/pdf/1809.08396.pdf

Хотя классификатор IS-POLICY был обучен на том же корпусе из 1,000 документов, что и в исходной статье, автору пришлось получить для обучения новые документы, не относящиеся к политике, поскольку первоисточники были недоступны.

После фильтрации данные сократились до 56,416 XNUMX уникальных политик конфиденциальности.

 

* Встроенная ссылка на статью здесь преобразуется в гиперссылку, переключение курсива осуществляется из статьи.

Впервые опубликовано 31 января 2022 года.

Автор статей о машинном обучении, специалист по синтезу человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.
Личный сайт: Мартинандерсон.ай
Контактное лицо: [электронная почта защищена]
Твиттер: @manders_ai